當(dāng)前位置:高考升學(xué)網(wǎng) > 筆試面試 > 正文
(3)改進(jìn)
策略選擇最是重要,可以采用統(tǒng)計(jì)學(xué)習(xí)的方法改進(jìn)。
4 題
(1)思路:用哈希做
(2) 首先逐次讀入查詢串,算哈希值,保存在內(nèi)存數(shù)組中,同時(shí)統(tǒng)計(jì)頻度(注意值與日志項(xiàng)對(duì)應(yīng)關(guān)系) my.chinahrlab.com 選出前十的頻度,取出對(duì)應(yīng)的日志串,簡(jiǎn)單不過了。哈希的設(shè)計(jì)是關(guān)鍵。
5 題
(1)思路:先將集合按照大小排列后,優(yōu)先考慮小的集合是否與大的集合有交集。有就合并,如果小集合與所有其他集合都沒有交集,則獨(dú)立。獨(dú)立的集合在下一輪的比較中不用考慮。這樣就可以盡量減少字符串的比較次數(shù)。當(dāng)所有集合都獨(dú)立的時(shí)候,就終止。
(2)處理流程:
1.將集合按照大小排序,組成集合合并待處理列表
2.選擇最小的集合,找出與之有交集的集合,如果有,合并之;如果無(wú),則與其它集合是獨(dú)立集合,從待處理列表 中刪除。
3.重復(fù)直到待處理列表為空
算法:1。將集合按照大小從小到大排序,組成待處理的集合列表。 2。取出待處理集合列表中最小的集合,對(duì)于集合的每個(gè)元素,依次在其他集合中搜索是否有此元素存在:
1>若存在,則將此小集合與大集合合并,并根據(jù)大小插入對(duì)應(yīng)的位置 。轉(zhuǎn)3。
2>若不存在,則在該集合中取下一個(gè)元素。如果無(wú)下一個(gè)元素,即所有元素都不存在于其他集合。則表明此集合獨(dú)立,從待處理集合列表中刪除。并加入結(jié)果集合列表。轉(zhuǎn)3。
3。如果待處理集合列表不為空,轉(zhuǎn)2。
如果待處理集合列表為空,成功退出,則結(jié)果集合列表就是最終的輸出。
算法復(fù)雜度分析:
假設(shè)集合的個(gè)數(shù)為n,最大的集合元素為m 排序的時(shí)間復(fù)雜度可以達(dá)到nlog(n) 然后對(duì)于元素在其他集合中查找,最壞情況下為(n-1)m 查找一個(gè)集合是否與其他集合有交集的最壞情況是mm(n-1) 合并的時(shí)間復(fù)雜度不會(huì)超過查找集合有交集的最壞情況。所以最終最壞時(shí)間復(fù)雜度為O(mmnn)
需要說(shuō)明的是:此算法的均時(shí)間復(fù)雜度會(huì)很低,因?yàn)闊o(wú)論是查找還是合并,都是處于最壞情況的概率很小,而且排序后優(yōu)先用最小集合作為判斷是否獨(dú)立的對(duì)象,優(yōu)先與最大的集合進(jìn)行比較,這些都最大的回避了最壞情況。
(3)可能的改進(jìn):
首先可以實(shí)現(xiàn)將每個(gè)集合里面的字符串按照字典序進(jìn)行排列,這樣就可以將查找以及合并的效率增高。另外,可能采取恰當(dāng)?shù)臄?shù)據(jù)結(jié)構(gòu)也可以將查找以及合并等操作的效率得到提高。
1)此題10分
對(duì)任意輸入的正整數(shù)N,編寫C程序求N!的尾部連續(xù)0的個(gè)數(shù),并指出計(jì)算復(fù)雜度。如:18!=6402373705728000,尾部連續(xù)0的個(gè)數(shù)是3。 (不用考慮數(shù)值超出計(jì)算機(jī)整數(shù)界限的問題)
2)此題10分 編寫一個(gè)C語(yǔ)言函數(shù),要求輸入一個(gè)url,輸出該url是首頁(yè)、目錄頁(yè)或者其他url
如下形式叫做首頁(yè):
militia.info/
www.apcnc.com.cn/
http://www.cyjzs.comwww.greena888.com/
www.800cool.net/
http://hgh-products.my-age.net/
如下形式叫做目錄頁(yè):
thursdaythree.net/greenhouses--gas-global-green-house-warming/
http://www.mw.net.tw/user/tgk5ar1r/profile/
http://www.szeasy.com/food/yszt/chunjie/
www.fuckingjapanese.com/Reality/
請(qǐng)注意:
a) url有可能帶http頭也有可能不帶
b)動(dòng)態(tài)url(即含有"?"的url)的一律不算目錄頁(yè),如:
www.buddhismcity.net/utility/mailit.php?l=/activity/details/3135/
www.buddhismcity.net/utility/mailit.php?l=/activity/details/2449/
另:如果你會(huì)linux,請(qǐng)用linux下的grep命令實(shí)現(xiàn)第2題的功能(附加5分)。
3)此題40分
如果必須從網(wǎng)頁(yè)中區(qū)分出一部分"重要網(wǎng)頁(yè)"(例如在10億中選8億),比其他網(wǎng)頁(yè)更值得展現(xiàn)給用戶,請(qǐng)?zhí)岢鲆环N方案。
4)此題40分
假設(shè)有10億網(wǎng)頁(yè)已經(jīng)被我們存下來(lái),并提供如下信息:網(wǎng)頁(yè)全文(即網(wǎng)頁(yè)的源碼)、全文長(zhǎng)度、網(wǎng)頁(yè)正文(即網(wǎng)頁(yè)中提取的主體文字)、正文長(zhǎng)度,以及其他網(wǎng)頁(yè)提取物等,現(xiàn)在希望去掉其中的重復(fù)網(wǎng)頁(yè),請(qǐng)?zhí)岢隹尚械姆桨,?jì)算出每個(gè)網(wǎng)頁(yè)對(duì)應(yīng)的重復(fù)度,你可以自己對(duì)網(wǎng)頁(yè)重復(fù)下定義,也可以提出需要哪些更多的網(wǎng)頁(yè)提取物來(lái)實(shí)現(xiàn)更好的去重復(fù)方案。
閱讀了本文,本站還為你提供以下更多相關(guān)文章:
DHL筆試經(jīng)驗(yàn)
百度產(chǎn)品類筆試經(jīng)驗(yàn)
奇虎360筆試(產(chǎn)品類)經(jīng)驗(yàn)
常見的hr面試官面試問題大全
時(shí)間:2023-09-14 23:0:24企業(yè)面試官面試的問題有哪些
時(shí)間:2023-09-15 17:0:48企業(yè)面試官面試問題及參考
時(shí)間:2023-09-17 08:0:27高校教師招聘面試答辯100題
時(shí)間:2023-09-17 06:0:03