網絡爬蟲基本原理范文
時間:2023-11-20 17:28:40
導語:如何才能寫好一篇網絡爬蟲基本原理,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公務員之家整理的十篇范文,供你借鑒。
篇1
>> ASP網站數據庫的安全漏洞和防范策略的研究 GoogleHacking的入侵原理及防范策略 網站數據庫的安全防范及對策 主動監聽技術原理及防范策略研究 網站統計中的數據收集原理 基于ThinkPHP的野外數據采集系統網站的搭建與研究 學校網站存在的安全隱患及防范策略 GPS數據采集系統的設計及實施研究 視頻數據采集系統的原理及其應用 淺析數據采集系統中典型的模數轉換原理 典型網絡欺騙攻擊原理及防范的研究 網站注入式攻擊的原理與防范 網站數據庫的安全防范及對策淺談 淺析網站數據庫的安全防范及對策 計算機數據安全的探討及防范策略 基于云計算的數據安全風險及防范策略 測試系統的數據采集及通訊 DLL木馬的原理及其防范策略 閥門數據采集系統的硬件研究 基于數據采集平臺的高職院校師資隊伍建設策略研究 常見問題解答 當前所在位置:l。因此,只需要使用變量替換代表每頁地址變化的字符即可獲得相應的頁面地址。目前,一個Web頁面的分頁頁面中內容的超鏈接一般表示如下:連接
,只需要編寫適當的代碼既可以獲取該頁內容所對應的URL鏈接。在動態生成的頁面中大多數內容頁面中都包含相同的html標記,因此可以根據已定義規則的標記提取相關的需要部分的內容。例如:每個Web頁面都有相應的標題,代碼中呈現為標題,編寫相應的MID截取函數就可以獲得兩個title標簽之間標題,也可以用正則表達式來獲取,如:body("標題","","")[3]。
圖1 網站數據采集基本原理圖
3 網站防采集策略
目前,常用的網站數據防采集策略包括以下幾種:
1)通過在單位時間內限制固定IP地址對同一個網站所有站點的訪問次數來避免網站數據采集。
一般情況下,用戶在正常訪問某一個網站時不會在極短的時間內多次訪問同一個網站,只有網絡引擎爬蟲和網站數據采集工具會造成這樣的現象。但是這種方法容易造成誤判,并且如何設計時間的閾值是這種方法的關鍵。
2)通過人工的方式屏蔽可疑的訪問源IP。
網站的管理人員通過在后臺設置計數器來記錄訪問的源IP及在單位時間內的訪問頻率,進而通過人工干預的方式判斷并屏蔽可疑的IP地址。這種方法適用于小型的網站,大型的網站可能需要大量的人力來進行,同時這種方法難以解決通過的方式進行數據采集的問題。
3)將網站的內容以flas、圖片或者PDF文檔的格式進行呈現。
目前的搜索引擎爬蟲和網站數據采集工具還不具備對PDF文檔和圖片的識別和分析能力。這種方法能夠有效地避免網站數據被非法采集,但是它的適用面較窄,僅適用于一些用于多媒體視覺呈現的網站。
4)通過在網頁內嵌套藏網站的版權信息或者利用水印技術對Web頁面進行加密。
一般情況下,這些用于保護網站數據的信息被寫在了相應的CSS文件中。這種方法雖然不能阻止網站數據被非法采集,但它能夠使得被采集的數據無法完整的呈現在其他網站中。因為,網站數據采集工具或網絡爬蟲一般不會同時采集網站中的CSS文件,那些數據丟失了相應的格式化設置,就被顯示出來了。
5)通過在網站中對訪問者設置權限來保護數據。
這種方法要求用戶只有在登錄了系統后才能夠瀏覽網站的數據。自動化的數據采集工具和網絡爬蟲無法對每一個網站進行登錄,這種方法可極大程度上避免數據被采集,但同時網站的用戶友好性就降低了。
6)利用腳本語言對網站做隱藏分頁設置
由于網站數據采集工具和網絡爬蟲不會針對一個網站的隱藏分頁進行數據的分析,因此,這種方法能夠有效地阻止自動化工具對網站數據的采集。這種方法適用于對搜索引擎依賴度不高的網站,同時它無法阻止人工進行網站數據的采集。
7)對于動態的網站,可以采用隨機的模版避免非法數據采集。
由于網站數據采集工具是根據網頁特定的結構來定位所需要采集的數據,一旦網站的模版出現變更,采集工具中事前設定好的采集規則就會失效,這樣就可以避免網站的數據被非法地采集。這種方法造成的問題是破壞網站的用戶友好性。
8)在網頁中使用動態不規則的html標簽代替傳統的靜態html標簽。
在html標簽中包含空格和不包含空格的效果是一樣的,因此包含和不包含和< div>標簽,在頁面顯示中的效果也是一樣的。但是一般的網站數據采集工具中,這兩個是完全不同的標記。因此,隨機地在每個頁面的html標簽中添加若干個空格數就會導致網站數據采集工具相應的規則失效。但是這種方法違反了網頁設計的規范。
4 結論
隨著互聯網技術的不斷發展和個人PC機的不斷普及,越來越多人參與到網站的建設和維護中。如何有效地避免網站中的數據被非法的采集是每一個網管員必須掌握技能。該文主要研究了網站數據采集的基本原理和八種常用的網站數據防采集的方法,希望能為網站的建設和維護提供更多的幫助,。
參考文獻:
[1] 巫志勇.基于XMLHTTP的網站數據自動采集[J].福建電腦,2007(01).
篇2
【關鍵詞】小世界模型;社團分析;復雜網絡
0引言
隨著EMBA教育逐漸為社會各界所熟識,EMBA培養院校的招生工作目前面臨巨大壓力。從市場競爭的格局來看:一方面,國內EMBA院校已經達到64所,加上境外大學的教學項目,在國內招生的EMBA項目已經近百所,而且還有繼續擴大的趨勢,未來的競爭會更加激烈。另一方面,隨著MBA和其他碩士教育的迅速普及,未來EMBA的申請人數量將呈逐年下降的趨勢。這使得市場競爭態勢更加雪上加霜,商學院必須有所轉變,不能取得某一細分市場優勢地位的EMBA項目,或者沒有建立自己品牌特色的項目將面臨生存危機。
在各培養院校的招生過程中,尤其是EMBA項目的市場調研中,如何在龐大的數據、人際關系網絡中找到關鍵節點,進而通過關鍵節點尋找到適合EMBA招生的生源群體,是目前EMBA招生環節中的關鍵問題。當今社會的人際關系網絡錯綜復雜,變化萬千,如何對人際關系進行系統性的描述和梳理,劃分出相應的群體并研究他們的共同特征,是系統科學中十分關鍵的問題。復雜網絡理論由于其具有小世界、集群等特性,十分適用于對社會網絡即人際關系網絡中的人群進行分類與描述,進而尋找出人際關系網絡的關鍵節點和群體,為尋找出潛在招生對象提供依據。
1相關工作
現代市場營銷職能體系包括商品銷售、市場調查研究、生產與供應、創造市場要求和協調平衡公共關系五大職能。對于高等教育市場來看,高等教育提供的產品就是教育,教育市場有市場的需求,同時也具備了價值交換的能力,所以教育活動完全可以與市場接軌參與市場競爭。人際關系網絡是一個錯綜復雜、變化萬千的復雜系統。近年來隨著復雜網絡研究的興起,人們在這些理論的指導下能夠更好的了解和解釋現實世界的很多現象,比如反映社區特性的“物以類聚、人以群分”現象、反映小世界特性的“六度分隔”現象,以及反映復雜網絡節點的不對等特性的“馬太效應”等等。在很好的理解和解釋了這些現象的基礎上,研究者開始嘗試利用這些理論去幫助人們利用這些現象,并開發了很多的實際的應用和系統。例如:城市交通網絡、電子商務推薦系統、人際關系挖掘系統等。
近年來,學界關于復雜網絡的研究方興未艾。1998年Watts和Strogatz在Nature雜志上發表文章,引入了小世界(Small-World)網絡模型,以描述從完全規則網絡到完全隨機網絡的轉變。小世界網絡既具有與規則網絡類似的聚類特性,又具有與隨機網絡類似的較小的平均路徑長度。二是1999年Barabasi和Albert在science上發表文章指出,許多實際的復雜網絡的連接度分布具有冪律形式。由于冪律分布沒有明顯的特征長度,該類網絡又被稱為無標度(Scale-Free)網絡。而后科學家們又研究了各種復雜網絡的各種特性。
在人際關系網絡獲取方面,由于網絡內不僅節點眾多,而且關系的分類也多種多樣。因此獲取人際關系是一項非常復雜的工程,歷史上幾次比較大規模的實驗也僅僅是采用書信或者政府檔案的方式,覆蓋面十分有限。隨著網絡的發展,互聯網的內容日新月異,互聯網成為了最大的非結構化數據庫,使從網絡中探索人際關系成為了可能。目前網絡的關系獲取方法主要有兩種:關系搜索引擎和社區資源。關系搜索引擎的的基本原理是利用網絡爬蟲從網頁中抽取出人名、地名、機構名以及中文短語,再根據算法計算出他們存在關系的可能性。現階段國內的關系搜索引擎有微軟人立方(http://renlifang.msra.cn/)、雅虎人物搜索和搜搜華爾茲(http://tag.soso.com/)。但是由于網頁的來源比較復雜,而且存在重名的問題,得到的結果往往不精確,難以真實的表現出真實的人際關系。第二種搜索方式則是利用網絡中現有的社區資源,對其信息進行抓取,得到的信息雖然規模有限,但是可以確定所有節點信息,具有更強的結構化特性,更加符合真實人際關系的無標度和小世界特性。
2基于復雜網絡的招生生源社團分析方法
2.1系統的設計目標與創新點
在整個人際關系網絡中,存在一些子網,它們對于其內部的節點具有高類聚性,而對于子網外部節點的連接確相對稀疏的特性,我們稱之為人群的社團結構。
通過實現社團劃分系統,并對真實人際關系網絡進行處理和分析,研究復雜網絡社團劃分技術在未來人際關系網絡處理上的潛在應用以及較以前撒網式處理方式的優勢。本系統希望能夠對招生生源的人際關系網絡進行分析,尋找出人際關系中的關鍵節點以及關鍵社團信息,以此為EMBA招生生源選取以及宣傳廣告的定向投放目標選擇提供必要依據。
該方法是對傳統市場調查分析、廣告宣傳領域的再思考,相比廣泛撒網式的宣傳與調查,該方法具有效率高、定位準確、耗費人力物力較少、資源可重復利用性強等優點,十分適合于解決EMBA面臨的招生生源困難這一具體問題。
2.2網絡社區的選擇
選取網絡社區需要綜合考慮多方面因素:
(1)關系要真實有效,即網絡的好友關系能比較客觀的反映出現實生活中的好友關系。
(2)關系網絡要足夠大,僅僅包括幾千個節點的網絡能夠在非常短的時間內遍歷完畢,不能夠反映出來真實人際關系非常難以獲取的特點,不具有研究價值。
(3)關系網絡可以比較方便的獲得,部分網絡社區采用了加密設置,非注冊用戶不能夠獲得其他人的好友關系,雖然從技術上可以進行破解,但是存在較大的風險。
(4)社區允許爬蟲進行抓取,對于需要的頁面不存在robot.txt的限制。
(5)服務器比較強大,可以應對每秒鐘幾百次(包括爬蟲的訪問次數在內)的請求。
經過對國內較大的幾家SNS(社會性網絡服務)網站的測試分析,最終選取了聚友網(http://myspace.cn)作為實驗的樣本。聚友網是以SNS為基礎的娛樂平臺,是全球最大的在線交友平臺之一MySpace的中國本地化網站,符合以上幾點要求,且服務器可供校園網訪問。聚友網(Myspace),是以SNS為基礎的娛樂平臺,是全球最大的在線交友平臺Myspace的中國本地化網站,提供免費的微型博客、個人主頁、個人空間、電子相冊、博客空間、音樂盒視頻上傳空間等服務。我們所要采用的Myspace網絡是從該網站的眾多用戶中,使用網絡爬蟲技術獲得的其中的13569個用戶,網絡中包含了99185條關系,兩個節點之間的一條邊則意味著相應的兩個用戶之間互為好友關系。
2.3招生生源社團分析系統
招生生源社團劃分系統包括爬蟲獲取信息、關系分析、數據讀入、數據顯示、社團劃分和數據顯示六個個部分。網絡爬蟲系統將分析出的典型社會網絡信息,經過關系分析處理,最終存儲成為網絡原始結構數據。用戶可以使用社團劃分系統讀入已有的人際關系網絡數據,并讓系統對其進行社團劃分。在系統運行算法完畢后,將會自動保存對該人際關系網絡社團劃分后的最終結果,用戶可以通過窗口查看各個社團所包含的派系、節點等信息,被查看的社團還可以用圖片的形式顯示出來。
其中各模塊的功能如下:
爬蟲模塊:負責從典型社交網絡中獲取社交信息。
關系分析模塊:負責將社交信息之間的關系進行處理并存儲形成網絡原始結構數據。
數據讀入:讀入系統需要分析的原始數據。
數據寫出:將經過社團劃分系統處理后的數據保存到文檔中。
數據顯示:在社團劃分系統中顯示社團劃分的結果。
社團劃分:核心算法,分為2個部分。第一步,尋找原始數據中所有的派系;第二步,通過派系重疊矩陣劃分出k-派系社團。
3實驗與分析
3.1招生生源社團分析系統
社團劃分系統采用了復雜網絡社團劃分技術中的派系過濾算法為其主要核心。本章主要是使用社團劃分系統分析Myspace這一真實的人際關系網絡,將獲得的社團結果和統計結果與實際情況相對比,測試核心算法在系統中是否正確的運行,并驗證得出利用社團劃分系統分析學生的人際關系網絡,能夠得到合理的社團結構,滿足尋找潛在生源的目的,為EMBA招生起到提高宣傳推廣效率的作用。
聚友網(Myspace),是以SNS為基礎的娛樂平臺,是全球最大的在線交友平臺Myspace的中國本地化網站,提供免費的微型博客、個人主頁、個人空間、電子相冊、博客空間、音樂盒視頻上傳空間等服務。我們所要采用的Myspace網絡是從該網站的眾多用戶中,使用網絡爬蟲技術獲得的其中的13569個用戶,網絡中包含了99185條關系,兩個節點之間的一條邊則意味著相應的兩個用戶之間互為好友關系。下圖展示了Myspace的好友關系圖。
圖3Myspace網絡用戶關系展示
3.2系統分析結果
通過社團劃分系統對Myspace網絡的分析,我們共獲得各派系共12446個,派系社團559個。下圖為使用社團劃分系統分析Myspace網絡后,獲得的一個17-派系社團結構(k=17)和一個33-派系社團結構(k=33)。
圖4Myspace網絡的一個17-派系社團(k=17)
圖5Myspace網絡的一個33-派系社團(k=33)
3.3結果分析
選取Myspace網絡社團劃分結果中的3-派系社團(k=3)、4派系社團(k=4)和5派系社團(k=5)作為我們的分析目標。
經統計分析,Myspace網絡中3-派系社團(k=3)、4派系社團(k=4)和5派系社團(k=5)的社團大小分布圖(SizeDistribution)和重疊量分布圖(OverlapDistribution)如下圖所示。
我們可以看到,無論社團大小分布圖還是重疊量分布圖都大致滿足冪律分布,且隨著k值的減小,曲線變得更為平滑。但是當k值比較大時,因為社團較少,所以曲線呈現鋸齒狀圖樣,這可能是因為在使用網絡爬蟲技術對Myspace網站進行數據收集時,由于該網站用戶數量十分的龐大,網絡爬蟲并沒有存儲所有的用戶信息,而只是選取了其中13569個用戶來組成的Myspace網絡。盡管Myspace網絡基本滿足應有的小世界及無標度特性,但從上圖可以看出,其數據集仍然存在著缺陷。
3.4小結
3.4.1測試結果
首先,系統總體效率需要提高,無論是派系過濾算法還是系統其它功能,在分析Myspace網絡中效率都顯得比較低,這在之前分析較小規模的網絡上并不是十分明顯。然后,社團劃分的統計結果在大體上還是滿足冪律分布的,本文認為這是因為Myspace網絡數據集存在的缺陷引起的,并不是因為社團劃分系統算法運行的問題。考慮到Myspace網站龐大的用戶數量、測試條件與個人能力的限制,總體測試的結果還是可以接受的。最后,盡管派系過濾算法本身的時間復雜度偏高、計算量大,但是在更新更快的社團劃分算法開發出來之前,它是分析大型復雜網絡社團結構最符合實際要求的算法。
3.4.2應用驗證
Mysapce網絡規模較大,因此要想直接觀察其社團結構是非常不方便的,所以我們采用社團結構的統計特性來進行驗證。對社團劃分系統分析Myspace網絡所獲得的社團結構進行統計分析,我們可以看出社團劃分系統在大型人際關系網絡分析中依然可以獲得合理的結果。學校招生應用中,即使面對大規模的學生人際關系網絡,也能夠得到較為準確的結果,這在提高學校招生宣傳的精準度上有良好促進作用。
4結束語
本文通過對市場營銷理論的研究,對如何將教育營銷理論融入到EMBA招生這一具體問題進行了分析與探討。本文通過將復雜網絡理論引入教育營銷中,分析人際關系網絡中的復雜網絡特性,尤其是其聚集聚團性,并根據該性質設計并實現了一套適用于EMBA招生生源獲取的人際關系社團分析系統。對典型的社會網絡(Myspace網絡)實例的分析結果表明,該社團分析系統可以很好的對人際關系網絡社團性質進行發現和獲取,為學校招生應用中,即使面對大規模的學生人際關系網絡,也能夠得到較為準確的結果,這在提高學校招生宣傳的精準度上有良好促進作用。
【參考文獻】
[1]張新民.中國EMBA教育透視[J].企業管理,2004(05).
[2]曾小軍.民辦高校引入營銷理念與招生策略研究[J].教育導刊,2009(09).
[3]周廣訓.談高校營銷的特點[J].中國成人教育,2004(09).
[4]徐芳.教育營銷和教育營銷戰略[J].廣東職業技術師范學院學報,2001(1):7.
[5]林進奎.營銷創新與教育營銷[J].東岳論叢,2004(03).
篇3
關鍵詞:搜索引擎;通用搜索;垂直搜索
Internet的發展,給人類社會帶來了翻天覆地的變化,將人類文明推向一個新的高度的同時,也給人類提供了無限的商機。它的到來,使信息技術成為當今世界各國發展的主題。Internet的普及,網民數量的猛增,web資源的指數增加,都激勵著人們探索新的突破。以服務大眾出名的通用搜索引擎為我們指引了方向。它們為無數的網民提供了從無底的web中尋找資源的機會。然而,隨著Internet的發展,通用搜索引擎有時很難在龐大的信息庫中搜索到準確的信息。它的缺陷,給垂直搜索引擎提供發展的空間,以及無限的潛力。垂直搜索的出現,便是對通用搜索引擎的補充,在未來的時間里,它將與通用搜索引擎相輔相成,服務人類的同時,共享新的金礦。
一、搜索引擎的涵義
所謂搜索引擎,是指在Internet下,網站根據用戶輸入的查詢條件(關鍵字),自動從web資源里提取出與用戶輸入條件相關的信息的一類網站。搜索引擎以一定的策略在互聯網中搜集、發現信息,對信息進行理解、提取、組織和處理,并為用戶提供檢索服務,從而達到信息導航的目的。
隨著Google(谷歌)、baidu(百度)等搜索引擎在Internet上經營的成功,越來越多的IT企業開始進軍搜索市場,經過IT精英的不斷開拓新領域,創造新價值。搜索引擎從廣義上可以將其劃分為通用搜索引擎和垂直搜索引擎。
二、通用搜索引擎與垂直搜索引擎的對比
隨著網絡的發展,它一方面讓我們更容易獲取到信息,另一方面,信息的爆炸發展,也徹頭徹尾地使我們陷入了無邊無際的信息海洋之中。在海量的信息頁面之前,我們想要找到自己需要的信息簡直就如“大海撈針”。搜索引擎的橫空出世讓我們有了探索信息海洋的指南針。
(1)通用搜索引擎的最大優點是,實現全文搜索,檢索到的信息量大,信息覆蓋范圍廣,同時引擎更新信息速度快。目前Internet上搜索引擎可索引到的網頁數量已超過110億頁,由于通用搜索引擎搜索范圍的廣,導致搜索的匹配度低,命中率低,層次結構不清晰,而且重復連接較多,查詢結果信息量大,用戶很難在海量的鏈接結果中找到想要的信息。
(2)垂直搜索引擎是針對某一個特定行業的專業搜索引擎, 是通用搜索引擎的細分和延伸,是對網頁庫中的某類專門的信息進行一次整合,定向分字段抽取出需要的數據進行處理后再以某種形式返回給用戶。垂直搜索引擎是相對通用搜索引擎的信息量大、查詢不準確、深度不夠等提出來的新的搜索引擎服務模式,通過針對某一特定領域、某一特定人群或某一特定需求提供的有一定價值的信息和相關服務。其特點是“專、精、深”,且具有行業色彩,相比較通用搜索引擎的海量信息無序化,垂直搜索引擎則顯得更加專注、具體和深入。
三、垂直搜索引擎的原理及組成
搜索引擎主要由搜索器、索引器、檢索器組成?;驹砗椭饕δ芙M件方面,垂直搜索引擎與通用搜索引擎基本相同。兩者主要的區別在于Spider爬行范圍和網頁信息處理深度兩方面。通用搜索引擎Spider爬行的范圍是面向幾乎所有網頁,而垂直搜索只爬行跟主題相關的網頁。因此,垂直搜索引擎能夠比通用搜索引擎更快速地找到相關主題的信息。
搜索器(Spider):也稱網絡蜘蛛、網絡機器人等,是搜索引擎的靈魂。它根據特定算法負責抓取網頁,從抓取到的網頁里采集信息,對信息進行分詞,分詞根據詞語的特殊屬性選擇分詞算法,并將信息與其關聯的URL保存進服務器數據庫。搜索器必須保證及時的發現新網頁,定時的重新采集已有網頁信息更新保存數據庫數據。
索引器(Indexer):根據搜索器,即網絡蜘蛛采集后經過分詞等處理后產生的關鍵字(keyword),建立從關鍵字到網頁URL(統一資源定位器)的關系索引倒排文檔,即建立索引數據庫。檢索器的功能是根據用戶輸入的查詢詞,在索引數據庫中進行查詢詞與索引數據庫的匹配算法,然后將查詢結果按相關程度排序并輸出到瀏覽器上。
除了考慮核心的技術以及采用高效的算法外,必須在用戶體驗上下功夫如結構化的顯示搜索到的結果。比如,Google所使用的Ajax(異步JavaScript)技術,用戶輸入查詢時能夠自動提示,還有Google查詢后顯示的數據,界面上字體等要比Baidu細致一個檔次。這些細節的原因,某種程度關系到搜索引擎在市場的占有額。
四、垂直搜索引擎的相關技術
1.頁面解析與頁面顯示排序。
網頁地址都是用URL(Uniform Resource Locator統一資源定位器)來表示,獲取網頁信息,必須找到URL,讀取該URL頁面的HTML、特定標簽,高級的搜索引擎還能對JavaScript語句進行解析。這是因為許多網站直接用JavaScript構建出來,而且隨著Ajax技術的流行,很多信息包含在JavaScript標簽里,為了提高采集信息的準確率,提高搜索引擎的競爭力,搜索引擎必須提供JavaScript解析器。
頁面排序是針對根據用戶關鍵字,查詢到的網頁列表,采用何種策略將網頁列表顯示在用戶面前,使用戶最想知道的結果顯示在最前面頁數發生的概率最大。主要的算法有:PageRank算法、HITS算法。在排序上,有些搜索引擎(如百度),則加入收費這一方式,使排序成為搜索引擎的一大盈利模式。
2.數據存儲及分布式技術。
盡管垂直搜索引擎保存的網頁數量相對通用垂直搜索引擎小很多,但是,作為一個優秀的商業垂直搜索引擎,必須在提高性能的同時減低成本,提升競爭力??梢圆捎脭祿嚎s的技術對數據進行壓縮存儲,采用數據庫技術,如索引等提高數據讀取速度,也可以采用分布式技術,通過多臺服務器相互合作,以提高數據采集和更新速度。
3.網絡蜘蛛的爬行策略。
網絡蜘蛛(Robot或Spider)的搜索策略是指當網絡蜘蛛搜索到一個文檔之后,下一步應該轉移到哪一個文檔的方法問題。目前比較常見的搜索策略有以下幾種策略:(1)IP地址搜索策略;(2)深度優先搜索策略;(3)廣度優先搜索策略;(4)深度-廣度結合搜索策略。
4.中文分詞技術。
在Web應用中,文本處理的速度往往是性能的關鍵,快速分詞具有很大的現實意義。Web文本分詞是Web信息處理的基礎,如信息檢索、摘要形成、網頁過濾等都需要對Web文本進行分詞處理。Web文本的正文主要由英文和中文構成,由于英文的單詞與單詞之間有空格,所以不存在分詞問題。而中文的每一句中詞與詞之間是沒有空格的,因而必須采用某種技術將其分開。
分詞的方法很多,基本上分為兩類:第一類是基于字符串的匹配,將漢字串與一個機器詞典中的詞條進行匹配,若在詞典中找到某個字符串,則匹配成功。主要有正向最大匹配法、逆向最大匹配法、最少切分等方法。第二類是基于統計的方法,從概率角度出發,單字出現在詞匯中聯合概率是比較大的,因此當相鄰的字越常出現,則越有可能是一個詞。基于上述引,對處理的材料進行分析,得到相應的單字出現的概率,然后對相鄰的字出現概率進行統計,若遠大于單字出現的概率之和,則可能成為一個詞。實際應用中,統計分詞方法都是與字典結合著來使用的,這樣既發揮匹配分詞的切分速度快、效率高的特點,對利用了無詞典結合上下文識別生詞,并能消除歧義等優點。
五、垂直搜索引擎的發展空間
“確解用戶之意,切返用戶之需” “用戶無法描述道他要找什么,除非讓他看到想找的東西”,這是消費者(網絡使用者)對搜索引擎提出的更高要求。以盡可能多地收集到與專業相關的信息為主要目標的垂直搜索引擎,比通用垂直搜索引擎在Internet上更加貼切消費者的要求。專業化的集定領域的垂直搜索引擎有效地彌補了綜合性搜索引擎對專門領域及特定主題信息覆蓋率過低的問題。市場需求的多元化,決定著搜索引擎服務的多元化;通用搜索引擎開拓市場上的成功,為垂直搜索引擎的市場戰略提供了寶貴的借鑒經驗,垂直搜索引擎的特點,決定著它在Internet上占有一席之地,必將成為搜索行業的一大力量。
(作者單位:廣州市機電高級技工學校)
參考文獻:
[1]王曉偉. 垂直搜索引擎若干關鍵技術的研究[J].浙江大學學報,2007,(5).
[2]孫衛喜.搜索引擎分析[J].高校實驗室工作研究,2007,(3).
[3]李副銘.垂直搜索引擎的研究與設計[D].電子科技大學學報,2009,(9).