WWW網絡信息搜索技術敘述
時間:2022-05-04 03:39:00
導語:WWW網絡信息搜索技術敘述一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。
摘要:本文針對網絡搜索引擎工作中的重點技術作出詳盡的闡述,它包括Robot程序、索引數據庫、檢索程序三個方面。通過他們來概述www網絡信息檢索技術的發展狀況。
關鍵詞:Robot程序、數據索引、遍歷算法、相關性
Theabstractsofinformationretrievalsontheworldwideweb
Abstract:Thisschedualsdecribethedetailsoffataltechniquesabouttheinformationontheworldwidewebsite,includingthreeaspects:Robottechniques,Indexingdatabaseandsearchingprogrammes.Wecanlearnthedevelopingstatesofinformationretrivalsthroughthem.
Keywords:Robot,Indces,Revelance,arithmetic
隨著互聯網的發展,網絡信息不斷爆炸式的擴張,網民怎么才能從這樣海量的信息中找到他們所需要的信息呢?搜索引擎,這是目前為止,世界上最流行的一種準確獲得信息的一種工具。象Google、Altavista、Infoseek、Hotbot、Yahoo、網絡指南針、北大天網和華好網景的ChinaOK等等。這些都是世界上非常著名的搜索引擎。他們都是通過網絡機器人搜集網絡信息,建立索引數據庫,并且不但的更新,通過一定的相關性算法,對用戶提供的請求作出響應,并按一定的次序輸出高質量的信息。它的主要由下面三個部分組成:蜘蛛程序、索引數據庫、檢索程序。三個部分協調一致,其工作原理(圖1)如下:
1Robot技術程序
Robot是一種計算機的程序,可以自動地在網絡中穿梭,該程序最重要的功能是使用索引策略,也就是查找網站和網頁的次序??梢杂妙}目、URL、關鍵詞進行索引,也可以是以上幾項的某種組合。由于Internet的數據量大,在現有的機器和網絡條件下,搜索引擎只能對部分Internet上的資料進行采集;加上搜索的索引策略不同,所以對相同關鍵詞的搜索在不同的搜索器上可以有截然不同的結果。如果把整個Internet看作是一個圖或一棵樹的話,可以發現Robot技術的基本工作原理和人工智能中的搜索樹一樣,這在計算機中可以方便地使用遞歸方法實現,具體如下:
(1)根據首頁進行搜索,相當于搜索樹的根;
(2)根據首頁的第1個鏈接到下一個頁面;
(3)重復(1)和(2);(4)到某頁已經沒有鏈接,回退上一級頁面的下一個鏈接,如此循環往復。
但若要建立全面的索引數據庫,必須對WWW系統進行遍歷。我們可以進行這樣假設:將WWW作為一個有向圖處理,將頁面看作圖中的節點,頁面中的超鏈看作圖中的有向邊。因此可以使用有向圖遍歷算法(深度優先或廣度優先算法或啟發式方式)對其進行遍歷。WWW是個典型的CS結構系統,所以可在一臺主機上完成WWW遍歷。
遍歷一般采用以下3種方法:
(1)定一個種子URL,Robot從種子URL開始對WWW遍歷;
(2)定一組不同類別、被訪問頻率高的URL,Robot從這些URL開始遍歷;
(3)據域名或IP地址將WWW空間劃分為多個子空間,運行多個Robot程序并行地在不同子空間中進行遍歷。在實際使用中,一般是將這三種方法組合起來使用。按照上述遍歷算法,Robot可以系統地、周期性地訪問WWW,從而建立較為全面的索引庫,并能保持對庫的不斷更新。
在遍歷算法中,一般用到了兩種方式,深度優先和廣度優先兩種基本的搜索策略。Robit以URL列表存取的方式決定搜索策略:
(1)先進先出,則形成廣度優先搜索。當起始列表包含有大量的Web服務器地址時,廣度優先搜索將產生一個很好的初始結果,但很難深入到服務器中去。
(2)先進后出,則形成深度優先搜索。這樣能產生較好的文檔分布,更容易發現文檔的結構,即找到最大數目的交叉引用在實際使用中,一般是將這三種方法組合起來使用。按照上述遍歷算法,Robot可以系統地、周期性地訪問WWW,從而建立較為全面的索引庫,并能保持對庫的不斷更新。在遍歷的過程中,為了提高其效率,可以融入人工智能的方法使其變得智能化,以下為可行的方法:
(1)搜索引擎基本信息的采集??紤]網絡中海量的數據,首先選取一些網絡的主要節點,使搜索引擎存放某些監控程序到站點中,和站點之間建立一種通信聯系,使搜索引擎不必每次更新時都要一個個頁面地比較,而是智能地知道自上次訪問后哪些頁面已更新,直接采集新的頁面。
(2)搜索引擎數據庫的建立??紤]數據庫中數據的有用性,可以根據用戶的訪問頻度,建立站點的用戶訪問頻度表格,Robot查找鏈接和頁面時,要查看該表格,從用戶訪問頻度高的站點開始查找,對上升速度和下降速度特別快的還要特別處理。搜索引擎的數據庫內容是用戶經常訪問并樂意訪問的,使搜索引擎越來越貼近用戶。
2索引技術
索引技術的目的是理解Robot所搜索的信息,從中抽取索引項,用于表示文檔以及生成文檔庫的索引表。索引項有客觀索引項和內容索引項兩種:
客觀項與文檔的語意內容無關,如作者名、URL、更新時間、編碼、長度、鏈接流行度(LinkPopularity)等等;內容索引項是用來反映文檔內容的,如關鍵詞及其權重、短語、單字等等。
內容索引項可以分為單索引項和多索引項(或稱短語索引項)兩種。單索引項對于英文來講是英語單詞,比較容易提取,因為單詞之間有天然的分隔符(空格);對于中文等連續書寫的語言,必須進行詞語的切分。在搜索引擎中,一般要給單索引項賦予一個權值,以表示該索引項對文檔的區分索引項的提取方法有統計法、概率法和語言學法。索引表一般使用某種形式的倒排表(Invers度,同時用來計算查詢結果的相關度。使用的方法一般有統計法、信息論法和概率法。短語索引,即由索引項查找相應的文檔。索引表要記錄索引項在文檔中出現的位置,以便檢索器計算索引項之間的相鄰或接近關系(Proximity)。
索引技術可以使用集中式索引算法或分布式索引算法。當數據量很大時,必須實現即時索引(InstantIndexing),否則不能跟上信息量劇增的速度。索引算法對索引技術的性能(如大規模峰值查詢時的響應速度)有很大的影響。一個搜索引擎的有效性在很大程度上取決于索引的質量,而索引的質量由索引技術和索引策略來決定;但現行的索引技術隨著數據量的增大,其耗費的資源指數速度飛速增長,極大地影響到搜索數據庫的容量和檢索;考慮用提高索引智能化的方式來提高索引的質量。按建立索引的策略來看,應確定是全文關鍵字提取,還是內容提取,根據不同的查詢目標會有不同的提取目標和提取范圍,最終將大大影響數據提取的速度和效果,這是索引技術所要考慮的首要問題;按內容提取可以采用分類技術,把頁面的主題或內容分類,進入到不同的數據庫中,在輸入關鍵詞查詢時,要求第n個關鍵詞必須是內容類別的詞,這樣第n個關鍵詞就可以使搜索引擎知道到哪個內容類別的數據庫中查找,再匹配后面的關鍵詞,這樣可以大大減少系統匹配的時間。這項技術要求在相關詞庫的基礎上,還要統計使用頻度,再加上一定的算法方可實現。當然上述兩者應有機地結合才可提高整個系統的性能。
3檢索程序。
當用戶檢索的時候,首先需要輸入關鍵詞,系統將對其進行語言分析,分解成多個詞或詞組,在去服務器的索引數據庫,根據檢索詞的相關性進行匹配,找到與檢索詞相關度逼近的網頁,按照相關度的高低進行排序輸出,關鍵詞出現了的越多的結果排得越靠前,越知名的站點排得越靠前。這里,相關性的設計相當的重要,它直接影響著搜索的效率。但“相關性”的概念一直非常模糊。一方面,人們觀察到特定文檔對特定查詢而言可以有多種“相關”的方式,比如用戶輸入一個關鍵詞作為查詢向系統提交,系統返回的文檔列表中的文檔A講述與此關鍵詞相關的事件,B談論與此關鍵詞相關的人物等等,都可以說與這個關鍵詞“相關”,但我們顯然覺得二者與查詢的相關并不屬于同一層次。另一方面,由于用戶本身的差異使其對檢出文檔是否真正相關的判斷也有諸多差異。但是在設計信息檢索系統的過程中,不可避免地要用到相關性這個概念;具體地說,設計者必須對怎樣才算是“相關”有一個比較明確的想法,在沒有弄清楚什么是相關性之前就談論怎樣區別相關和不相關文檔,的確令人覺得在邏輯上缺少了一個重要的環節。下面就相關性做詳盡的闡述:
3.1相關性研究的理論框架
3.1.1系統角度的相關
信息檢索似乎從一開始就定位為一種單方向的過程,即系統輸出結果,用戶是信息的接受者。這種理解置用戶于被動的地位:基于這種理解,研究的重心自然落在系統本身。系統角度的相關一般有兩種比較方式。其一是在文檔本身固有的特征信息,如詞頻等等與用戶提交的查詢表達式中固有的特征信息之間進行比較。典型做法是在文檔集中尋找出現了查詢表達式中的索引項的文檔;其二是在從文檔中抽取的“主題”與用戶查詢表達式中體現的“主題”之間做比較,即首先計算文檔中各索引項的權值,再按權值大小進行排序,以此為依據確定文檔的主題詞。這種做法比較簡單明了,易于操作而且可以直接觀察,所以一直是信息檢索研究者們樂于接受的。
3.1.2改進后的系統相關
從系統角度定義的相關性(即主題性相關)最突出的優點,就是簡明和可操作性;而至少目前的系統還無法把握人的主觀感覺。這樣看來,采取主題性相關的態度就是唯一可行的做法。然而并不能把詞頻統計作為唯一的解決辦法。Fairthorne曾提出:如果允許個人推論和個人理解介入相關性判斷,那么從某種角度來看,任何文本對任何請求都是相關的。所以,改進系統角度相關度計算方法似乎比較可以接受。基于此種看法,在這里可以做這樣一個設想:如果主題詞提取算法能體現用戶的相關性判斷直覺,那么用戶的相關性判斷就可以被描述,而檢索系統的輸出就可能更加令人滿意(見下圖)。系統角度相關不能解決相關性判斷的不確定性。相關性判斷的不確定性基本上集中于用戶的主觀因素上。信息檢索研究者的觀點往往局限在雖然簡單但引起很多爭議的系統角度相關。但是隨著檢索系統日益廣泛的應用,人們開始更多地思索人機交互過程中人的因素。
3.2相關反饋技術在信息檢索系統中的應用及局限
從用戶角度討論相關大體上就是觀察用戶對檢索結果的反應,是系統輸出向用戶需求的投射。作為系統本身必須“知道”如何判斷相關性,而這種機制實際上是設計者對用戶判斷方式的模擬。最終的系統只能將用戶判斷有差異這一事實“忽略”過去。在檢索系統中,使用相關反饋技術的目的,是通過檢索策略的調整來增強對相關文獻的響應而抑制非相關文獻。許多年來,相關反饋被用來修正提問的問題。較復雜一些的檢索系統如以向量空間模型為基礎的SMART和概率模型等等固然包含了某“相關反饋”技術,即以已經得出的檢索結果和用戶的相關性評價為依據,不斷修正查詢表達式和檢索結果集合;但是,系統賴以區分相關與不相關文檔集的算法卻只考慮文檔自身的特性。信息檢索的主要工作簡而言之就是提取文檔內容特征項的過程。這就使得檢索系統不能跳出“系統中心”的局限而用戶判斷的不確定性不能得到本質的運用。雖然從用戶角度討論相關性定義的文獻多如牛毛,卻從未有一個確定性的結論;用戶的主觀因素的確難以捉摸。
結束語:在當今的知識經濟和網絡環境下,對信息的占有和知識的發現,是發展生產力的重要一環,人們迫切需要一種智能性的檢索工具來探索信息空間,檢索信息并進一步進行數據挖掘和知識發現。因此,建立一個高效率的搜索引擎是當今社會和科學發展的強烈要求。
參考文獻:
[1]石艷霞信息檢索中“相關性”與“相關反饋”研究概述
[2]王家鉞.信息檢索中“相關性”概念的研究
[3]宋玲.,馬軍Internet個性化智能信息檢索的分析與研究
- 上一篇:牙列缺損的修復方法詮釋
- 下一篇:小議模糊語言的禮貌維護功能