網頁資源采集策略論文

時間:2022-03-12 08:36:00

導語:網頁資源采集策略論文一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

網頁資源采集策略論文

隨著網絡技術的日益發展,網絡信息資源正以人們難以想象的速度增長,網絡也日漸成為人們獲取信息的主要途徑之一。搜索引擎為人們從海量網絡信息資源中查找所需信息提供了便捷途徑,但由于其返回的信息資源在查準率和查全率上都無法得到保證,人們經常會得到許多無用信息,反而降低了信息資源的使用效能。因此學科信息門戶順應時展需要應運而生,用戶可通過學科信息門戶快捷、有效地發現高質量的網絡信息,同時使他們盡可能多地獲得有價值的信息和信息資源。本文認為高質量學科信息門戶建設應注重深層網頁資源的收集與整合利用,并應重視深層網頁資源采集的方法與策略。

1學科門戶網站建設現狀

學科信息門戶(SubjectInformationGateway,SIG)是“提供可檢索和可瀏覽的互聯網資源目錄的聯機服務系統,一般集中于某一相關的學科領域,提供對經圖書館工作人員遴選和按學科組織的互聯網資源的利用?!盵1]它致力于將特定學科領域的信息資源、工具與服務集成到一個整體中,為用戶提供一個方便的信息檢索和服務入口。從本質上講,學科信息門戶是含有不同分類主題的網頁及相關鏈接的網上圖書館。主要特點是有較多的人工參與,通過質量標準規范資源的選擇,并提供對資源的豐富描述;提供依據學科體系結構和資源類型分類的瀏覽和檢索入口;有對資源的管理和長期發展的政策、元數據應用與標引規范、資源共享與互操作機制等[2]。

自1996年DESIRE一期工程開始,學科信息門戶就在歐洲范圍內逐漸普及,一大批面向數學、工程科學、醫學、社會科學的學科信息門戶相繼建立,到2001年DESIRE項目進入第二期時,學科信息門戶已經在世界范圍內呈“燎原”之勢,在美洲、歐洲、大洋洲廣泛實施。并且在2000年以后逐漸從單個的研究項目向大規模的建設項目轉化,模塊化的功能組件又使學科信息門戶呈現出豐富多彩的形態,并且在組織上、商業模式上同其他的企業信息門戶、知識門戶相互交融,出現了形式和內容的統一態勢[3]。國際上比較權威的學科信息門戶網站有英國的RDN、SOSIG,歐洲的RENARDUS,美國的LII等。

隨著國外大規模的學科信息門戶建設以及國內學者對學科信息門戶的研究,學科信息門戶建設的思想和理念逐步為國內業界接受。國內最早是上海圖書館于1999年開始建設的“數字圖書館資源總匯表”,現在已發展成為“數字圖書館”資源門戶。2002年3月開始至今,在中科院知識創新工程科技基礎設施建設專項“國家科學數字圖書館(CSDL)項目”的子項目資助下,我國已建成的有生命科學、化學、數字物理、資源環境、圖書情報、長江流域資源生態環境、天然藥物、微生物、科技政策與管理等9個學科信息門戶和中心門戶[4]。熱點門戶是國家科技圖書文獻中心組織建設的一個網絡信息資源門戶類服務欄目,目前已建成納米科技、認知科學、食物與營養、艾滋病預防與控制等四個熱點門戶。其它的學科信息門戶還有武漢理工大學圖書館的“材料復合新技術信息門戶”,中國林業科學研究院科技信息所和中國林科院圖書館合作建設的“林業學科信息門戶”等。

國內學科信息門戶在軟件平臺的完善性、數據標準化、數據共享性、高質量信息資源數量、描述對象數量等方面存在著一定的不足[5],有些學科信息門戶缺乏高質量的有效網絡信息資源。除材料復合新技術信息門戶、數字圖書館資源門戶、微生物特色學科信息門戶、青藏高原研究專題信息門戶等能管理網絡信息資源和本地實體信息資源外,其它門戶均只鏈接網絡信息資源。這種現狀不利于信息資源的整合、服務和信息資源開發,不能適應數字圖書館集成服務的發展方向,也不能滿足用戶對信息資源一站式服務的要求。

2深層網頁資源的價值

由于目前標準的搜索引擎只能發現互聯網上的靜態網頁并建立索引,無法對被深埋在動態產生的網站之下的大量信息資源進行搜索。因此,有許多信息由于其身處網絡深層而無法被發現。對于這些處在網絡深層的信息資源,有學者稱其為不可視網絡、隱蔽網絡[6](invisibleweb,hiddenweb)、深層網頁資源(DeepWeb,DeepInternet)[7]。

自1994年Dr.JillEllswonh提出Invisibleweb這個概念以來,國外針對深層網頁資源的研究相當熱烈,且成果眾多。內容涉及理論研究、檢索軟件、搜索引擎等,形式有專著、論文、軟件及博客等。深層網頁資源的潛在價值及商機還引起了商界的重視,2004年9月14日下午,微軟亞洲研究院負責互聯網搜索和數據挖掘的馬維英向記者演示微軟在網絡搜索技術方面的三大新近展,其中一個就是從表層萬維網到深層萬維網,充分利用大量隱藏的高質量信息[7]。雅虎推出了“內容獲取項目”,該項目意在為公共數據庫中的數十億個網頁提供搜索索引[8]。與此形成鮮明對比的是,國內學者并不太重視這個問題,相關論述較少,極少有學科信息門戶網站將這部分極具學術研究價值的網絡信息資源作為特色信息資源加以收集整合。

根據BrightPlanet對深層網頁資源的范圍、數量及相關性調查結果表明,深層網頁資源有以下特點[9]:

(1)信息量大。深層網頁的信息量達7500TB,是WWW資源的400~550倍。它擁有近5500億個文檔,而表層網絡只有10億個。2000年深層網頁站點已超過20萬個,2004年達到30.7萬個,其中60個最大的深層網頁站點收集的信息約有750GB,超過表層網絡范圍40倍。

(2)利用率高。深層網頁站點的訪問率很高,月訪問量是表層網絡站點的150%,且經常被其它網絡資源鏈接;但是許多典型的深層網頁站點不為大眾所熟知。

(3)發展迅速。深層網頁資源是互聯網上新生信息增長最大的一個種類,2000年~2004年間增長了3-7倍。

(4)信息質量高。深層網頁站點傾向于學科范圍更狹窄、內容更深入的方向發展。信息內容與每個所需信息、市場及領域具有較高的關聯性,且大部分(54%)深層網頁資源存放在專題數據庫(topic-spe-cificdatabases)中,經統計分析其高質量內容比表層網絡多1000-2000倍。

(5)免費開放。95%的深層網頁資源對公眾免費開放,即無需支付費用或訂購使用。付費資源前3位分別是DBTOnline、Lexis-Nexis和DIALOG,占付費資源的71%;免費開放資源的前3位分別是美國國家氣象數據中心(NationalClimaticDataCentre)、美國國家航空與宇航局(NASA)和美國國家海洋數據中心(NationalOceanographicDataCenter),占開放資源的92%。

因此,將這部分資源收集整理到學科信息門戶網站中來,有利于進一步提升學科信息門戶網站的學術指導價值、利用價值,對于當前學科門戶網站的建設是非常有意義的。

3深層網頁資源采集的方式

學科信息門戶建設,要從大量的網絡資源中選出有價值的資源,要在較短的期限內達到信息的規模效應,在人員的安排上僅靠有限的學科專家和相關的專業人員是難以達到預期目的的。因此,深層網頁資源的采集應遵循多元化策略,主要可采取以下措施:

3.1人工采集

由工作人員查閱各種文獻、瀏覽互聯網或向有關專業人員請教獲得相應的信息源,定期對這些信息源進行跟蹤檢索獲取數據。人工采集方式的工作效率較低,而且所收集的信息不全,帶有一定的隨機性和隨意性。常用的信息源有:(1)對公眾免費開放的數據庫資源,如PubMed、GenBank、DOAJ等。(2)目錄指南(directories),如Librarians''''IndextotheIntemet中的invisibleweb資源。(3)搜索“InvisibleWeb”的網站,如TheInvisibleWebDirectory、Directsearch、CompletPlanet(BrightPlanet公司經營的網站)、InfoMine、等。(4)專業搜索引擎:Incywincy、Singingfish、GoogleNews、Scirus、Science.gov等。(4)利用普通搜索引擎如Google、Yahoo!Search、Yahoo!Directory和Teoma等搜索,檢索策略為“主題詞或關鍵詞+database”,這樣就可以搜索到這些搜索引擎所收錄的該主題詞或關鍵詞方面的相關數據庫鏈接。如toxicchemicalsdatabase。

3.2自動化采集

即利用蜘蛛或機器人自動到網站去搜索。由于絕大多數深層網頁資源為蜘蛛程序無法訪問或索引的數據庫,自動化采集深層網頁資源需要使用專門的深層網頁數據挖掘軟件。

門戶網站建設可計劃自行研發具有自主知識產權的深層網頁資源采集軟件,但技術難度較大,會占用學科門戶網站建設過程中大量的人力資源和財政資金,對普通圖書館或機構來說不是最佳方案。另一種方式是采用專用商業軟件,這類軟件可實現對深層網頁資源的檢索,它可以將用戶的檢索請求同時推送到多個相關網絡數據庫中進行檢索,而后把結果送回給用戶。如BrightPlanet開發用于檢索深層網頁資源的專業軟件LexiBot2.0,用戶可將其下載到自己的計算機上,采用關鍵詞串檢索,可同時對2200多個網站和數據庫進行檢索,檢索過程可采用后臺操作模式,不影響用戶做另外事務。目前BrightPlanet公司已停止銷售該軟件,取而代之的是DQM2(BrightPlanet''''sDeepQueryManagerTM),可根據用戶的指令對超過70000個深層網頁專業數據庫同時進行檢索,并實時進行跟蹤和監測為用戶返回最新研究進展提示,用戶也可根據自己的學科特色進行限制檢索,檢索到的結果可根據用戶需要進一步管理制作,后續資料可進行追加,是一個較為理想的門戶網站建設深層網頁資源采集軟件[10]。另外可供參考的還有普渡大學(PurdueUniversity)的EduMed,專門用于搜索醫學多媒體數據庫[11],該軟件前身是一個多媒體管理系統VDBMS。

自動化采集的工作效率較高,可以確保查全率。但所收集的資料良莠不齊,質量難以保證,而且所收集的信息量太大,容易使系統難以承載。

3.3人機結合采集

充分利用網上自動漫游、自動跟蹤、自動分類和自動標引技術,采用人機結合的方式,提高資源采集的效率,以適應網絡信息變化快、更新迅速的要求。一方面工作人員可以對軟件定期收集來的資源進行嚴格的篩選評價以保證其質量,另一方面可以制訂一系列專業學科的檢索策略,通過軟件有針對性收集網絡數據資源,并將收集到的資源用元數據的規范描述與提示后存放到數據庫中,以實現主題瀏覽查詢、資源類型瀏覽查詢和關鍵詞查詢等多種檢索方式。

3.4用戶推薦

成立學科信息門戶建設的志愿者,建立用戶推薦資源的機制和工具,方便用戶通過Web界面或E-mail等方式推薦有價值的學科信息。教學科研人員和各類信息用戶,既是信息的利用者,也是信息的挖掘者和發現者,我們應積極鼓勵科研人員和各類用戶根據網站確立的標準推薦新資源和權威資源,同時設立“本周新資源推薦榜”、“月或季度新資源推薦榜”和“年度新資源推薦榜”等欄目,并對量多質優者進行獎勵。

4深層網頁資源的整合

4.1網絡導航

即以網絡導航的形式將深層網頁資源信息到學科信息門戶網站,用戶通過門戶網站提供的鏈接即可訪問相應的深層網頁搜索引擎、目錄或數據庫。網絡資源的組織方法有按學科、資源類型、字順、主題樹和數據庫組織等,有學者認為后兩種方式相對科學、合理,用戶可通過主題瀏覽和關鍵詞查詢找到相應的網絡資源[12]。

4.2深層網頁資源的跨庫檢索整合

這是一種基于系統的整合方法,通過檢索軟件可實現對多種不同結構的數據庫同時檢索并返回檢索結果。這種跨平臺或異構平臺的開發與應用在國內已有一定的發展,在圖書館數字資源的集成檢索系統方面成功案例較多,如CALLS和北京大學圖書館共同開發的統一檢索平臺,該平臺提供了基于異構系統的跨庫檢索服務,用戶可按學科、按數據庫名稱、按文種同時檢索多個平臺上的多種資源,輸入一個檢索式,便可以看到多個數據庫的查詢結果,并可進一步得到詳細記錄和下載全文。目前,國內的微生物特色學科信息門戶的數據庫集成檢索引擎實現了網絡數據庫跨庫檢索,它可對945個生物信息學熱門數據庫同時進行跨庫整合檢索。4.3深層網頁資源的保存

由于網絡資源的動態性,許多有價值的網站信息稍縱即逝,如果不加以及時保存這些信息將無法找到和再現。學科信息門戶網站如能根據學科專業特點保存相應的深層網頁資源,以某種方式呈現給本學科專業用戶,不僅可對這部分資源起到保存作用,而且能夠提高深層網頁資源的利用率實現其真正價值。

通過自動化采集軟件獲得的深層網頁資源,其保存是一種基于數據的整合方式,核心是數據加工要標準化,與其它網絡數據的組織和處理要同步接軌,也就是要將廣泛應用于網絡數據加工處理的元數據應用到深層網頁資源中來,這樣有利于整個學科信息門戶資源的統一整合利用。2003年度ALCTS(AssociationforLibraryCollection&TechnicalService)的年度會議項目“MetadataHarvesting:UsingtheOpenArchivesInitiativeProtocoltoExposetheDeepWeb”,提出利用OAI協議把元數據的思想應用于深層網頁,利用元數據來標注深層網頁資源,可獲得更高的檢索效率[13]。這個會議精神給學科門戶網站建設過程中開展深層網頁資源的整合工作提供了技術設想。

對深層網頁資源進行加工整合應遵循以下策略:(1)標準化策略。要求提供規范和深入的知識化描述,能夠支持開發集成和個性化定制服務。標準化是實現跨學科信息門戶互操作和數據共享的基礎,是實現學科門戶可持續發展的必然要求。(2)開放性策略。要求在信息結構、元數據描述、知識組織體系、用戶界面、用戶使用后管理等各個層面具有良好的開放性機制,支持個性化定制和開放集成。(3)及時性策略。要求信息的更新和維護必須及時、準確、有效。(4)權威性策略。要求優化選擇學科信息門戶的深層網頁資源,以保證門戶的資源質量。

4.4深層網頁資源整合涉及的法律問題

因為主頁對網站的重要性不可低估,人們習慣于將重要的廣告放置在主頁上,以此實現應有的點擊率和廣告收入。而深層網頁資源在學科門戶網站上的鏈接是直接進入他人網站目的網頁的深層鏈接。這種鏈接跳過主頁,直接進入信息所在頁面,導致受眾不易辨認信息的真正來源,即使文末注明作者,有學者認為也會侵害被鏈接網站的權利[14]。另一種學者的觀點是,深層鏈接并不會必然導致直接侵犯版權。由鏈接引起的版權侵權糾紛,主要涉及是否對作品專有使用權(復制權、發行權、改編權、傳播權)構成侵犯。

對于網站之間相互設立鏈接及網頁資源的保存問題,我國尚無具體的法律規范。深層鏈接是否會侵犯版權,在我國也屬于理論探討階段。作者認為,盡管95%的深層網頁資源屬于免費開放資源,本著為學科信息門戶順利健康發展的宗旨,學科信息門戶網站的建設和服務應在法律框架內進行。

4.5解決方案

設置鏈接前事先征求被鏈者的意愿。盡管可以依據“默示同意原則”,為避免糾紛,設鏈者在設置鏈接前還是事先通知被鏈接網站為宜。如果后者在合理時間內沒有明確表示反對,則視為默認鏈接[15]。采用深層鏈接的情況下,建議在設置鏈接的文字表述時盡量寫明是指向哪個網站的頁面,以聲明自己并非直接在使用這個網頁。

資源采集時注意網頁版權聲明項,如注有不得轉載使用這之類說明的網頁資源不加以收集。若采用軟件自動搜索,則要加有關這方面的濾過系統。

同時,國家應盡快出臺相關政策法規,對國家圖書館、公共圖書館及其他相關圖書館在網絡信息的復制、編輯、保存和服務權限方面給予立法支持。

【參考文獻】

1WhatisSubjectGateway?/html/subjectgateways/subjectgateways.html

2張曉林.分布式學科信息門戶中網絡信息導航系統的規范建設.大學圖書館學報,2002(5):28-33

3毛軍.學科信息門戶發展現狀綜述.圖書情報工作動態,2002(3):20-22

4中國科學院國家科學數字圖書館在建項目略.159.226.100.51:8080/projectcenter/Scibulletin-list.jsp

5王丹,潘淑春.國內外數字圖書館專業信息門戶網站現狀與發展趨勢.農業圖書情報學刊,2003(5):42-45

6吳志強,嚴貝妮.從隱蔽網絡到國際互聯網信息資源控制計劃.圖書情報工作,2004(4):80-81,86

7微軟搜索引擎突曝光亞洲研究院實現戰略調整./news/newstopic/17/17463.shtml

8雅虎新一輪對戰Google搜索服務進軍互聯網深處/news/net/story/0,3800050307,39213565,00.htm

9MichaelKBergman.TheDeepWeb:SurfacingHiddenValue.www.press.umich.edu/jep/07-01/bergman.Html

10/products/dqm.asp

11www.cs.purdue.edu/vdbms

12毛娟.網上免費資源的收集與整理.圖書館雜志,2004,23(7):24-28

13袁順波.隱蔽網絡及應對策略研究./eprint/Upload/2005/1112714455561.doc

14董永森.深層鏈接引起的侵權責任——評析外匯幣種走勢圖引發的侵權糾紛案./second/article,asp?artno=366

15趙麗梅.鏈接引發的法律問題探析./second/article.asp?artno=370