網絡知識數字參考咨詢分析論文
時間:2022-06-23 07:56:00
導語:網絡知識數字參考咨詢分析論文一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。
【內容提要】文章著重闡述了網絡知識挖掘產生的背景及其概念、技術,探討了網絡知識挖掘在數字參考咨詢服務中的應用。
【摘要題】信息需求與服務
【關鍵詞】數字參考咨詢/數據挖掘/網絡知識挖掘
【正文】
1網絡知識挖掘產生的背景及其概念、技術
對知識挖掘的設想始于20世紀80年代末。當時出現了從源數據中發掘新信息模式及算法,被稱為數據中的知識發現(KnowledgeDiscoveryinDatabase,KDD)。這種想法的出現是由于此前的信息或知識數據庫存在著種種局限,限制了對數據庫中蘊涵知識的有效利用[1]。知識發現被認為是今后具有重要影響和應用前景的關鍵技術。知識發現(knowledgediscovery)也稱數據挖掘(datamining),源自人工智能的機器學習領域,是在一個已知狀態的數據集上,通過設定一定的學習算法,從數據中獲取所需的知識[2]。數據挖掘廣泛應用于數據倉庫和分布式數據庫中,根據數據間的相互關系進行數據分析,提取潛在有用的信息和知識,經挖掘后被發現的知識可用于信息管理、查詢優化、科學研究、決策支持、過程控制等?,F有的數據挖掘工具有:ModelQuestMiner、KnowledgeSeeker、BusinessMiner、AnserTree等幾十種。數據挖掘是網絡知識挖掘的基礎。網絡知識挖掘是指利用數據挖掘技術,自動地從由異構數據組成的網絡文檔中發現和抽取知識,從概念及相關因素的延伸比較上找出用戶需要的深層次知識的過程[3]。網絡知識挖掘可分為網絡內容挖掘(WebContentMining)、網絡結構挖掘(WebConstructMining)、網絡使用挖掘(WebUsageMining)。一般而言,網絡知識挖掘的發現技術主要包括以下幾個方面。
1.1路徑分析
可以用許多曲線圖解法來進行路徑分析,一個曲線代表了Web頁面間或者其他事物之間的一些聯系。
1.2關聯規則
關聯規則用于發現數據項之間的聯系,在網絡挖掘中就是發現某一顧客的引用頁面和服務器上多種頁面之間的聯系。
1.3序列模式
應用序列模式是為了發現一些交互模式,如在一時間段內某一數據項后面跟著另一個數據項。在服務器日志文件中,記錄了一段時間內客戶的訪問信息,對Web服務器中訪問日志的序列模型分析可以使用企業預測用戶訪問模式,幫助廣告進行目標定位,發現在一個時間段內訪問某一文件的所有客戶的相同特征等。
1.4聚類和分類
根據一些數據項的共同特征來對數據庫進行分類。在網絡挖掘中,分類技術可以基于用戶的一些人口統計信息和訪問模式對訪問某文檔的用戶進行偏好描述。聚類分析可以將有相似特征的用戶或者數據聚集在一起,聚類Web日志的用戶信息和數據可用來制定未來市場營銷策略[4]。
2網絡知識挖掘與數字參考咨詢知識庫的建立
數字參考咨詢的概念起源于20世紀80年代的美國,早期的電子郵件咨詢服務起源于1984年的華盛頓大學健康科學圖書館和馬里蘭—巴爾迪摩大學健康圖書館[5]。在美國,圖書館界對數字圖書館的發展存在兩種看法,其中一種把圖書館看作是一個在圖書館員的協助下為廣大用戶提供智能服務的透明的知識網絡。數字參考臺就是根據這種意見建立起來的對話式的智能服務系統[6]。數字參考咨詢是伴隨著數字圖書館的研究和實踐熱潮出現的又一大熱點,也是網絡環境下圖書館參考咨詢服務的主流發展方向。利用網絡知識挖掘技術,可以了解用戶訪問圖書館的目的和趨勢,了解用戶的興趣和需求,改進服務質量,變被動服務為主動服務,提高數字參考咨詢服務的效率。
數字化信息資源是數字參考咨詢的物質基礎,它由各類知識庫構成。數字參考咨詢是從積累知識庫到進行知識服務,可以在面對面與用戶溝通中判斷用戶的實際需求,由此來加深知識服務層面的深度和廣度。知識庫的建設直接影響到數字參考咨詢服務。可想而知,如果沒有知識庫或知識庫內容非常少,僅憑咨詢員個人的知識經驗很難滿足不同用戶的各類需求。網絡在提供豐富資源的同時,也給查找和獲取有效信息帶來了難度。傳統的數據挖掘涉及的主要是結構化及半結構化的數據庫,而網上的信息變化頻繁且具動態性,是一個巨大而又復雜的異構型數據庫,對網上的信息進行挖掘要比面向單個數據庫復雜得多。數字資源的多元性和分散性,使數字化信息的知識化挖掘和鏈接成為信息服務所面臨的前沿挑戰。因此,對數據的進一步加工和內容分析顯得越來越重要。在這樣的背景下,網絡知識挖掘的新技術應運而生。
網絡知識挖掘的類型可分為對網絡知識的挖掘和對用戶知識的挖掘。對網絡知識的挖掘主要是指通過對網絡信息的定性定量的增值處理,找出信息分布的規律,發現信息內在的關聯性,挖掘隱藏在網絡信息中的知識并形成模型。對用戶知識的挖掘是指對用戶訪問網絡時的信息和用戶個人信息的挖掘。網站服務器會保留用戶的訪問記錄,記錄關于用戶訪問和交互的信息,對此進行分析和挖掘,有助于理解用戶的信息活動,了解用戶的信息需求,從中得出用戶的訪問模式和訪問興趣,從而改進網站的結構,也可以用于為用戶提供個性化的服務[7]。此類知識庫建立方法在實際中的應用如復旦大學,復旦大學的實時咨詢提醒用戶如果在線咨詢員沒有空閑,可以參考圖書館FAQ中的一些常見問題的解答;如果用戶的問題仍未解決,不妨使用電子郵件咨詢服務,或稍候使用實時在線咨詢服務。用戶所提的問題及其相應答復可能被收入復旦大學圖書館參考咨詢臺后臺知識庫中,在知識庫中用戶的所有個人信息都會被刪除,收入數據版權歸復旦大學圖書館所有[8]。
基于Internet建設起來的知識庫,其質量好壞直接影響數字參考咨詢。作為信息資源的知識庫,要形成一定的規模且檢索便捷、內容新穎,能夠不斷地更新,以保持數據的準確、全面和及時。如當今世界上最大的圖書館網絡OCLC把互聯網上的信息經過系統化的整理,通過主題詞即可檢索;且OCLC的WorldCat數據庫隨時更新,每年以200多萬條記錄的速度增長[9]。OCLC之所以始終保持在高新技術前列,是由于在研究開發上的大量投資。OCLC平均每年投資研究與開發項目達1000萬美元以上,僅在2002-2003財政年度就投資1400萬美元[10]。所以研究開發先進的知識挖掘、分析和提煉技術,形成一個豐富的知識庫來滿足用戶的需求,提高用戶的滿意度,給用戶更好的服務,是做好數字參考咨詢服務所必需的。
3網絡知識挖掘為數字參考咨詢提供技術支撐
圖書館對新技術尤其是信息技術保持高度敏感。隨著電子技術、計算機技術和通信技術的迅猛發展,互聯網在全球范圍得到迅速普及,同時多媒體技術、實時交互技術等與之配套的技術如雨后春筍般出現,這為圖書館開展數字參考咨詢服務提供了技術保障。經過幾年的努力,圖書館的數字化建設與服務已具備了較好的技術和硬件基礎,這也為開展數字參考咨詢服務提供了強有力的技術支撐。
知識挖掘的技術基礎是統計學與人工智能。知識挖掘的主要特點是能對原有的數據進行高度自動分析、歸納推理,從中挖掘出潛在的模式,預測用戶的行為,幫助決策者調整策略,作出正確的決策。人工智能是以自動機為手段,通過模擬人類宏觀外顯的思維行為,從而高效率地解決現實世界問題的科學和技術??梢钥闯?人工智能的目標非常高,除需要復雜的算法外還需要特定的機器。但知識挖掘僅僅利用了人工智能中一些已經成熟的算法和技術,如人工神經網絡(ArtificialNeutralNetworks)、遺傳算法(GeneticAlgorithms)、決策樹(DecisionTrees)、規則推理(RuleInduction)(即通過統計學方法歸納提取有價值的if-then規則,如關聯規則挖掘)、模糊邏輯(FuzzyLogic)、CVSM等[11]。
數字參考咨詢服務無非是在保證提供符合用戶要求的同時縮短提供時間和提供個性化服務。數字參考咨詢服務的交流方式主要由解答式和交互式兩種。前者是比較初步而簡單的服務方式,如FAQ、非實時的電子郵件、Web表單、BBS和MessageBoard(留言版)等;后者主要是指實時性的交互模式,如2002年7月,OCLC與美國國會圖書館協同研制開發推出網上聯合數字參考咨詢服務QuestinPoint。但不管是哪一種,現在的提供方式雖然也在借鑒和應用計算機的自動處理,但智能化的程度有待提高。其中最主要的一點是要提高對提問信息的分析正確度,如何從提問信息中提取最相關的單詞、詞組,并對提取的單詞、詞組在已有知識庫中進行準確無誤匹配,這就用到詞表技術。目前,詞表技術研究的一個重要發展趨勢就是與網絡檢索這類應用系統的結合。通過概念空間詞表界面,用戶可以隨意輸入任何一個單詞或詞組,這時搜索界面會在一個顯示框中顯示按與用戶檢索詞相關程度排序的空間詞匯,用戶可以從中選擇合意的詞添加到搜索框中,從而檢索出用戶所需的信息,更提高檢索的精確度。其次是對檢索結果集的篩選和提煉問題。網絡知識挖掘的目的是將用戶從浩如煙海、錯綜復雜的網絡信息源中解放出來,擺脫原始數據細節,直接與數據所反映的知識打交道,使處理結果以可讀、精練、概括的形式呈現給用戶,使用戶能把主要精力真正用到分析本質問題、提高工作效率和資源利用率方面。網絡知識挖掘能夠真正支撐起數字參考咨詢服務系統的顯性知識與隱性知識全方位開發策略。目前對檢索結果的篩選和提煉這個工作環節大部分是由人工完成的,雖然保證了質量,但隨著以后工作量的日益增加,采取智能處理是必然趨勢。知識挖掘雖然仍處在發展的前期,還有很多研究難題,但我們在建設數字參考咨詢服務系統的時候,必須考慮對知識管理功能的開發,預先設計好底層數據標準和二次開發接口等。
4網絡知識挖掘在數字參考咨詢個性化服務中的應用
數字圖書館的內涵不僅僅應體現在其數字化資源的建設上,更應體現在服務上。數字參考咨詢服務是數字圖書館建設的必然結果。數字參考咨詢的用戶需求不僅是簡單的查詢,而且是需要深入內容的信息處理技術,希望擺脫表層信息的干擾,對網絡數據作更深層次的分析與挖掘。這就要求圖書館從紛繁復雜的信息資源中,以面向“個人”的方式來挖掘知識,提取真正有用的信息。這是數字圖書館建設中要考慮的問題之一,是做好數字參考咨詢的前期基礎。
個性化服務是指使用多種數據分析技術,根據用戶興趣的信息向用戶及時、主動地推薦用戶需要的且以往沒有獲得的知識資源信息,并能根據用戶對推薦內容的反饋進一步改進推薦結果。個性化服務是一種高層次的智力技術活動,其重要的特點是知識增值與智能重組。網絡知識挖掘工作運用最新的智能工具來挖掘蘊藏于海量顯性信息中的隱性知識,并形成專業知識庫和知識倉庫,將隱性知識顯性化并給予管理、利用,非常符合網絡用戶對個性化、隱性知識的需求。網絡知識挖掘在數字參考咨詢個性化服務中的應用主要體現在以下兩個方面。
4.1收集與用戶有關的信息,建立用戶信息庫
通過各種方式收集用戶興趣,比如表單、跟蹤日志、系統導入等,從而建立用戶個性化的信息庫。
(1)填寫表單。數字參考咨詢服務可以在主頁上提供個性化服務的注冊入口。在進入頁面,設計一個表單,內容包括用戶的背景信息,如用戶的學歷、年齡、職業、地域、要求等和用戶的特殊信息,如感興趣的專業、方向,想獲取的信息以及獲取方式和聯絡方式等。
(2)跟蹤日志。數字參考咨詢服務可以在用戶進入圖書館網站開始,對用戶的行為進行跟蹤,產生日志文件,并將該日志文件并入用戶信息庫。對用戶的Web日志記錄進行挖掘可以比較真實地反映其信息需求。從Web日志記錄中可以挖掘出關聯模式、序列模式和Web訪問趨勢等,從而理解用戶的反映和動機。
(3)系統導入。通過聯合圖書館方式將其它圖書館的用戶信息庫導入,也可以與其它網站合作,導入其用戶數據。
4.2利用知識挖掘技術,分析用戶信息庫
為了開展個性化服務,必須了解用戶,了解用戶的信息需求,包括顯性需求和隱性需求,進行以下分析。
(1)用戶分類。通過對用戶的興趣、愛好、研究領域、知識結構、利用圖書館的程度和對圖書館提供服務手段掌握的熟練程度等方面,將用戶進行分類。
(2)用戶行為分析。要將信息主動推送給用戶,必須了解用戶的信息需求,它包括顯性需求和隱性需求。顯性需求是通過填問答表的方式了解,做到這一點比較容易,關鍵是如何了解用戶的隱性需求。隱性需求主要是系統通過觀察用戶信息使用行為,比如用戶訪問的頁面、訪問次數、逗留時間、保存行為等,以此來準確地獲取用戶的信息需要。要做到這一點,必須完善相應的人工智能方法和機器學習等技術。
(3)用戶反饋挖掘。用戶反饋挖掘是通過自動聚類技術將用戶相關反饋的結果聚類,形成某些層次以描述用戶信息需求,具體包括關聯聚類、矩陣聚類、標量聚類,其目的是找出用戶感興趣的區域。為了提高服務質量,要求用戶對所提供的信息作出反饋,并將用戶的反饋信息再次分析、調整。如廈門大學圖書館在主頁上列有問題反饋類目,包括留言討論、館長信箱、致信webMaster、鼓浪聽濤XMU-Library版。
(4)協同過濾。不考慮資源具有什么形式的具體內容,僅通過收集到用戶對一些資源的評價(一般通過評級打分),比較用戶之間的興趣相似程度(距離),根據他與其它用戶之間興趣的相似程度(距離)和其它用戶對資源集合的評價進行資源的推薦和共享[12]。
【參考文獻】
1李宏.知識管理與知識挖掘在情報研究工作中的實現.情報理論與實踐,2003(3):199-201
2晏創業,張玉峰.智能檢索中的網絡數據挖掘技術探索.中國圖書館學報,2002(3):49-51
3侯雅木冉.網絡環境下的知識挖掘.情報科學,2003(8):887-890
4史田華.論Internet知識挖掘.圖書情報知識,2002(3):44-46
5RuthA.Hodges.AssessingDigitalReference,Libri,2002(52):157-168
6
7林豪慧.搜索引擎的智能檢索機制.圖書情報工作,2003(11):86-89
8復旦大學圖書館咨詢臺
9林曉霞.試論OCLC服務的系統性和資源的共享性.圖書館雜志,2000(6):39-42
10OCLCOnlineLibraryCenter,Inc.OCLCAnnualReport2002/2003
11李寧,李秉嚴.知識挖掘技術及應用.情報技術,2003(6):34-36
12袁媛,杜小勇,馬文峰.數字圖書館信息服務平臺的建設.現代圖書情報技術,2003(5):8-10
- 上一篇:信息通信產業前景應用論文
- 下一篇:數字視頻信息分析論文