中文電子期刊資源訪問要點
時間:2022-05-27 05:20:05
導語:中文電子期刊資源訪問要點一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。
信息行為研究一直是圖書情報學中的重要內容。隨著信息技術的發展,信息行為研究逐漸進入“數據驅動”時代。與傳統研究不同,“數據驅動”的信息行為研究更關注用戶與各類信息系統平臺及信息本身自然交互過程中留下來的外在的、非介入的、客觀的數據記錄,規避了傳統研究方法由于研究樣本(用戶)的主觀觀點,及可能無意或有意地偏離正式情景而帶來的研究結果偏差的弊端[1],高質量的日志數據是新范式下信息行為研究的重要資源。本數據集是通過ERU系統(LibraryElectronicResourcesUsingStatisticalAnalysisSystem,電子資源使用訪問系統)采集的2018年復旦大學師生訪問中文電子期刊資源的結構化行為數據,是開展數據驅動的信息行為研究的重要數據資源。
1數據采集和處理方法
1.1數據采集。通過ERU系統抓取復旦大學用戶訪問復旦大學圖書館訂閱期刊數據庫的檢索、瀏覽和下載行為數據。將數據導出后進行格式轉化,根據數據情況和MicrosoftExcel的文件要求,將數據分為14個表格文件,其中檢索數據分為2文件,瀏覽和下載數據按月份為12個文件。在數據采集中,設定條件如下:(1)時間范圍:2018年1月至12月;(2)限定平臺為中國知網和萬方數據知識服務平臺;(3)篩選出平臺相應的期刊論文數據。1.2數據清洗。對系統采集數據進行人工對比檢查,對數據的檢查包括網絡異常、程序錯誤等造成的數據缺失等問題。此外,也包括數據格式、字段標準化命名和數據完整性等。數據清洗過程中還對異常數據進行了修正、剔除和補充。1.3數據脫敏。本數據集中的敏感信息為CLIENT_IP字段,采用MD5加密算法進行不可逆脫敏處理,處理后字段保留獨特性和部分可分析性。
2數據字典和數據樣本
本數據集中的14個文件共涉及20個字段,字段名稱說明、樣例值和備注信息如表2所示。
3數據質量控制
通過網絡底層進行用戶信息行為數據采集、處理、解析和建模技術,運用知識發現和智能信息技術,從方法論上解決了圖書館電子資源的異構系統和異構數據庫問題,通過和國際Counter報表進行比較分析[3],一定程度上保障了數據源的完整性和準確性,通過分析數據占比情況,保障了數據集中的行為數據有一定的代表性。通過系統采集和人工干預結合的方式,保障數據質量。人工干預方面主要針對數據進行完整性判斷,對必須的字段進行補充采集,進行數據轉換與敏感信息變形處理,保障數據的完整性、安全性和可分析性。
4數據價值
本數據集是基于ERU系統采集的2018年全年復旦大學用戶對中文期刊的檢索、瀏覽和下載行為的結構化數據,總數據量3131612條。與問卷調查、訪談、用戶日記等傳統社會科學研究方法獲得的數據不同,ERU系統采集的日志類型數據能夠避免觀察者效應、霍桑效應等問題,對信息行為特征、模式的研究具有重要價值。此外,近年來,隨著信息主體所依附的信息環境復雜程度日益增強,用戶信息行為的影響因素更趨復雜,受到社會學、心理學、信息科學、傳播學、醫療健康等多個學科領域研究者的關注[4]。本數據集也將為不同學科領域信息行為的研究和應用提供基礎支撐。
5數據使用方法和建議
基于本數據集可開展用戶信息行為模式的識別、用戶行為偏好揭示、用戶需求內容的解讀研究,可結合其他問卷調查、深入訪談、參與觀察和實驗等途徑獲取的用戶信息行為內在機理研究數據進行融合研究。此外,本數據集還可嘗試進一步處理探索形成人工智能訓練數據集,也可用于大數據時代用戶信息行為研究的行為理論、分布式數據挖掘、以及數據可視化等相關問題的分析和研究。未來的研究可根據研究目標和內容,基于EXCEL、SPSS、STATA、SAS、MATLAB等工具,開展基于統計分析法、建模分析與預測、聚類分析以及機器學習等相關研究。
作者:汪東偉 伏安娜 胡杰 張計龍 殷沈琴
- 上一篇:新收入會計準則變化對企業的影響
- 下一篇:包蟲病藥品防治方案