期刊關鍵詞抽取方法
時間:2022-04-23 05:13:35
導語:期刊關鍵詞抽取方法一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。
1引言
關鍵詞是與文章內容和主旨密切相關的短語,被廣泛應用于新聞報道、學術期刊等領域。關鍵詞可以提高文檔的管理和檢索效率,還可以為一些文本挖掘任務提供豐富的語義信息,例如文檔的分類、聚類、檢索、分析和主題搜索等任務[1]。期刊的關鍵詞對應學術期刊中的keywords部分,包含簡單關鍵詞(SimpleWord,SW)和復雜關鍵詞(ComplexWord,CW)兩大部分,其中SW表示由一個簡單詞組成的關鍵詞,CW表示由多個簡單詞組成的關鍵詞。根據IEEEExplorer[2]統計數據顯示,每年約有24萬篇新學術期刊被收錄。根據某些學科期刊的要求,在文獻發表時作者需要在期刊中對關鍵詞進行注明。但仍有一些學科的出版物與早期發行的期刊、書籍、文獻的部分章節不包含關鍵詞等信息。缺乏關鍵詞會在期刊的查閱和參考過程中造成困難。雖然可以使用索引對全文進行檢索,但這種方法工作量大、且檢索結果依賴于分詞效果,難以給出準確的檢索結果。而關鍵詞抽取就是從文章中選擇一小部分單詞或短語來描述文章重要內容[3]。因此,需要尋找一種有效的期刊關鍵詞抽取方法。針對傳統方法的不足并結合最新研究成果,本文提出了一種基于融合詞性的BiLSTM-CRF的期刊關鍵詞提取方法。在實現數據時序和語義信息挖掘的同時,也保證了單詞與單詞之間的關聯性。在真實數據上的實驗結果表明融合詞性的BiLSTM-CRF模型是一種有效的期刊關鍵詞自動抽取方法。
2相關工作
目前,關鍵詞抽取任務主要有兩種方法,基于無監督的方法和基于有監督的方法[4,5]:2.1基于無監督的方法:無監督方法僅通過一些事先規定的關鍵詞權重的量化指標,計算權重排序關鍵詞重要性來實現。TFIDF是字符串頻率關鍵詞[6,7]抽取的一種典型方法,其本質是無監督的,可以簡單快捷的進行關鍵詞抽取。該方法僅掃描語料庫一次,即可獲得所有單詞的文本頻率。但除了詞頻之外,仍需要考慮許多因素,例如詞的詞性以及在文本中的位置等。為了提高該方法的性能,必須人工的對其許多規則進行設計[5]。在新聞領域,字符串頻率方法比有監督的機器學習方法更有效。因為機器學習的方法在模型訓練時需要花費大量的時間,并且文檔需要標注。其次,每天都會發生新事件,新聞的內容具有多樣性。但無監督方法只提供了單詞在文本中的相對重要程度,無法有效地綜合利用詞法和語義信息對候選關鍵詞進行排序[8]。2.2基于有監督的方法:有監督的方法將關鍵詞抽取問題視為判斷每個候選關鍵詞是否為關鍵詞的二分類問題,它需要一個已經標注關鍵詞的文檔集合來訓練分類模型,即通過在一個有標注的數據集上訓練分類器,以便決定候選詞中哪些是關鍵詞。不同的機器學習算法可以訓練出不同的分類器,如樸素貝葉斯[9],決策樹[10]、最大熵算法[11]和支持向量機[12]等是關鍵詞抽取中的代表性方法,通過大量數據來訓練分類器??梢娪斜O督方法可以利用更多信息具有更大的優勢,且實驗效果比無監督方法好[4]。這種方法具有較高的準確性和較強的穩定性,但需要很大的語料庫,且所有文本需要進行標注。標注人員具有一定的主觀性并且標注任務具有復雜性。不同的標注人員在進行同一個文本的標注時,具有不同的認知和看法,標注的質量會影響模型的性能。并且上述方法都將關鍵詞抽取問題視為一個二分類問題,對每個單詞獨立處理,忽略了文本結構信息。為解決該問題,可以將關鍵詞抽取問題轉化為序列標注問題,常用的模型有最大熵模型(MaximumEntropy,ME),隱馬爾科夫模型(HiddenMarkovModel,HMM),條件隨機場模型(ConditionalRandomField,CRF)。其中CRF模型的應用最為廣泛,性能也最好,可以較為精確的實現關鍵詞的有效提取,但卻需要人工設計特征,特征設計的優劣與否將會直接影響到模型的性能和最終的抽取效果。隨著深度學習的不斷發展,深度神經網絡,尤其是長短期記憶網絡(LongShortTermMemory,LSTM)模型,前一時刻隱藏層的信息可以加入到當前時刻的輸出,通過LSTM層可以高效地利用上下文信息,處理長序列依賴問題。通過結合LSTM模型和CRF模型,綜合利用多種信息,可以使得效果更好[13]。在近期的研究中,已有學者將BiLSTM-CRF網絡模型用于開放式關系抽取[14]、命名實體識別[15]、中文分詞[16]等自然語言處理任務中。Alzidy等已經將BiLSTM-CRF網絡用于關鍵詞抽取任務中[17],使用固定的詞嵌入來表示單詞,輸入網絡,得到序列標注結果。
3融合詞性與BiLSTM-CRF的抽取模型
針對從文本中自動抽取關鍵詞的問題,現有的解決方法大多基于二分類的思想。這種方法忽略了單詞之間的關聯性,將每個詞視為獨立的部分,因此無法通過聯系上下文來準確把握文的有效信息,從而導致模型具有較差的關鍵詞抽取能力。針對該問題,本文結合條件隨機場與深度學習中雙向長短期記憶網絡(BidirectionalLongShortTermMemory,BiLSTM)模型可以自動提取特征的優勢,將期刊關鍵詞的抽取問題轉化為序列標注問題,提出了融合詞性與BiLSTM-CRF的期刊關鍵詞抽取方法。融合詞性與BiLSTM-CRF的關鍵詞抽取模型如圖1所示:關鍵詞自動抽取模型共包含三大部分:(1)對期刊文本進行分詞和詞性標注的預處理;(2)將預處理后的文本使用word2vec模型進行WordEmbedding向量化,獲取字詞的向量表達式;(3)使用BiLSTM-CRF模型實現關鍵詞的自動抽取。3.1特征提取:(1)詞性標注在關鍵詞組合的過程中,可能會采用不同的詞性組合方式,但通過對期刊中大量的關鍵詞研究發現,期刊中的關鍵詞一般由名詞,形容詞和動詞組合形成[13],因此在實驗中需要對詞性進行標注,例如:信號控制單元(n+vn+n),高性能電池(ad+n),其中,n表示名詞,vn表示動詞,ad表示形容詞。加入詞性特征對期刊關鍵詞的識別有一定作用。(2)依存句法分析依存句法分析就是確定一個句子中詞語與詞語之間的依存關系或者對句子的句法結構進行分析。詞語之間的依存關系主要有介賓關系、動賓關系、主謂關系等。本文采用語言技術平臺[18](LanguageTechnologyPlatform,LTP),對期刊文本進行依存句法分析,通過過濾不可能組成關鍵詞的依存關系,可以提高識別關鍵詞的效果。(3)詞向量表示本文采用Word2Vec模型[19]中的Skip-gram模型[21]來訓練詞向量。Skip-gram模型是在已知當前詞語的情況下,去預測上下文信息。模型的目的是要學到好的詞向量表示,然后能夠很好的預測它上下文的詞語。Skip-gram模型如圖2所示。在訓練詞向量的過程中分別將詞、詞性、依存句法分析等特征通過word2vec工具轉換成詞向量表示,詞的維度為200維,詞性和依存句法分析的維度分別為10維,最后通過嵌入式向量引入模型進行融合,生成最終的特征向量表示。3.2LSTM網絡:循環神經網絡(RNN)[20]被廣泛應用于命名實體識別、語音識別等自然語言處理任務中,具有記憶歷史信息的能力,能夠使模型通過長距離的特征對當前的輸出進行預測。但隨著RNN網絡深度和訓練時長的增加,在對較長序列數據處理時存在梯度消失和梯度爆炸的問題。LSTM網絡與傳統的RNN具有相似的網絡結構,通過使用專門構建的記憶細胞代替RNN網絡中隱藏層的更新模塊,使LSTM網絡具有發現和探索數據中長時間的依賴信息的能力。LSTM的神經元結構如圖3[21]所示。由上圖可知,LSTM模型使用門結構對細胞狀態進行保持和更新,一個LSTM存儲單元主要由輸入門(i),輸出門(o),遺忘門(f)和記憶細胞(c)組成。LSTM模型可以通過下列公式實現:其中,σ表示Sigmoid函數,tanh是雙曲正切函數,t表示當前時刻,t-1表示前一時刻,it、ft、ot、ct分別表示當前時刻輸入門、遺忘門、輸出門和記憶細胞的輸出,W和b分別表示模型訓練過程中的權重矩陣和偏置向量。在序列標注任務中,由于引入了記憶單元和門結構,在輸入句子較長時,可以防止距離當前詞語較遠但依賴關系較強的信息被遺忘。本文定義標簽集{B,M,E,O},其中,B表示CW的首部和SW,M表示CW的中部,E表示CW的尾部,O表示其他文本,LSTM模型[22]如圖4所示。在對期刊的關鍵詞進行抽取時,通常需要在給定時間訪問過去或未來的輸入特征,而單向LSTM網絡只能處理和存儲前一時刻信息,因此可以使用圖5所示的雙向LSTM網絡[22]來完成該任務。這樣可以在指定的時間范圍內有效地使用上下文信息。其中,過去的特征通過Forward狀態獲取,未來的特征通過Backward狀態獲取。然后使用時間的反向傳播來訓練BiLSTM網絡。隨著時間推移,在展開的網絡上進行的前向和后向傳播與傳統網絡的前向和后向傳播類似,但需要設置隱藏狀態。在對整個句子進行前向和后向傳播的時候僅需要在句子的開頭將隱藏狀態重置為0。由圖5可知,BiLSTM網絡可以同時獲取較長語句的前后文信息,保證了上下文之間的依賴關系。在期刊關鍵詞抽取任務中,若起始詞為關鍵詞,LSTM網絡會忽略語句開頭與結尾間的依賴關系,因此會導致誤判。因此,BiLSTM模型為有效的進行關鍵詞抽取奠定了基礎。3.3融合詞性特征的BiLSTM-CRF模型:條件隨機場是一種針對序列標注問題效果最顯著的條件概率模型,其本質是一個無向圖模型。本文在BiLSTM模型的基礎上,結合CRF處理序列標注問題的天然優勢,有效的引入標簽之間的轉移關系,構建轉移狀態矩陣,從而更有效的實現關鍵詞的自動抽取。將BiLSTM網絡和CRF網絡整合為BiLSTM-CRF模型,如圖6所示。通過BiLSTM網絡,模型可以有效的利用過去的輸入特征和未來的輸入特征挖掘期刊文本數據的隱含特征,通過CRF層,利用狀態轉移矩陣模型可以有效的利用過去和未來的文本的標簽信息預測當前的標簽。由圖6可知,BiLSTM-CRF主要包含WordEmbedding向量化,BiLSTM網絡,CRF三個部分。模型的輸入為分詞和進行詞性標注后的序列文本。在WordEmbedding向量化過程中使用Word2Vec模型[19]通過訓練后,根據給定的語料庫可以快速有效地把對文本內容的處理簡化為K維向量空間中的向量運算,將一個詞語表達成向量形式,從而可以使用向量空間上的相似度來表示文本語義上的相似度。本文使用Word2Vec模型中的Skip-Gram模型,通過給定單詞來預測上下文信息,使用無監督的方式通過學習文本來用詞向量的方式表征詞的語義信息。將獲取的融合詞性后的詞向量輸入BiLSTM網絡中,得到包含前后文信息的文本序列的雙向表達,通過CRF預測最終的標簽序列。
4實驗結果與分析
本文使用中國知網的期刊數據,實驗數據包括基礎科學、工程科技Ⅰ輯、工程科技Ⅱ輯、農業科技、醫藥衛生科技、哲學與人文科學、社會科學Ⅰ輯、社會科學Ⅱ輯、信息科技、經濟與管理科學10個大類以及168個二級分類。實驗期刊數據是1989年到1992年約300萬的期刊量。其中每篇期刊數據包括來源庫、題名、作者、單位、文獻來源、關鍵詞、摘要、發表時間、第一責任人、基金、年、期、卷、期、頁碼等數據項。在實驗過程中,需要在保證數據多樣性的同時確保數據的有效性,因此從采集到的期刊數據中的各個大類和二級分類中隨機選出5040篇作為訓練數據集,1680篇作為驗證數據集,1680篇作為測試數據集。本實驗采用融合詞性與BiLSTM-CRF的關鍵詞抽取模型,需要在WordEmbedding詞向量的訓練過程中結合期刊的詞性特征。同時,論文的題目和摘要最能表達文章的核心內容,所以在實驗過程中,本文使用jieba分詞工具對獲取的期刊數據的摘要和題目進行分詞和詞性標注處理,除了對測試數據進行中文分詞和詞性標注處理外,不進行任何數據預處理操作。通過模型獲取最終的關鍵詞抽取結果并與期刊數據中的獲取關鍵詞進行比對,得到最終的實驗結果。數據的標注樣例如表1所示,本文將關鍵詞抽取問題轉換為序列標注問題,定義標簽集{B,M,E,O},其中,B表示CW的中部,E表示CW的尾部,O表示其他文本。標注樣例如表1所示:4.1評價指標:為度量模型的性能病并驗證本文所提模型的準確性和有效性,在實驗中采用準確率(Precision,P)、召回率(Recall,R)和F值(Fscore)對關鍵詞抽取模型的性能進行評價,將模型抽取的關鍵詞與原始期刊文獻中的關鍵詞進行對比,可以得到:準確率P,召回率R和F值得取值范圍均為0到1,P越大表示抽取出的關鍵詞正確率越高,R越大表示越多的關鍵詞被正確抽取,F值是基于P和R的調和平均定義的,故F值越大則表示模型的性能越好,當取值為1時,表示所有的關鍵詞均被正確的抽取。4.2實驗結果與分析本文實驗均在硬件配置為Nvidia1080Ti顯卡,I77700K處理器,64G運行內存,運行環境為Ubuntu16.04操作系統的計算機上實現的。編程語言為python3.5,模型的搭建使用TensorFlow框架。實驗過程中,期刊關鍵詞抽取模型的超參數設置可能會對實驗結果產生直接影響。為確定參數設置對模型性能的影響,使模型性能最優,本文開展了大量的超參數比選實驗。實驗結果表明詞向量和詞性向量的維度對實驗結果具有較大影響,而BiLSTM網絡模型中的參數對實驗結果的影響較小。在比選實驗后,最終關鍵詞抽取模型的參數設置如表2所示:為確定所提融合詞性的BiLSTM-CRF模型對期刊關鍵詞的抽取的有效性,本文共設置了五組實驗進行對比。將本文模型與LSTM模型,BiLSTM模型,BiLSTM-CRF模型,融合詞性的BiLSTM模型,融合詞性的BiLSTM-CRF模型進行對比,并分別設置實驗編號為Case1,Case2,Case3,Case4,Case5。不同模型組合得到的實驗結果如表3所示:表3不同Case2是在Case1的基礎上將LSTM模型改進為BiLSTM模型,無論是在CW還是SW的層面上,準確率,召回率和F值都得到了提升,表明BiLSTM模型更適合作為基礎深度神經網絡進行關鍵詞抽取。Case4是在Case2的基礎上融入詞性特征,在CW和SW上,F值分別從82.73%和44.27%增加到83.43%和47.19%。分別提升了0.70%和2.92%。而Case3和Case5則分別在Case2和Case4的基礎上加入CRF模型,就CW而言,兩組對比實驗的準確率分別提升了0.42%和2.05%,召回率分別提升了2.46%和2.79%,F值分別提升了1.46%和2.43%,就SW而言,兩組對比實驗的準確率分別提升了5.62%和10.06%,召回率分別提升了5.93%和9.19%,F值分別提升了5.82%和9.62%。實驗結果表明,在加入CRF模型后,關鍵詞的自動提取性能在SW層面上的提升比在CW層面上的提升更為顯著,融入詞性特征后模型性能的提升比未加入詞性特征的模型性能的提升更為顯著。同時可以看出,在BiLSTM模型的基礎上,加入CRF模型比僅融入詞性特征對模型的提升更為顯著,這是由于在訓練模型的過程中,CRF可以自動學習一些約束添加至最終的預測標簽中,保證預測結果的有效性,在模型訓練過程中,這些約束可以通過CRF模型自動學習到。在五組對比試驗中,無論是CW還是SW,融合詞性的BiLSTM-CRF模型均獲得最高的F值,模型對關鍵詞的抽取能力更強。為進一步證明方法的有效性,將本文方法與三種常用的關鍵詞抽取方法:TextRank[23]SGRank[24]SingleRank[25]行比較,實驗結果如表4所示:BiLSTM-CRF模型性能顯著優于三種常用的關鍵詞抽取方法。在三種無監督的算法中,SGRank對CW和SW類關鍵詞提取的準確率,召回率和F值均優于其余兩種算法。結合表3中的實驗結果,使用到的方法均不能有效抽取CW類關鍵詞,需要在后續的研究中更為充分的考慮文本中的上下文等有效信息來解決這一問題。
本文針對傳統BiLSTM網絡忽略了文本結構信息以及人工抽取特征困難的問題,提出了一種基于融合詞性的BiLSTM-CRF的關鍵詞抽取方法。該方法將關鍵詞自動抽取問題轉化為序列標注問題,在傳統BiLSTM網絡的輸出層后加入CRF模型,可以自動學習一些約束并添加至最終的預測標簽中,使得最終的輸出標簽前后具有關聯性。同時,在輸出網絡時,顯性的加入詞性特征,構成最終的詞向量矩陣。實驗結果表明,本文提出的基于融合詞性的BiLSTM-CRF模型相較未加入CRF以及未融合詞性的模型具有更高的準確率,召回率和F值,是一種有效的關鍵詞自動抽取方法。但是本文的方法仍存在一定的局限性,針對CW類型的關鍵詞抽取問題,模型性能較差。在未來的研究中,需要著重解決對復雜關鍵詞的自動抽取問題并進一步提升對簡單關鍵詞的自動抽取的準確率,結合其他有效信息對模型進行改進,進一步提升對關鍵詞的自動抽取效果。
作者:成彬 施水才 都云程 肖詩斌
- 上一篇:簡述不動產登記對房地產經濟的影響
- 下一篇:“兩山理論”與生態經濟發展研究