學生管理論壇文本挖掘分析

時間:2022-07-12 11:11:37

導語:學生管理論壇文本挖掘分析一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

學生管理論壇文本挖掘分析

摘要:文章針對學生管理論壇學習行為分析需求,基于自然語言處理技術,利用scrapy爬蟲框架對中國繼教網初中數學學生管理論壇進行文本數據挖掘,開展機器學習環境下的文本挖掘學生學習問題的深入分析。利用論壇師生學習數據信息,探討數據挖掘在數學學習論壇中具體應用方法,著重針對文本數據建立LDA模型、聚類分析,梳理教學過程中出現的高頻詞,幫助教育者針對性處理教育問題。

關鍵詞:學習論壇;NLP;文本分析

一、引言

“互聯網+”、人工智能、大數據、機器學習等技術應用的快速發展,教育學者積極探索信息社會如何更好地新型互聯網技術運用于教育教學,將教育帶入到一個全新的智能化大數據時代。關于文本數據挖掘分析的探索,本質是自然語言處理(NaturalLanguageProcessing,NLP)過程。NLP是將無結構的自然語言轉換成結構化數據自然語言,便于計算機的理解、存儲和管理[1]。本文以中國繼教網初中數學論壇學習文本為數據源,使用NLP中TF-IDF算法衡量出現單詞的關鍵性并用于后續聚類分析,使用LDA抽取文檔主題,使用word2vec分析詞條相似度,為教學者提供教育問題內容參考,針對性解決學生主要問題。

二、理論依據

(一)TF-IDF算法。TF-IDF是一種統計方法,用以評估單詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。如果某個單詞在一篇文檔中出現頻率高,并且在其他文章中出現的頻率低,則認為這個單詞有很好的類別區分能力[2]。頻詞(Term-Frequency,TF),衡量一個term在一篇文檔中出現的頻繁次數。逆文檔頻率(InverseDocumentFrequency,IDF),是一個詞語普遍重要性的度量。(二)Word2vec模型。Word2vec模型是由Google的TomasMikolov團隊提出并實現的分布式詞向量表示模型,普遍應用于自然語言處理(NLP)。該模型可以在較短的時間內,從大規模的語料庫中學習到高質量、多角度表達的詞向量[3]。一篇文檔可以通過這種模型得到該文檔中每個詞的低維度(100-500)向量表達,從而可以方便的計算詞與詞之間的語義相似度。(三)LDA主題模型。LDA模型認為一篇文章的每個詞都是通過“以一定概率選擇了某個主題,并從這個主題中以一定概率選擇某個詞語”這樣一個過程得到。文檔到主題服從多項式分布,主題到詞服從多項式分布。LDA可以用來識別大規模長度文檔集或語料庫中潛藏的主題信息[4]。

三、基于自然語言處理技術的學生管理論壇的文本挖掘過程

(一)文本獲取。本文通過Scrapy爬蟲框架,從中國繼教網初中數學學生管理論壇下收集文本數據,包括文章標題、文章發表時間、文章閱讀量、文章全部內容??梢詫⒅袊^教網初中數學學生管理論壇從最早2014年7月到2018年10月4129篇文章扒取下來。數據保存MongoDB數據庫中,最終以Excel表格導出。(二)文本預處理。常見的論壇文本預處理有去除缺失值,刪除重復值,剔除異常值,中文jieba分詞、去停用詞處理、詞頻統計等數據預處理工作。其中停用詞處理中,本文還添加了一些在教育教學中常出現的但是不是關鍵詞的高頻詞(學生,教師,老師等),構成了自定義停用詞表。經過上述預處理操作,最終得到了1400多條數據。(三)標題詞云。經過預處理的數據,基本上符合機器處理的標準,但是預處理得到的數據中,依然摻雜著一些游離的、無法形成主題的數據內容。而一篇文章的標題基本都附帶著一些關鍵詞和主題詞。用Python相關庫進行詞頻統計和詞云展示,初步分析所有文章談論的主題。利用高頻詞查找原始Excel文檔標題,利用Excel標題篩選功能,找出包含這些高頻詞的所有標題。從標題高頻詞分布中可以看出,老師們寫文章的關注點主要體現在以下幾個方面:1.學生培養工作原文檔中檢索出130條標題包含“培養”的標題,發現以下內容是培養學生的關注點。比如“怎樣培養學生學習數學的興趣?”“怎樣培養得力的班干部?”從中可以得出學生培養工作可以從培養學習興趣、培養知識能力、培養良好習慣、培養得力學生、培養自主思維以及培養自信等積極人格情感這幾個方面入手。2.后進生(差生)和學困生“后進生”是對“差生”的新認知,過去由于認知錯誤把他們叫作差生,現在稱為后進生,即“后來進步”之意[6]。學困生是那些學習成績不理想,自律能力有限的學生。原文檔中檢索出173條標題包含“后進生”或“差生”的標題,比較集中的標題有“后進生轉化”“轉化差生的工作”。從中可以看出后進生和學困生如何轉化是比較尖銳的問題。(四)基于Word2vec詞向量的關聯詞。提取Word2vec詞向量算法可以將詞表示成向量,向量每一維表示某一方面特征,通過計算兩個詞條向量的相似度,提取出主題詞的若干個關聯詞。運用Word2vec算法提取上述歸納出關鍵主題前20個關聯詞,進行屬性相關詞的拓展。在培養學生工作中,主要是教會學生自我教育,培養他們的創新能力和思維能力;培養學生數學興趣從激發他們的求知欲,提高積極主動性,增強學習動機入手;自學能力較強的學生學習習慣也自然好,培養閱讀習慣要做筆記和課前預習,做到“心到、眼到、口到”。在差生詞條中,“學困生”“差生”“后進生”詞條相似度很強。同時和“優生”“優等生”也緊密聯系,這說明了當文章一句話里出現了“差生”這樣單詞時候往往伴隨著這句話里面或者前后文會出現“優生”等同義詞字眼。(五)LDA抽取文檔主題。提取LDA模型主題數是一個超參數,本文設為10個,即認為1400多篇文章都是在10個主題。通過建立LDA模型,得到了10組主題詞,為學生成長、數學能力、初中幾何、班級管理、情感溝通、思維培養、課堂教學、差生轉化、習慣培養、青春早戀??梢詮腖DA提取的最相關的前20個單詞,通過詞序的排列組合生成有解釋性的句子再進一步深化主題詞的意義。(六)KMeans文檔聚類分析。經過KMeans聚類容得出每個類別具體的文章數量,但是聚成一類的類別命名需要去分析查看原始文本標題和內容。經過仔細觀察統計得出了11個命名類別,頻數從高到低依次是:學生發展、課堂教學、師生交往、班級管理、數學能力、后進生+學困生轉化、關愛差生、學習興趣、學生手機??梢娊處煹闹饕ぷ髦行暮头从硢栴}集中體現在學生發展、課堂教學、師生交往等日常學校教育行為。

四、小結

本文運用自然語言處理(NLP)中常見的文本數據預處理技術及關鍵詞頻(TF-IDF)矩陣、Word2vec詞條相似度,LDA主題模型和KMeans文檔聚類,主要開展大數據環境下的文本主要信息挖掘和探討。上述每一步文本分析做法得出的結果都有很好的可解釋性,能夠在1400多篇中等規模文章中定位到黃金主題和與之相關的延展信息,這體現了數據挖掘的意義。

作者:李光明 潘以鋒 周宗萍 單位:上海師范大學教育技術學系