數據挖掘技術在學習效能評價的作用

時間:2022-10-17 02:55:24

導語:數據挖掘技術在學習效能評價的作用一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

數據挖掘技術在學習效能評價的作用

摘要:教育大數據的應用方興未艾,目前較多的研究應用在預測學生表現或挖掘影響因素方面。本論述采用關聯算法和決策樹方法所產生的結果集來評價教學質量提升程度,為教學評價探索了一條新路。

關鍵詞:評價;教學;大數據;決策

本論述的主要目的是研究如何應用數據挖掘思維評價學生的課業成績及授課質量。由于數據挖掘算法眾多,主要應用決策樹及關聯算法作為研究手段,學習數據集主要來自高考成績、大學一年級出勤情況、課堂測試、討論發言、作業成績及期末考試成績等與學業相關的數據,并將這些數據作為特征變量,將兩年之后的專業課成績總和作為目標變量?;鞠敕ㄊ菍⑷陮W生的數據作為訓練集,以此為依據每年預測新生畢業時的專業課成績優良率,如實際與預測相符,則表明整個專業建設工作處于穩定狀態,包括授課質量、教學改革、實驗實訓條件、師資隊伍建設等因素的總和處于穩定狀態;如實際大于預測或小于預測,則表明總體專業建設質量在提升或下降,以便有針對性地提出加強和改進方案。

1數據挖掘主要技術

數據挖掘常用的主要技術有決策樹法、神經網絡法、遺傳算法、統計分析方法、可視化方法等。1.1決策樹。決策樹法就是以信息論中的互信息(信息增益)原理為基礎尋找數據庫中具有最大信息量的字段建立決策樹的一個結點,再根據不同取值建立樹的分支;在每個分支子集中重復建立下層結點和分支,這樣便生成一棵決策樹。然后對決策樹進行剪枝處理,最終把決策樹轉化為規則,再利用規則對新事例進行分類。典型的決策樹方法有分類回歸樹(CART)、D3、C4.5等。該方法輸出結果容易理解,實用效果好,影響也較大。1.2神經網絡法。神經網絡法建立在可以自學習的數學模型基礎上。它是由一系列類似于人腦腦神經元一樣的處理單元組成,那就是節點(Node)。這些節點通過網絡彼此互連,如果有數據輸入,它們便可以進行確定數據模式的工作。神經網絡法對于非線性數據具有快速建模能力,其挖掘的基本過程是先將數據聚類,然后分類計算權值,神經網絡的知識體現在網絡連接的權值上,該方法更適合用于非線性數據和含噪聲的數據,在市場數據分析和建模方面有廣泛的應用。1.3遺傳算法。遺傳算法是一種模擬生物進化過程的算法,由三個基本算子組成:繁殖、交叉(重組)、變異(突變)。在遺傳算法實施過程中,首先對求解的問題進行編碼(染色體),產生初始群體;然后計算個體的適應度,再進行染色體的復制、交換、突變等操作,最后產生新的個體。經過若干代的遺傳,將得到滿足要求的后代(即問題的解)。該方法計算簡單,優化效果好,適合于聚類分析。1.4統計分析方法。統計分析方法是利用統計學、概率論的原理對數據庫中的信息進行統計分析,從而找出它們之間的關系和規律。常用的統計分析方法有:判別分析、因子分析、相關分析、多元回歸分析、偏最小二乘回歸方法等。統計分析方法是最基本的數據挖掘技術方法之一,可用于分類挖掘和聚類挖掘。1.5可視化方法??梢暬椒ㄊ且活愝o助方法,它采用比較直觀的圖形圖表方式將挖掘出來的模式表現出來,其大大拓寬了數據的表達和理解力,使用戶對數據的剖析更清楚。

2國外研究現狀

Alaael-Halees認為數據挖掘可以增強對學習過程的理解,要專注于與學生學習過程相關變量的識別、提取和評估;Han和Kamber[1]認為能夠分析不同維度數據的數據挖掘軟件,對教育數據的分類,并總結出挖掘過程中各種關系具有極大的推動作用。Pandey和Pal[2]選取了來自印度法扎巴德不同學院的600名學生,對他們的學習成績進行了研究。通過對學生的類別、語言、背景資格等進行分類,可以發現新生是否會成為優秀畢業生;Hijazi和Naqvi[3]對300名學生(225名男生)的學習成績進行了研究。初期假設為“學生上課的態度、大學畢業后每天學習的時間、學生的家庭收入、學生母親的年齡及母親的教育程度與學生的學習成績顯著相關”。通過簡單的線性回歸分析,發現母親教育程度、學生家庭收入等因素與學生學業成績呈高度相關。Khan[4]對400名學生進行了研究包括200名男生和200名女生,主要目標建立的包含不同測度值的預測值集合,包含認知能力、成功的人格和人口統計學變量,從而試圖揭示在高中能取得科學學科成功的因素,算法選擇基于聚類的抽樣技術,研究分為聚類組合和隨機組。研究發現,社會經濟地位高的女生理科成績相對較高,社會經濟地位低的男生理科成績總體較高;Galit[5]給出了一個案例研究,使用學生的數據來分析他們的學習行為,從而預測結果,并在期末考試前關注處于危險中的學生;Al-radaideh,[6]應用決策樹模型預測了2005年約旦Yarmouk大學c++課程學生的最終成績。采用ID3、C4.5和NaiveBayes三種不同的分類方法。結果表明,決策樹模型具有較好的預測效果;Pandey和Pal[7]選取了印度法扎巴德R.M.L.Awadh博士學位學院的60名學生,對他們的學習成績進行了研究。通過關聯規則發現學生對語言選修課的興趣;Ayesha,Mus⁃tafa,Sattar和Khan[8]描述了使用k-means聚類算法來預測學生的學習活動。數據挖掘技術實施后所產生的信息對教師和學生都有一定的幫助。Bray[9]在他關于私人輔導及其影響的研究中發現,印度接受私人輔導的學生比例相對高于馬來西亞、新加坡、日本、中國和斯里蘭卡。研究還發現,家教強度對學生的學業成績有促進作用,而家教強度的這種變化依賴于集合因素,即社會經濟條件;Bhardwaj和Pal[10]對R.M.L.Awadh大學計算機應用學士學位課程5個不同學位學院的300名學生的學習成績進行了研究。運用貝葉斯分類方法對17個屬性進行分類,發現學生高中成績、居住地點、教學媒介、母親的資歷、學生的其他習慣、家庭年收入和家庭狀況與學生大學學業成績呈高度相關。

3實例分析

本例選取了財經商貿學院2017~20畢業生共1800名學生的相關學習記錄數據。目標變量選取的是二、三年級的專業課總成績(STS),特征變量選取高考成績(CEEA)、大學一年級出勤情況(ATT)、課堂測試(CTG)、討論發言(SEM)、作業成績(ASS)及期末考試成績(ESM)。其等級分類表見表1所列。經計算,CEEA與STS的相關程度最高,可將其作為根節點。通過決策樹的訓練,可以為從終端節點到根節點的每個路徑生成一個分類規則,通過刪除對象數目少于所需數目的節點來執行剪枝技術,最后可得到如下if-then的關聯規則見表3所列。

4結論

本論述利用分類任務對學生數據庫進行分類,已有數據庫的基礎上預測學生學習成果等級。由于數據分類的方法很多,本論述使用決策樹方法,而信息數據從教學過程中得到。本研究是一種創新嘗試,希望通過大數據預測方法開辟新的教學評價之路,對高等教育評價工具的補充具有一定的參考價值。

作者:張武 康等銀 王德方 單位:蘭州資源環境職業技術學院