機器學習在數據挖掘的應用
時間:2022-12-07 10:22:08
導語:機器學習在數據挖掘的應用一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。
摘要:在互聯網高速發展的今天,產生的數據量也與日俱增,伴隨大數據而來的是數據處理問題。數據挖掘旨在通過對數據的研究,通過一系列算法來充分挖掘隱藏信息,使數據的價值最大化。目前,數據挖掘在商業領域已經得到廣泛應用。機器學習,是數據挖掘最為核心,也是應用最為廣泛的數據處理方法。本文通過研究機器學習算法在數據挖掘中的應用,總結目前在數據挖掘領域較為活躍的幾種機器學習算法,并對未來的發展趨勢以及可能出現的問題進行了展望。
關鍵詞:數據挖掘;機器學習;大數據
隨著Web2.0時代的到來,互聯網數據量激增,衍生了各種數據相關的方向,其中數據挖掘是數據處理方向的新生學科。通過對數據隱藏信息的研究,挖掘大量數據背后的潛在價值,這些已經在商業應用中占有了相當重要的位置。傳統的數據挖掘中多應用統計學方法,但是在大數據量面前,單純地使用傳統統計學方法略顯不足。機器學習算法是一種能夠從數據中學習的算法。它產生于20世紀,那時互聯網還不夠發達,導致網絡中產生的數據量還很有限,另一方面,硬件限制了數據的收集存儲。如今,這些限制都已被大大削弱,機器學習作為一門以數據驅動的學科,成為數據挖掘中最為重要的方法。本文注重機器學習在數據挖掘中算法的應用部分,首先介紹數據挖掘的基本需求及過程,然后對常用在數據挖掘中的機器學習算法進行分類、研究、總結,最后在對比和綜述的基礎上,提出了未來的發展可能面臨的問題以及潛在的研究方向。
1數據挖掘
數據挖掘作為一門全新的研究領域,代替了傳統的數據分析,以新興的方法和理論挖掘數據的潛在價值。數據挖掘主要是經由以下幾個步驟來處理數據。(1)選取或構造數據集,為了方便后續的處理,關于數據集的格式、內容等的界定條件需要慎重選取。(2)數據預處理工作。這一步是為了統一數據集內部數據的格式和內容,具體包括數據清洗、數據集成、數據規約、數據離散化等,其中特征工程是數據處理中最為重要的部分。(3)數據建模和特征篩選階段。綜合考慮需求和模型等因素,通過模型的反饋,在調整參數的同時,對比選取相對最優特征集。這個階段的具體任務根據選取的模型不同而形式各異。(4)形成結論。模型在實際測試數據中表現出的泛化能力,往往能定向的反饋出有價值的信息,此時需要數據工程師根據結果分析并得出結論,甚至可能會重新開始一輪挖掘過程的迭代。
2機器學習在數據挖掘中的應用
機器學習是人工智能的一個重要分支,其自動化獲取的特性,幫助人們在紛繁復雜的數據中高效的提煉出潛在的價值。本文根據經典的機器學習分類,從監督學習、無監督學習兩個方面,來介紹幾大典型的機器學習算法。2.1監督學習監督學習是指能夠對任意給定的輸入,能給出相應的輸出模型的統稱。監督學習是極其重要的統計學習分支,也是統計學習中內容最豐富,應用最廣泛的部分。(1)樸素貝葉斯分類器樸素貝葉斯算法是基于貝葉斯定理與特征條件獨立假設的一種分類方法。貝葉斯定理,是關于條件和邊緣概率分布的轉換公式。在模型中用來將先驗概率計算轉化為后驗條件概率,也因此貝葉斯模型被稱為生成模型,即模型的目的在于求得定義在輸入和輸出空間上的聯合概率分布,進而得到極大化的后驗概率。貝葉斯模型的數學表達式如下:其中P(Xi)和P(A|Xi)由先驗分布直接計算得出。實際上同,P(A|Xi)中的估計參數是指數級別的,假設Xi可能取值有Si個,Y可能取值有K個,那么參數個數為。想要同時估計出如此巨量的參數,幾乎是不可能的,而且很難保證參數的全局最優性甚至很難保證局部最優,如此一來,參數的估計和預期效果不成正比。樸素貝葉斯法對上述出現的問題給出了一個較強的假設:用于分類的特征在類確定的條件下都是條件獨立的。這個條件獨立性大大簡化了參數的數量和估計的計算量,但有時會犧牲一定的分類準確率。在上述兩個理論的基礎上,樸素貝葉斯的算法過程如下。對于給定的訓練數據集,首先基于特征條件獨立假設學習輸入和輸出的聯合概率分布,然后基于此模型對于給定的輸入X,利用貝葉斯定理求出后驗概率最大的輸出Y。(2)決策樹決策樹模型是一種描述對實例進行分類的樹形結構。決策樹由結點和有向邊組成。其中,內部節點表示劃分特征,葉結點表示一個類。決策樹的學習過程中,最為核心的步驟是特征選擇。對于給定的損失函數,在決策樹的假設空間中選出一個最優化模型是個NP完全問題,所以現實中決策樹學習算法通常采用啟發式。即每次遞歸的選擇一個最優屬性,由此分割數據,構建子樹。這里的最優屬性選擇就是特征選擇過程,通常采用比較信息增益的策略。信息增益是指信息熵的差或信息熵之比,信息熵是從某一個特定的角度描述數據混亂程度的量。信息熵的計算公式如下:其中H(X)代表樣本集合X的信息熵,Ai代表屬性A中第i個取值的先驗概率。由上述理論的基礎,給出決策樹算法的過程。針對每個樣本集合,依次按每個屬性取值劃分集合,取使信息熵減少最多或增益比最大的屬性來劃分下一級葉節點。在每個集合中迭代以上步驟,直至子集合的熵為0或到達某一閾值,分類結束。決策樹聚類算法尤其適合多樣本情況下的離散屬性值數據處理,但在屬性分類較多的樣本集中,需要追加剪枝的算法來優化模型。(3)提升方法提升方法基于這樣一種思想:對于一個復雜任務來說,將多個專家的判斷進行適當的綜合所得出的判斷,要比其中任何一個專家單獨的判斷好。這里的專家即指如上所述的決策樹等弱分類器。具體來說,算法有這樣兩個關鍵的步驟。其一是樣本權值調整。初始為每個樣本設置相等的初值,在一次弱分類器學習之后,將分類錯誤的樣本點權值增大。算法認為,分類錯誤的數據是因為樣本本身并沒有被分類器完全學習,所以需要增加權重來引起分類器的重視,進而向著正確的分類結果靠近。這就是樣本權值調整。第二個是弱分類器權值的調整。算法整體是對多個弱分類器的加權,在每一次弱分類器執行完畢之后,算法除了調整樣本權重以外,還通過交叉驗證的方法對當前的弱分類器進行測試,以其損失函數和已有的弱分類器之間損失函數的大小差距來調整權值。通過上述兩個關鍵步驟的理論介紹,給出提升方法的步驟。對于給定的數據集,確定樣本權重和初始弱分類器權重,然后通過弱分類器的一次分類,調整樣本權值和分類器權重,完成一次迭代。算法迭代至給定的輪次或損失函數降低至目標水平時結束。提升方法結合了傳統的弱分類器,通過一系列結合方法將數據和分類器的誤差降到最小。與強化思想的不同結合最大化了模型的決策能力,且都表現出了優異的性能,在各種競賽和商業方面有著廣泛的應用。2.2無監督學習。無監督學習是指算法學習的環境為缺失標簽的數據集。從概率學的角度來說,數據缺乏足夠的先驗知識,因此難以利用標注來擬合輸入和輸出之間的聯合概率模型。最為常用的監督學習方法為K-Means算法。這是一種利用樣本點在特征空間中的距離分布進行多次迭代實現自動標注樣本類別的算法。算法中涉及距離公式的使用:(公式),其中j為1時稱為曼哈頓距離,j為2時稱為歐幾里得距離。以二維空間為例,歐式距離即兩點之間的直線距離,而曼哈頓距離為兩點之間在與坐標軸垂直方向上的距離之和。通常根據數據集的特點由數據工程師選擇合適的計算公式,必要時j可以取3或以上的值。由上述理論基礎,給出K-Means的算法計算過程。對于給定的數據集,確定距離計算公式和初值K。首先根據樣本的特征空間隨機給定K個初值坐標分別作為類中心點,計算樣本點到每個類中心店的距離,針對每個樣本點,按照其與類中心點的距離排序,將其劃分至距離最近的類中心點所屬類中,取每個類中所有坐標的均值作為新的類中心點坐標。至此完成一次迭代,算法重復迭代至每個類中的樣本點不再發生變化時結束。在實際應用中,無監督學習從數據的某一角度試圖去概括數據整體特征。所以對于單一的聚類算法來說,無論從數據的特征維度還是樣本數量維度都很難直接給出定性的結論,僅為數據分析提供一定的參考意義。
本文從機器學習在數據挖掘中的算法分類、機器學習的優勢分類等方面探討了機器學習在數據挖掘中點典型應用。但是目前由于傳統機器學習本身建立在模型本身的函數假設之上,效果存在瓶頸。神經網絡作為機器學習算法的一種,又稱為深度學習,在計算資源和數據量的支撐下,通常能比傳統機器學習算法表現出更加優異的效果,目前廣泛應用于自然語言數據處理和圖像數據處理中。但是對電腦性能的要求和消耗更加巨大,不過相信隨著芯片集成度以摩爾定律的幾何速度增長的,電腦性能也會進一步提升,深度學習會打破這個限制,結合數據挖掘和各個其他方面的應用,更好的應用于實踐。
參考文獻
[1]張紹成,孫時光,曲洋,等.大數據環境下機器學習在數據挖掘中的應用研究[J].遼寧大學學報(自然科學版),2017,44(1):15-17.
[2]黃林軍,張勇,郭冰榕.機器學習技術在數據挖掘中的商業應用[J].邏輯學研究,2005,25(6):145-148.
[3]陳小燕.機器學習算法在數據挖掘中的應用[J].現代電子技術,2015(20):11-14.
[4]張云濤,龔玲.數據挖掘原理與技術[M].北京:電子工業出版社,2004.
[5]李航.統計學習方法[M].北京:清華大學出版社,2012.
[6]楊善林.機器學習與智能決策支持系統[M].北京:科學出版社,2004.
[7]李慶中,苑春法,黃錦輝.基于小規模標注語料的機器學習方法研究[J].計算機應用,2004,24(2):56-58.
作者:王泓正 單位:山東省濟寧市任城區李營街道匯翠園B區
- 上一篇:大數據下數據挖掘算法綜述
- 下一篇:云計算技術下數據挖掘探討