復雜網絡數據挖掘論文
時間:2022-03-26 03:46:49
導語:復雜網絡數據挖掘論文一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。
對于一個多種網絡形式并存的復雜網絡,假設復雜網絡作為一個網絡社區,在復雜網絡中存在的網絡類型數即社區數。我們用一個無向遍歷圖GV,E來表示整個網絡社區,如果網絡中有兩個節點有兩條不重合的網絡路徑,則說明這兩個節點處于一個網絡環路當中,網絡中的數據流需要經過網絡環路到達特定的節點。當在某個時間段里需要傳送的數據流個數大于網絡節點數時,則說明該網絡的數據流密度較大,為了能夠準確地在復雜網絡中挖掘出所需的數據流,則需要根據數據流密度來劃分整個網絡社區,尋找數據流處于哪個社區,再確定數據流所在社區的環路。在這里我們通過設計算法確定網絡數據流密度,來對復雜網絡進行社區劃分,再對社區進行無向環路遍歷,并通過遍歷得到該社區網絡的所環路,確定所需查詢的數據流位于哪個環路。以下為復雜網絡中需要用到的符號說明。
2增量子空間數據挖掘算法
為了能夠有效地在復雜網絡中挖掘出目的數據流,使用了復雜網絡數據流密度的分析方法在對復雜網絡進行社區劃分后,通過對社區網絡進行無向環路遍歷并得到社區網絡的所有環路。接下來挖掘算法先后挖掘出目的數據流所屬的社區以及環路,最終確定目的數據流的具體位置。
2.1基于社區網絡遍歷的數據流挖掘
當數據流i與社區k的相關度最大時,說明數據流i位于社區k的可能性就最大。但是當多個數據流的大小區別不大時,以數據流的大小作為指標來定義相關度會導致挖掘精度較低。這里我們也引入數據流的特征集和數據流中的分組隊列長度來計算相關度。
2.2基于多增量空間的數據流挖掘
在采用基于社區網絡遍歷的數據流挖掘方法得到數據流的所屬社區后,我們接著采用基于多增量空間的數據流挖掘方法來挖掘出數據流的所屬環路。先將社區網絡的環路進行多增量空間擴展,即先得到
目標數據流所經過的環路,再得到數據流所經過的節點與時間的相關系數,這樣就可以在時空上確定目的數據流位于環路的哪個節點中。
3實驗結果
為了驗證本文提出的基于復雜網絡數據流密度的增量子空間數據挖掘算法的效果,我們通過matlab7.0軟件進行算法仿真,其中仿真的復雜網絡由多種網絡形式組成,網絡節點有200個,數據流大小為500bytes,節點的接收能耗為10nJ/bit,發射能耗為50nJ/bit,進行信號處理和功率放大的能耗為10nJ/bit。其他節點干擾而產生的能量消耗為5nJ/bit。在對本文算法進行分析的過程中,我們采用了對比分析的方法,Lopez-Yanez等人提出一種基于時間序列數據挖掘的新的關聯模型,該模型是基于伽瑪分類,是一種監督模式識別模型,目的是為了挖掘已知模式中的時間序列,以預測未知的值。由Negrevergne等人提出的一種PARAMINER算法:一個通用的模式挖掘算法的多核架構。多核架構采用的是一種新的數據集縮減技術(稱之為EL-還原),在算法中通過結合新的技術用于處理多核心架構的并行執行數據集。為了驗證本文算法的挖掘有效性,我們分別在增多節點數量和社區網絡數的情況下獲取算法的數據挖掘精度。實驗采用的精度為NMI[16],實驗結果如圖3和圖4所示。在不同節點數量下基于復雜網絡數據流密度的增量子空間數據挖掘算法的挖掘精度更高,挖掘精度高于85%,而文獻[14]的挖掘精度在77%以上,挖掘精度在76%以上。因為、提出的關聯模型、提出的多核架構沒有準確把握數據流在不同時間段里與環路位置的相關情況。而本文算法采用社區網絡遍歷和多增量空間的方法可以有效地確定這種相關性。圖4為不同社區數下的算法挖掘精度,從圖中可以看出,當社區網絡的種類增多時,會對算法的挖掘精度造成影響,本文算法的挖掘精度在社區數為10時是95.7%,當社區數增加到50時為87.5%。而基于時間序列數據挖掘方法的挖掘精度在社區數為10時是88.6%,在社區數為50時是77.4%,而PARAMINER算法在社區數為10時是86.7%,社區數為50時是78.2%。因此從數據分析來看,本文算法的數據挖掘精度在社區數增多時仍能保持在較高水平。
4結論
為了提高網絡數據流的挖掘精度,本文提出了一種基于復雜網絡數據流密度的增量子空間數據挖掘算法,該算法對復雜網絡進行數據流密度分析,根據數據流密度并采用無向環路遍歷的方法來劃分整個網絡社區,確定數據流所屬社區。利用基于社區網絡遍歷的數據流挖掘方法來挖掘出數據流位于哪一個社區,接著采用基于多增量空間的數據流挖掘方法來挖掘出數據流的所屬環路,并最終確定數據流在某一刻時間里位于哪個節點。在實驗中通過數據分析和對比,證明了算法在數據挖掘精度上的有效性。
作者:侯燕李巍文喬農單位:周口師范學院西南科技大學
- 上一篇:青春演講稿專題12篇
- 下一篇:空間數據挖掘論文