門戶網站分布式數據挖掘分析
時間:2022-08-07 08:41:20
導語:門戶網站分布式數據挖掘分析一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。
摘要:數據采集與存儲、數據預處理、數據挖掘算法并行化、數據輸出與應用等是數據挖掘的核心技術。在移動云時代,門戶網站分布式數據挖掘云平臺架構通常由數據源、大數據挖掘平臺和客戶端三大層級組成,并通過DNS超級、CDN云計算化、訪問記錄與日志分析、用戶數據動態分發網絡等實現數據挖掘與智能調度。
關鍵詞:門戶網站;分布式系統;數據挖掘;云平臺架構
在信息技術不斷發展的背景下,多樣化的數據信息通過網絡進行傳輸,數據的類型和規模均呈現出“爆炸式”增長。數據規模的不斷增長呼喚有效的數據處理和分析技術,只有能夠整合數據資源并輸出有效數據產品的技術才能夠真正挖掘數據的價值,實現更高效的數據運用。數據挖掘技術作為一種在較高層次對數據進行高級查詢和篩選的技術,具有數據記錄、整理、分析、輸出的能力,尤其是在云平臺的支持下,數據挖掘被賦予了更強的計算能力和更大的存儲空間[1]。通過云端進行更高效的數據運算和智能分析,能提升數據挖掘的報告質量和輸出價值。
1云時代數據挖掘的核心技術
1.1數據采集與存儲。數據采集是進行數據挖掘的基礎階段,采集技術分為線上和線下兩種類型。線上數據采集主要通過網絡終端后臺實現,例如檔案、日志、瀏覽、點擊等相關信息[2];線下數據采集則通過傳感器、磁卡片、RFID技術等進行,獲取用戶的線下行為數據,從而建立用戶的行為數字數據庫。數據采集后,還須存儲已采集數據,如設備存儲、數據庫存儲、云端存儲等。1.2數據預處理。采集的原始數據是非標準化的數據,數據的類型、大小、字段等信息均不統一,這種數據特征不利于進行深度的數據挖掘,因此需要在數據采集和存儲的基礎上進行數據預處理。數據預處理需要對已采集和存儲的信息進行篩選、分類、集合、轉化等操作,進而將數據進行標準化加工,在一定格式規則下建立數據存儲與管理系統[2]。1.3數據挖掘算法并行化。經過預處理,數據能夠呈現出標準化格式,可采用挖掘算法進行并行化數據挖掘。數據挖掘的算法包括關聯算法、聚類算法、數據分類算法和回歸算法等,這些算法能夠對標準化的數據進行更為深入的整合和分析,探索數據內部蘊含的規律和關聯關系,輸出具有一定邏輯的數據結果[2]。數據挖掘算法并行化,能提升數據挖掘效率,并與云平臺的運行規則適配。1.4數據輸出與應用。通過云平臺分析的數據,可以依據數據內部的邏輯和規律輸出為可視化的數據報告和結果——通過數據可視化與數據轉化技術,數據挖掘輸出的結果是規范的數據報告。需要指出的是,所有的數據輸出結果均應可追索數據源,以便于報告使用者進行檢查與學習。云數據挖掘報告可在政府政策研究、公共管理、行業研究、消費者行為研究等領域廣泛應用[2]。本文探討門戶網站對“云數據挖掘技術”的一種應用架構,即門戶網站分布式數據挖掘云平臺架構。
2門戶網站分布式數據挖掘云平臺架構
云平臺又稱云計算平臺,是能夠進行數據存儲、數據處理和數據整合的一個服務平臺。云平臺的基礎服務內容包括IaaS(基礎設施即服務)、PaaS(平臺即服務)、SaaS(軟件即服務)三個方面。通過三方面的服務內容,云平臺能夠將云端的數據通過架構層面的軟硬件服務設施進行基礎搭建,并在應用層進行智能化的資源調度、并行計算和數據存儲,最后在平臺層通過應用代碼、定制代碼等工具進行最終的數據挖掘結果輸出,從而完成對海量云端數據的高效挖掘[1]。分布式系統是相對于集中式系統而言的一種弱化集中處理性能的內聚性軟件系統。一方面,分布式系統具有內聚性,系統內部的數據庫和不同模塊能夠進行自治化的數據處理,而不需要經過集中性的決策和處理過程,這在一定程度上能夠提升項目完成效率;另一方面,分布式系統具備全局化的透明性處理功能,能夠基于系統內部的資源整體進行資源的整合和調配,在用戶需求和相關指令的基礎上,對于系統網絡內部的資源進行自由的調度,匹配出最高效的資源分配和數據處理流程,從而實現平臺目標。目前最為流行的分布式數據挖掘云平臺架構是Hadoop平臺,其能夠通過多樣的系統工具實現高效的數據處理,并通過HDFS進行數據存儲,在并行化模式下進行海量數據的處理和運算,通過強大的服務器來支持眾多客戶端應用,實現對硬件成本、維護成本的控制[3]。門戶網站Hadoop分布式數據挖掘云平臺架構主要由數據源、大數據挖掘平臺和客戶端三個層級組成。2.1數據源層。數據源層是門戶網站數據挖掘的底層,其能夠整合來自云平臺上的多樣化數據,涵蓋非結構化數據、半結構化數據、結構化數據類型。在實現充分的云計算平臺互聯互通的情況下,數據源層能夠對接多個云平臺的數據,實現對于海量數據的整合和存儲,從而為門戶網站數據挖掘提供充分的數據保障。2.2大數據挖掘平臺層。大數據挖掘平臺層是門戶網站分布式數據挖掘云平臺架構的核心技術層,也是多樣化數據處理工具的整合技術平臺。預處理工具是對數據源數據進行標準化處理的工具,包括數據ETL(提取、轉化和加載)工具、多模態實體識別工具等。(1)基于Hadoop分布式系統,MapReduce工具能夠進行數據的分析式計算,在任務拆分的基礎上,分配運算資源,從而進行高效的數據分析;(2)HDFS作為分布式文件系統,能夠對海量數據進行存儲,通過文件分割和數據節點分配來提升存儲的集約性和安全性;(3)數據挖掘云平臺還能夠搭載數據流處理、復雜事件處理、R語言分析、聯系分析處理(OLAP)等工具,進一步提升了門戶網站數據挖掘的輸出效果和運行效率。2.3客戶端層。通過一系列大數據挖掘工具和相關技術,海量的云平臺數據能夠通過計算機語言進行高效處理。在客戶端層,數據處理的結果能夠通過可視化工具、人機交互技術、數據源技術等進行加工,從而轉換成能夠被人工識別和閱讀的數據報告。在門戶網站后臺,客戶端能夠對接大數據平臺,并進行數據結果的轉化,門戶網站后臺得到的是經過可視化處理的數據報告,并能夠通過數據源的接口獲得相關數據的原始信息。
3門戶網站分布式數據挖掘云平臺的實現機制
如圖1所示,通過DNS超級、CDN云計算化、訪問記錄與日志分析、用戶數據動態分發網絡等實現數據挖掘與智能調度[2]。3.1DNS超級。對門戶網站而言,數據挖掘的主要內容是對于用戶瀏覽行為和點擊數據的分析。在用戶對門戶網站進行訪問之后,通過網址和域名進行用戶行為的采集,獲取用戶的地理位置、連接入口、設備等相關數據。通過DNS(域名系統)超級能夠將域名系統與云平臺進行有效對接,從而迅速完成對門戶網站相關數據的采集和存儲。在部分云平臺內部,還能夠實現IP地址,更有利于加強對服務器和客戶端的對接,實現更有效的云計算。3.2CDN云計算化。CDN是指內容分發網絡(ContentDeliveryNetwork),其能夠將運算的內容進行合理的分配,按照數據處理和計算的狀態,將相關內容分發到更為空閑的網絡通道,從而避免網絡傳輸的擁堵,提高處理效率。CDN云計算化,能夠通過云計算技術對網絡資源和計算能力進行整合調配,從橫向和縱向上對整個處理過程進行技術的擴展,從而提升系統運行效率[4]。3.3訪問記錄與日志分析。門戶網站分布式數據挖掘云平臺能夠在資源對接的基礎上,對用戶的網站訪問記錄和后臺日志進行一體化存儲,相關數據全部收錄到數據倉庫中,以便于深度數據挖掘。在日志分析和數據預處理的基礎上,云平臺還能夠進行分布式的數據挖掘,輸出可提升門戶網站傳播效果和闡述用戶行為規律的數據報告。3.4用戶數據動態分發。CDN實現了站點的全網覆蓋,網絡內容分發的過程也是一個可以動態調整的過程。在門戶網站傳統的網絡服務中,服務的范圍集中于某一特定區域,當出現網絡中斷或網絡擁堵等情況時,會出現該區域的網絡癱瘓。在分布式數據挖掘云平臺支撐下,CDN能夠合理安排分發的網絡通道,即使某一節點的網絡出現故障,也能夠通過其他可行網絡的傳輸保障網站訪問和數據采集的正常進行[5]。由此可見,門戶網站分布式數據挖掘云平臺不僅能夠在日常運行的基礎上完成數據采集、數據處理和數據挖掘的工作,還能夠實現智能調度,極大程度的提高了門戶網站的運行效率,優化了用戶訪問體驗。
4結語
在大數據、云計算、機器學習等眾多信息科技不斷創新和發展的背景下,門戶網站分布式數據挖掘云平臺技術能夠實現數據挖掘、提升門戶網站的運行效率。需要指出的是,由于數據就是資產,數據挖掘是創新和發展的重要工具,因此,門戶網站在關注數據挖掘的技術與效果的同時,還要關注用戶的隱私保護,力避數據安全風險。
參考文獻
[1]王小妮,高學東,倪曉明.基于云計算的分布式數據挖掘平臺架構[J].北京信息科技大學學報(自然科學版),2011,(5):19-24.
[2]程發洲.基于云計算的大數據挖掘系統架構[J].東莞理工學院學報,2017,(3):39-43.
[3]陳志雄.基于hadoop平臺的分布式數據挖掘系統的設計探討[J].數字技術與應用,2017,(1):179.
[4]王微.一種基于云計算的數據挖掘平臺架構設計研究[J].電子制作,2017,(15):82-83.
[5]江舞山.基于網格的分布式數據挖掘體系結構的研究[D].重慶大學,2006.
作者:陳利萍 單位:湖南化工職業技術學院
- 上一篇:數據挖掘在電信增值業務的運用
- 下一篇:移動通信室內分布探討