淺談大數據挖掘與數據處理方法

時間:2022-11-06 05:14:12

導語:淺談大數據挖掘與數據處理方法一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

淺談大數據挖掘與數據處理方法

摘要:本文闡述了大數據挖掘的來歷、方式和技術體制還有對數據的處理方法。從數據本身和使用工具方面比較了大數據與數據挖掘的異同,并且提出了關于在大數據時代數據挖掘的發展路線?,F在科技的發展使大數據獲得了廣泛的關注、重視、和進行開發從而加以實踐。現時代數據中非結構化流式數據作為一種主要的數據形態,而他的信息龐大和復雜使得傳統數據處理體制無法滿足對數據處理的要求,為了滿足新時代的對大數據的處理需要將大數據處理系統從流程設計向數據設計方向轉化,從而提高對數據處理的效率。

關鍵詞:大數據;挖掘;數據處理;方法

現時代大數據的涌來,使得人們迫切的想加大對數據的研究與了解。數據挖掘因此成為了我們在對數據了解的路上的一個障礙,通過對大數據挖掘的闡述,將有助于我們加深了解數據的情況。在數據的處理方法上這里也將做出一個完整的闡述。

1.基本概念

數據挖掘,意思很明顯,就是表層意思,其就是從海量的數據中提取出有效的信息,也就是相當于在數量大、信息不完全、信息不清晰的數據中,提煉出對人類有用的的信息和知識的過程。數據挖掘主要操作是在大量數據中利用分析工具發現數據與模型間關系,在這個過程中它可以幫助使用者尋找數據與數據之間的聯系,使模糊的因素變得明顯,所以數據挖掘被認為是在這個信息時代解決信息貧乏的一種有效途徑。數據挖掘不僅融入了數據倉庫、模式識別、建模技術、還包括了機器學等多領域的理論基礎和技術。其中數據庫、數理統計、人工智能是數據挖掘的三大技術支持。大數據是通過高速采集、發現和解析海量信息,是一種全新的從大容量數據中獲取價值的技術結構。有一個權威的機構給過大數據以一定的定義,分別是四個"V"字開頭的字母:Volume(體量大),Velocity(速度快),Variety(種類雜),Value(價值大)。Volume是指數據的大小決定所考慮的數據的價值和潛在的信息;Velocity意思是對數據獲取的速度;Variety則意味著要在數量大、信息復雜的數據間發現其內在關聯;Value最重要,它是大數據的最終意義:挖掘數據中存在的價值。

2.相互聯系

當前的大數據才剛開始發展,一切都是以數據挖掘為基礎,相當于其是對數據挖掘的概念再深化,所以可以說數據挖掘是大數據的開山鼻祖。大數據和數據挖掘都是朝著對數據進行挖掘解析,提取有實用價值的信息為目的。雖然從表面上看,兩者區別在于大上,但深入就會發現:數據挖掘的對象并不只是用于少量數據,在對海量數據的處理上也同樣適用,只是由于挖掘方法和技術的革新,給與了一種新的說法稱作大數據;另一方面:大數據的重點并不是在“大”,而是用全新的思想和一線技術去對海量數據進行分析,提取其中有用的信息,進行對未來的預估,或者根據其中的模式,創造新的產品和服務。所以大數據和數據挖掘在一定時間內還會共存,其大致的區別就是如何體現出數據的價值。大數據是數據挖掘產業化的表現。信息是數據的價值,利益是技術的價值,數據挖掘是在專業技術領域中的一種專業名詞,在到了高端的商業領域就需要加以修飾升級。當前大數據正成為增強國家競爭力的重要因素之一,被視為創新和生產力提升的下一個前沿,在世界范圍內受到各國越來越大的重視,多國政府在對大數據的發展上給與了大力的扶持,甚至到了國家戰略的層面。

3.非結構化數據處理流程

非結構化處理流程主要包括信息采集、網頁分類和網頁預處理三個階段。

3.1信息采集

信息采集是將雜亂無章的信息從海量的網頁中提取出來保存到具有一定順序的數據庫中的過程。其主要面對是專業技術人群,因此其采集的信息在一定的范圍內,并且出于對性能和成本上的考慮不能對整個網絡進行全方面閱覽,所以在信息采集的方面上要做到對信息的價值進行判斷是否值得訪問,研究以何種策略進行對web的訪問,盡可能的提升對信息采集的效率。通過預先設定的種子鏈接集,利用HTrP協議訪問并下載頁面,再用各種技術對頁面與主題之間的聯系進行分析并且提取出待訪問的鏈接,使用種類不同的爬行策略循環的訪問網頁是信息采集的基本方法。介于內容的主題信息采集和基于超鏈接的主題信息采集是信息采集基于主題的不同的兩種分類,基于內容的信息采集需要建立一個針對主題的詞表;另一類則是基于網頁之間的引用關系。

3.2網頁預處理

網頁預處理主要是一個對一些數據進行篩選的過程,保證信息的準確性。網頁預處理部分這里主要是對網頁去重的介紹,基于URL的對比去重,適用哈希算法;用信息指紋的文本相似度算法去進行內容的對比去重,這兩種方法是對網頁去重的歸類。網頁去重需要先對文檔對象的特征抽取,對文檔內容進行分解,以若干組成文檔的特征集合表示,這一步驟主要是為了使特征比較計算相似度變得方便。之后需要針對特征的壓縮編碼,進行專業處理,做到減少存儲空間,加快比較速度的作用。最后需要對文檔的相似度進行計算個,這一步需要根據文檔特征重合比例來確定是否重復文檔。一般是對網頁進行提取特征,大多是一組詞,適用特定的算法,轉化成一組代碼,也被稱為指紋。若兩個頁面相同指紋的數量大,則這兩個頁面內容有很大部分是相同的。

3.3網頁分類

網頁分類是通過對數據挖掘算法得出來的分類模型,對數據進行分類提煉,得出有價值的信息。人類所面臨的普遍問題是分類問題,并且分類問題對人們來說也是極其重要的。對物品進行分類,可以促進人們對世界的認知,讓這個世界從雜亂無章變得有條有理。文本分類主要應用在信息檢索、機器翻譯、信息審核、消息分類等任務。特征詞的選擇問題及其權重分配是文本分類的一個關鍵問題。

結語

當前在大數據時代中,數據利用云存儲已經成為一種趨勢。數據挖掘是整個數據應用過程中最重要的一環。大數據的分析處理是通過把海量數據按照一定的分類方式分成不同的幾個版塊,同時利用數據技術進行挖掘,也可以將數據挖掘技術加以整合,從而研制出更加高效準確的方法對大數據進行直接挖掘,將其中的規律和商機進行提取,利用在人們的生活中,為人們更好地服務,因此大數據挖掘在現在社會中具有極其重要的地位。如今社會的各個行業對數據挖掘和自然語言處理運用的需求極大,在這方面上蘊含的理論價值和商業價值極大,所以正確的使用方法對數據處理是極其重要的。

參考文獻:

[1]高強,張鳳荔,王瑞錦,周帆.軌跡大數據:數據處理關鍵技術研究綜述[J].軟件學報,2017,28(04):959-992.

[2]于躍.基于大數據挖掘的藥品不良反應知識整合與利用研究[D].吉林大學,2016.

[3]張東霞,苗新,劉麗平,張焰,劉科研.智能電網大數據技術發展研究[J].中國電機工程學報,2015,35(01):2-12.

[4]李德仁,張良培,夏桂松.遙感大數據自動分析與數據挖掘[J].測繪學報,2014,43(12):1211-1216.

作者:黃慶 單位:廣西質量技術工程學校