大數據時資統計數據處理探究

時間:2022-06-25 03:12:52

導語:大數據時資統計數據處理探究一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

大數據時資統計數據處理探究

【摘要】當前隨著國際競爭日益激烈,新形勢下各行各業發展都面臨著諸多的挑戰,市場環境具有不可預測性,統計數據信息變得更加重要。大數據時代的到來為統計工作提供了強大的技術支持,與此同時數據更新速度不斷加快,數據類型日益多樣化,處理難度也越來越大,增加了統計工作難度。本文著重研究了投資統計大數據相關的處理關鍵技術,以供參考。

【關鍵詞】投資統計;大數據;處理;關鍵技術;分析

大數據時代背景下,促使信息生成、傳播效率不斷提升,越來越多的結構化、半結構化和非結構化數據的出現,增加了統計工作難度。統計數據在投資領域具有重要的參考價值,如果不能保證統計數據的權威性,統計信息不對稱,將會影響投資決策的成敗。加強投資統計大數據處理關鍵技術分析,有助于積累更多的統計數據處理經驗,從而引導相關行業領域的人士提高投資決策的科學性,獲得更大的收益。

一、加強投資統計大數據關鍵處理技術研究的重要意義

大數據時代背景下數據類型日益多元化,數據具有應用價值大、數量多、速度更新快的特點,這對于投資統計數據處理技術也提出了新的挑戰。投資統計是指搜集、整理、分析和應用的數據,目前國家金融體制改革進程有序推進,為了更好地提高投資統計的科學性和準確性,就需要結合實際形勢,深入研究投資統計大數據關鍵處理技術,這樣才能對海量的數據進行實時動態多元化處理,全面有效分析統計數據背后的規律,提高投資統計數據處理水平,進而為國家有關部門和行業決策提供基本參考支持,也有助于推動國家整體金融市場良性有序發展。

二、投資統計大數據基本特征分析

在投資系統中數據通常可以分成三種類型,主要涉及項目投資管理數據、聯網直報房地產投資數據、規下投資抽樣數據。此外還可以根據數據的內在結構將投資系統數據分成結構化數據和非結構化數據兩大類型,前者主要是通過統計系統企業的原始數據應用二維表形式展現的數據,后者主要是指不能以二維表形式來展現的數據,其中包含文本、音頻、視頻、圖片等多種類型的數據樣式。投資統計大數據可以借助遙感技術、地理信息系統技術等進行動態監測,實時掌握相關的數據,進而與投資統計業務進行關聯性研究。一方面既要對投資統計系統運行情況進行定位,每月定期生成相關的投資統計數據,另一方面又要借助PDA設備等及時搜集對投資統計項目樣本點的變動情況進行動態采集,此外還要對投資統計系統運行中的與重大項目投資進度相關的以及與住建、發改、稅務、工商等相關部門相關聯的數據進行共享分析和比對,進而提高投資統計數據綜合管理效能。投資統計大數據具有典型的獨特的特征,主要體現在以下幾個方面:1.數據量日益龐大。大數據時代的到來信息的生成、變化速度越來越快,投資統計數據逐漸從TB級升級到PB級。2.數據類型日益多樣化。目前各級有關部門對投資統計數據的關注度越來越高,需求越來越準,所以需要對統計數據進行全方位的分析和研究,才能更好地滿足現實要求,提高投資數據綜合利用價值。3.投資統計數據利用度不高。投資統計數據的采集是一個動態的過程,收集的數據量非常大,通過運用相關的監測技術可以對重大投資項目過程相關的數據進行監測,雖然數據收集的很多,但是很多數據往往都屬于正常范圍,只有少量的有用的數據出現異常,這些對于投資項目影響較大,所以需要對這些數據進行進一步的精細化處理,檢驗數據是否正確、真實和有效,所以可利用的具有價值的數據往往所占的比重較小。4.投資統計數據處理效率要求不斷提高。新時期投資統計數據變化越來越快,所以對數據投資的速度要求也越來越高,需要借助新型計算機、云技術等在短時間內快速完成數據處理和分析,才能更好地體現投資統計數據的價值,更好地發揮應有的功能。

三、投資統計大數據處理關鍵技術具體分析

投資統計大數據處理,需要加強技術攻關,從數據采集、傳輸、存儲到處理分析等各個環節都需要應有很多的技術和方法,才能確保環環相扣,不斷提高投資統計效率和質量,具體每個環節涉及到的關鍵技術主要有:1.大數據采集技術。數據采集是投資統計管理體系中最基礎的部分和單元,通過借助相關的技術對各類數據端口進行采集,才能確保數據的完整性。大數據的采集通常會涉及到很多數據庫同時接收相關的數據,采集的難點在于數據并發高,同時會有大量的數據訪問和操作,所以需要在數據采集端口有完善的采集技術來進行支持,才能承載數據運載負荷,保證數據盡可能全面有效地采集,采集技術目前主要是借助Google文件系統GFS技術,對空間范圍內的各類數據進行收集、整理,動態監控數據的變化情況,并可以實現在橫向和縱向領域內的動態管控。目前在投資統計大數據采集階段,需要不斷加強技術攻關,未來信息的重要性更加凸顯,只有不斷提高數據采集能力,才能最大限度地發揮統計數據應有的參考價值,從源頭上第一時間掌握相關的數據資源,提高最大化開發利用效能。2.大數據傳輸、存儲技術。目前投資統計系統應用的數據聯網直報系統,通過構建統一規范的數據聯網直報平臺,進而實現數據的動態傳輸和存儲,確保各類原始數據能夠及時生成并傳送至相應平臺進行共享。隨著投資統計數據量不斷擴大,需要對數據存儲和傳輸系統進行不斷升級,否則會帶來一些隱患,降低處理效率,這就應用到大數據傳輸與存儲技術,通常的處理手段是進行數據壓縮,從而降低數據存儲空間,實現數據的快速傳輸。需要借助投資統計數據傳輸處理技術,構建批量處理模型,解決系統資源占用空間較大、資源不能有效利用的問題,目前常用的處理技術是MapReduce批處理模型,可以實現在常規計算機平臺上的聯機處置,還可以進行輸入數據分割,進而實現計算機集群的統一調度,確保各個數據處理端口能夠保持聯通。數據從采集到傳輸,再到存儲,同樣需要依靠相應的關鍵技術來進行保存處理,目前比較普遍的存儲方式是分布式保存方式,這種保存方式比較可靠、安全,但是也會帶來一系列的問題,比如有些數據時刻在發生變化,時刻都在不斷產生,這對于數據存儲來說增加了難度,需要有相應的技術對不同端口接收來的數據進行處理,尤其是對于那些非結構化數據,處理難度較大,占用時間長,需要進行快速分類和集約化處理并建立實施分類存儲機制,所以需要應用到投資遙感監測處理技術,針對容量較大的文件和容量較小的文件目前可以分別應用GFS的分布式文件系統、Haystack系統來解決存儲問題。3.大數據實時處理技術。投資統計大數據,除了進行采集和存儲傳輸以外,還要進行實時動態處理,處理能力直接決定了數據的應用價值。目前常用的實時處理技術是云計算系統,該系統可以滿足常規的投資統計處理服務,但是在聯網直報高峰期,系統也會出現處理差錯,降低處理效率和處理的準確性。由于投資統計數類型多樣,計算過程比較復雜,數據轉化等方面也存在一些銜接的問題,統計指標屬性不完整、數據錯誤異常等情況處理等過程,都影響數據分析,所以需要構建更加開放的分布式處理系統,才能實現大規模處理,目前開發的Sector廣域網分布式系統,可以針對不同數據進行大規模集中處理、分割和轉交。4.大數據分析技術。在投資統計大數據處理分析方面,目前常用的技術是Bigtable分布式、按列存儲、多維表結構的實時分布式數據庫,可以應用SQL語言對數據進行集中分析處理,還可以引入LOD技術實現可視化分析,該技術與常規的數據處理技術不同,可以針對不同類型的大數據,構建數據采集環境,通過構建平值法、平滑法、預測法和頻率統計法等統計數據相關模型實現數據的深度對比分析。

總之,投資統計大數據處理關鍵技術,對投資統計工作起到了強有力的支撐作用,未來隨著投資環境更加復雜,投資統計數據處理技術也將進一步升級,為持續提升投資統計效能提供更大的支持。

【參考文獻】

[1]陳鵬,逯元堂,朱建華,張箏.中國現行環保投資統計口徑優化研究[J].生態經濟,2017(07)

[2]廖加澤.投資統計大數據處理關鍵技術[J].電子技術與軟件工程,2015(08)

[3]羅文晉.基于門限模型的量化投資統計套利策略研究[J].廣東財經大學,2016(11)

作者:林瑞振 單位:福建省泉州市泉港區統計局