數據使用質量評價研究

時間:2022-12-18 11:32:38

導語:數據使用質量評價研究一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

數據使用質量評價研究

數據正在成為處理大量數據時遇到常見問題的新型解決方案,這些問題可能是多樣化的,并且可能也會以大規模并行處理。根據要進行的分析類型,必須以特定方式收集和安排一些具體數據,以應對各種性質(技術、概念和方法)的新挑戰,即收集的數據必須與感興趣的領域或分析的背景相關,換句話說,數據必須對分析有價值。傳統工作中,自有數據洞察可以通過商業智能技術完成,在很大程度上有益于其業務績效。這些見解是通過對新類型的數據利用新類型分析來開展業務的新方法。現在當數據以特定不同格式或以不同速率進行時,經典的如基于關系數據庫的處理結構化數據的能力是不夠的,特別是在性能和延遲方面。

1數據使用質量模型

大數據解決方案可以被理解為完整的信息系統,如果相分析交易和分析數據,那么這些數據將扮演大數據輸入的角色。在任何情況下我們都無法實現大數據分析的結果,但是其質量可能通過其他模型進行評估。有關輸入數據的數據質量等級的測量可以參照ISO/IEC25012標準。本文模型涉及ISO/IEC25010中描述的所有類型質量之間的依賴關系,ISO/IEC25010對質量的解釋可以應用于數據,將數據理解為產品:數據滿足定義要求的程度是數據的內部質量;數據表示的關系和適當性是數據的外部質量;為數據設定的目標的實現程度是使用中的質量。ISO/IEC25012的數據質量模型有助于研究大數據解決方案輸入數據的內部和外部質量,但不能用于研究使用中的質量。本工作中介紹的3As數據使用中的質量模型用于填補使用中數據質量的空白,從而可以評估大數據項目中數據的使用質量。也就是說,這個新模型旨在提供一種方法,從質量的角度為預期用途(即通過大數據分析產生可信賴的結果)獲得數據合理的程度和適當程度。根據這種基于質量理念的觀點,本文在評估時同時提出了主要的數據質量問題。

2使用質量水平

大數據項目中的使用質量水平是數據的充分性,以達到分析的目的。根據Merriam字典,使用質量水平可以被定義為對某些需求目的或要求足夠滿意的狀態或能力。根據這一定義,數據的充分性是足以實現分析目標和目的的數據狀態或能力。換句話說,要符合通過特定大數據解決方案進行分析的特定特征。本文工作將特征分為四類:可訪問性、上下文、代表性以及內在性。作為研究過程的一部分,這四個類別在大數據背景下重新分為兩個特征:語境充分性和操作充分性。首先來簡化特征:代表性、可訪問性和內在性。這種簡化的主要原因在于數據必須可以使用可用于大數據分析的資源和技術來處理,這三個類別適合于單個特征的定義,我們稱之為操作充分性。關于語境充分性,我們承認時間方面是語境的一部分。盡管如此,由于實時分析的重要性日益增加,因此需要對時間方面進行單獨評估。因此,本文確定了三大關鍵數據質量特征,這些特征對于大數據分析環境中的數據非常重要,分別是:上下文充分性、時間充分性和操作充分性。

3As數據質量使用模型中每個特征的定義

上下文充分性指的是數據集在分析的相同感興趣域內使用的能力,獨立于任何格式(例如,結構化與非結構化),任何大小或流入速度。從這個意義上說,重要的是數據首先是相關和完整的,使用的數據量是適當的;其次是獨特且語義上可互操作的,因此考慮到給定的上下文并且由于重復而沒有不一致性,數據必須是可理解的;再就是語義準確,數據必須代表大數據分析環境中的真實實體;最后是可信的,所有數據來源必須可信,數據必須由允許開發分析的同一組人員訪問,且符合規定的規定和要求。時間充分性是指數據在適當的時間段內進行分析。例如,相似的年齡或在歷史數據特定持續時間內,意味著數據指的是類似的時間段。重要的是要注意通過分析的數據操作的時間方面不包括在該定義中,而是僅包括數據本身的時間方面。因此,處理的數據應該是:(1)時間并發:指在類似或適當的時間段內發生的事實。例如,如果分析集中在過去的事件上,那么數據必須與相關的事物相對應;(2)及時更新:數據必須針對手頭的任務進行適當更新;(3)頻繁:在進行某種趨勢分析時,使用數據生成與所需的未來時段(所需頻率)相關的結果。大數據解決方案具體分析可以獨立于數據質量使用水平的評估來執行。通過3As使用質量模型提供的評價水平,可以用于提高對分析結果健全性的意識指標。從這個意義上講,數據清理時間挑戰的性能問題也得以實現。數據的動態將始終是其外部質量的一部分,關鍵元素將通過設置數據約束的業務規則來識別,測量外部數據質量時則將考慮到使用ISO/IEC25012的特性。

4結論

本文提出的數據質量使用模型可應用于任何大數據特定實施,因為其措施獨立于任何情況,要求或技術。評估的執行方式是不必移動數據。相反,本文的數據質量使用模型是在大數據解決方案中實現的。并且數據管理員能夠決定是評估數據子集還是完整數據集。由于完成了大數據數據質量計劃的所有常見挑戰,因此可以引用數據質量使用模型作為評估大數據項目中數據質量的適當解決方案。

作者:黃永鑫 郭彥辰 單位:河北省秦皇島市東北大學