Bootstrap方法統計數據質量評價研究
時間:2022-07-03 03:13:38
導語:Bootstrap方法統計數據質量評價研究一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。
摘要:統計的作用在于服務國家宏觀決策和人民生產生活,它在反映國民經濟和社會發展水平、為黨和國家制定正確的決策、預測未來發展趨勢等方面發揮著舉足輕重的作用。統計數據要實現以上功能,必須保證統計數據高質量。數據作為生產要素,在數據要素市場化過程中,如果不能保證其質量,數據價值不但得不到體現,反而會給使用者帶來不良的后果。本文首先介紹了數據質量的概念和bootstrap方法的基本原理,然后基于Bootstrap抽樣并應用統計分布驗證方法對統計數據質量進行評估,最后對山西統計局公布的地區國內生產總值數據質量進行驗證評估。
關鍵詞:數據質量;Bootstrap方法;統計分布
毋庸置疑,大數據時代下,數據充分發揮其價值的必備條件是要有高質量數據。2021年1月19日統計局局長寧吉喆在題為“推進統計現代改革”中指出:“統計數據作為國家經濟發展的晴雨表已經取得了顯著的成績,但它發揮的作用還不夠充分,還有待開發,數據質量需要進一步提升”。統計數據質量的內涵也不再僅僅是準確,大數據背景下,適合的才是最好的,用戶需求也是衡量數據質量的一個方面。近年來,科技發展迅猛,新型技術的發展突飛猛進,物聯網、人工智能、云計算的發展讓人應接不暇,海量的數據紛繁復雜,如何保證數據的質量,已成為上到國家,下到每一位統計相關者關注的問題,也是我們亟待解決的問題。在此背景下,數據質量評估無疑是保證高質量數據的前提條件。在數據評估研究方面,祝君儀(2015)6在《大數據時代背景下統計數據質量的評估方法及適用性分析》一文中分析了目前常用的包括邏輯規則檢驗、核算數據重估、計量模型分析、統計分布驗證、調查偏差評估、多維評估延伸六種評估數據質量的方法,但僅僅是定性分析。成邦文等(2001)2已經證明如果統計指標反映的是經濟社會規模(如產量、銷售收入等),則統計量均趨于對數正態分布,并提出了統計數據質量評估的對數正態分布檢驗法。本文基于社會規模服從對數正態分布,利用Bootstrap抽樣法對統計數據質量進行評估。
一、基本概念及理論
(一)統計數據質量
對于統計數據質量還沒有形成統一公認的定義,隨著大數據時代的到來,統計數據質量的內涵從準確性這一個維度擴展到多個維度。衡量數據質量最明顯的標準就是數據的準確性,即數據信息準確描述其所代表的真實機構或現象的程度。除了準確性這一特征外,數據的時效性、精確性、完整性、一致性都是數據質量的重要表現。當然在眾多的維度中,準確性是擺在數據質量的第一位的,只有數據準確,數據分析結果才有效,管理者據此做出的決策才正確。本文的研究是基于數據準確性進行研究。
(二)Bootstrap基本思想
Bootstrap是1979年Efron在他的論文<Bootstrapmethods:anotherlookatthejackknife>一文中首次提出,又名撥靴法,Bootstrap方法在現代統計學中應用非常廣。Bootstrap方法是一種利用計算機軟件實現抽樣的方法,其基本原理是基于初始給定樣本重復抽樣,本文設置1000條抽樣路徑,故可得到1000個樣本,基于所得樣本計算研究者關心的統計量,在抽樣次數足夠大條件下很容易得到統計量的分布圖。Bootstrap抽樣的優點在于不需要事先對總體分布進行假設,根據中心極限定理,在樣本量足夠大條件下,樣本統計量會無限逼近總體分布。
(三)評估步驟
步驟1:假定為初始樣本,利用Matlab中Bootstrap函數從此樣本中有放回抽取m個樣本,本文規定m=1000。步驟2:根據1中抽樣結果,計算各自樣本統計量,具體利用Matlab中mean函數計算均值統計量,即可得到1000個樣本均值;步驟3:基于2中計算結果,調用log函數計算統計量的對數值;步驟4:利用QQ圖及單一樣本Kolmogorov-Smirnov檢驗3中結果是否服從正態分布,如果是,說明統計量服從對數正態分布,統計數據質量符合要求,否則,統計數據誤差大,需要修正。
二、數據收集與實證研究
(一)數據收集
本文以山西省2000-2019年地區生產總值為研究對象,對其進行數據質量評估。表1是山西省2000-2019年地區生產總值。
(二)驗證對數正態分布
利用Bootstrp方法對2000-2019年山西省地區生產總值進行可放回的重復抽樣1000次,進而得到1000個Bootstrap樣本,然后根據每一個樣本計算對應的均值,從而得到1000個樣本均值,接著計算樣本均值對數,然后通過spss繪制其對應的直方圖,如圖1所示。從圖1可以直觀的看出,統計量的對數服從正態分布,從圖中只是很形象的觀察出統計量對數的分布,要想進一步證實其為正態分布,還需要進行統計檢驗。本文使用Q-Q圖檢驗和K-S檢驗兩種方法對統計量對數進行正態性檢驗。(1)Q-Q圖又名分位數圖,通過比較實際觀測數據分位數與正態分布分位數是否一致來檢驗數據的正態性。具體是通過做散點圖,觀測兩列數據的分位數是否分布在參考直線上,如果是,說明被檢驗數據服從正態分布,否則非正態。通過SPSS中Q-Q圖功能對樣本統計量對數進行檢驗,結果如圖2所示,從Q-QPlot中,各點幾乎全部落在參考直線上,說明被檢驗數據服從正態分布。(2)K-S檢驗。在利用Bootstrp方法得到1000個樣本均值對數后,為了檢驗樣本均值對數的分布,提出原假設和備擇假設,原假設為樣本均值對數服從正態分布,備擇假設為樣本均值對數不服從正態分布。通過SPSS中的非參數檢驗K-S方法進行檢驗,輸出結果如表2,從表里可以看出,K-S檢驗中,Kolmogorov-SmirnovZ值為0.022,P值(雙側)=0.2,在給定顯著性水平α=0.05條件下,顯然P>α,所以接受原假設,說明樣本均值對數服從正態分布。
結語
本文研究新時代統計數據質量評價方法,利用對數正態分布來評估數據質量,鑒于研究數據分布需要足夠的樣本容量,然而現實數據無法滿足此要求,故采用Bootstrap重抽樣方法解決兩者間矛盾。通過以山西省2000-2019年地區生產總值為研究對象,驗證采用Bootstrap方法構造的統計量是否服從對數正態分布判斷真實數據的數據質量,通過檢驗,結果表明山西省2000-2019年地區生產總值統計數據質量可靠。
參考文獻
[1]寧吉喆.推進統計現代化改革[R/OL].[2021–01–19].
[2]成邦文.研究與開發機構統計數據質量與異常點的對數正態分布檢驗與識別[J].統計研究,2000(1):42–45.
[3]EfronBradley.Bootstrapmethods:anotherlookatthejackknife[J].TheAnnalsofStatistics,1979(1).
[4]白永昕,閆懋博,基于Bootstrap方法的多維統計數據質量評估[J].統計與決策,2020(11):5–9.
[5]宗威,吳峰.大數據時代下數據質量的挑戰[J].西安交通大學學報(社會科學版),2013(5):38–43.
[6]祝君儀.大數據時代背景下統計數據質量的評估方法及適用性分析[J].中國市場,2015(29):41–42.
[7]王華.政府統計數據質量的用戶滿意度測評——基于多層次模糊綜合評價的實證研究[J].商業經濟與管理,2010(5):62–70
作者:張會清 單位:晉中信息學院
- 上一篇:學前教育專業與高職培養目標的銜接
- 下一篇:網絡核心課程教學模式分析