統計學的數據分析范文
時間:2023-07-13 17:31:44
導語:如何才能寫好一篇統計學的數據分析,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公務員之家整理的十篇范文,供你借鑒。
篇1
關鍵詞:大數據時代;大數據;統計學;
一、大數據與統計學
(一)大數據與統計學關系密切
簡單來說,我們可以分為兩個方面來理解大數據:若“大數據”作為形容詞,則描述的是大數據時代數據的特點;若“大數據”作為名詞,則體現的是數據科學研究的對象。對大數據的定義有非常多,不同領域不同專業對大數據的界定都會有些許不同。通俗地說:大數據是目前人類所有可抓取、可記錄、可存儲的信號集合。這個包含了一切信號的集合將非常非常之龐大、多樣、繁雜,并且還在不停地、迅速地增加?,F代互聯網和信息技術的飛速發展,使得人類開始有能力收集、儲存、分析、處理這些從前無能為力的數據,從中挖掘出有用的信息促進社會的發展。邁爾•舍恩伯格說:大數據發展的核心動力就是人類測量、記錄和分析世界的渴望。而統計學正好是收集、整理、分析、解釋數據并從數據中得出結論的科學。由此可見大數據與統計學關系密切,將大數據與統計學結合發展潛力無窮。
(二)大數據時代下的非結構化數據與結構化數據需整合
對接統計研究可根據自身的目的收集總體數據或樣本數據,但如果總體太過龐大,以過去的技術方法來收集總體數據成本會很高,受于限制統計研究更多收集得是樣本數據。如今,人類已經開始能夠在合適的成本下獲得大數據,大數據的廣博給統計研究帶來了新的發展方向。我們需要著重研究的一個方向就是如何將結構化數據和非結構化數據對接。大數據的核心是數據,統計學的研究對象也是數據,但是它們獲得的數據性質有所不同:大數據收集的多是半結構化和非結構化的數據,通俗地理解,先獲得數據,再整理結構(如聲音、圖片、視頻等信息);傳統統計學收集則主要是結構化數據,先定好結構,再根據目標結構收集數據(如數字、符號等信息)。拿非結構化數據和結構化數據來說:大數據時代使得我們有更多可以分析利用的數據,使得統計研究不僅可以在有更多的結構化數據的情形下進行;對于一些領域的研究工作還可以設法將非結構化數據和結構化的數據結合起來分析。如何實現非結構化數據與結構化數據的結合?首先,完善非結構化數據的整合,然后我們可以用結構化數據做數量說明,非結構化數據加強描述;或是提高數據處理技術,實現結構化數據與非結構化數據的互相轉化,選擇能更好說明問題的數據形式作為后續分析基礎。這都是值得再深入思考研究的新問題,而且這不僅僅是大數據和統計研究的事,同時需要計算機技術的一同創新發展。統計研究的范圍在大數據時代越來越大,能用數據說明的問題越來越多。
(三)大數據時代下的相關分析與因果分析發展并重
《大數據時代》一書中表示:大數據時代的一個顯著變化是:相關分析比因果分析更重要。我的看法是:大數據時代下,市場確實會對相關分析有著更強的關注度,但這并不意味著因果分析的重要性會有褪色。統計學中既有相關分析,也有因果分析,要對它們有合理的了解,首先需要明確的是相關關系和因果關系之間的聯系,簡單說:有相關關系不一定有因果關系,有因果關系則一定有相關關系。大數據時代,相關關系變得比以前更加為人所關注的原因:一方面,在很多領域的應用里,相關分析比因果分析更簡單可行;另一方面,因為相關關系足以體現事物之間的一定聯系,在商業效益上更為經濟有效。因此在商業利潤的推動下,相關關系也會更加受到青睞。但是我們不能就此否定因果關系的重要性,因果關系是對數據更加深度地分析:相關關系讓我們知道了“是什么”,因果關系是讓我們知道了“為什么”。倘若只是在商業經濟上的利用和成本考慮,“是什么”在很多時候就以足夠;但如果是在科學研究領域,“知其然而不知其所以然”就遠遠不夠了。結合現實發展需要,可在分析確定相關關系后,根據情況研究因果關系,若能夠得出因果關系,那肯定是更具價值和意義的。探求“為什么”始終是人類探索世界的動力,因果分析是人類永恒的使命。
二、結語
大數據時代的到來幾乎對每個領域都有著不可忽視的影響。大數據與統計學關系密切,大數據的出現對統計學的意義是非凡的,我們應把握住大數據時代和統計學的可結合點。其一,完善非結構化數據的整合,深入研究如何實現非現結構化與結構化數據的對接,都需要我們思維上的創新、數據處理技術上的提高。其二,在注重相關分析的同時,不能丟掉對因果分析的研究,應合理并重,實現大數據的進一步利用,真正挖掘出數據的價值。對于以數據為研究對象的統計學科,大數據時代就是統計學變革創新的時代,統計研究工作人員也應把握機會思考創新,為統計學增添新的生命力。
參考文獻:
[1]朱建平,張悅涵.大數據時代對傳統統計學變革的思考[J].統計研究,2016(02):3-9.
[2]朱建平,章貴軍,劉曉葳.大數據時代下數據分析理念的辨析[J].統計研究,2014(02):10-19.
篇2
關鍵詞:數據挖掘;統計學;比較
中圖分類號:TP311.131文獻標識碼:A文章編號:1007-9599 (2010) 06-0000-01
Comparison of Data Mining and Statistical Analysis
Kong Pengxiang
(Laiwu Iron&Steel Group Co, Ltd.,Training Centre,Laiwu271104,China)
Abstract:Data mining from statistical analysis,but different from the statistical analysis.Data mining is not intended to replace the traditional statistical analysis techniques,on the contrary,statistical analysis of data mining is an expansion and extension.
Keywords:Data mining;Statistical analysis;Comparison
隨著科學技術的發展,利用數據庫技術來存儲管理數據,利用機器學習的方法來分析數據,從而挖掘出大量的隱藏在數據背后的知識。這種思想的結合形成了現在深受人們關注的非常熱門的研究領域:數據庫中的知識發現――KDD(Knowledge Discovery in Databases),其中,數據挖掘技術便是KDD中的一個最為關鍵的環節。
一、數據挖掘簡介
(一)數據挖掘的含義和功能
數據挖掘―DM(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。數據挖掘是一門交叉學科,它匯聚了數據庫、人工智能、統計學、可視化、并行計算等不同學科和領域,近年來受到各界的廣泛關注。
一般說來,數據挖掘是一個利用各種分析方法和分析工具在大規模海量數據中建立模型和發現數據間關系的過程,這些模型和關系可以用來做出決策和預測。它強調對大量觀測到的數據庫的處理。它是涉及數據庫管理、人工智能、機器學習、模式識別、及數據可視化等學科的邊緣學科。
作為一門處理數據的新興技術,數據挖掘有許多的新特征。首先,數據挖掘面對的是海量的數據,這也是數據挖掘產生的原因。其次,數據可能是不完全的、有噪聲的、隨機的,有復雜的數據結構,維數大。最后,數據挖掘所采用的技術涉及到:數據庫、人工智能、統計學、可視化、并行計算等不同學科和領域。
二、統計學的含義
統計學最初是作為一門實質性科學建立起來的,它從數量上研究某類具體的現象(如社會經濟發展)的規律,但是,隨著統計學研究范圍的不斷擴大以及統計方法在社會領域和自然領域內的有效應用,加之統計方法體系本身的不斷發展和完善,使得統計學的研究對象也發生了變化。統計學已從實質性科學中分離出來,轉而研究統計方法,成為一門方法論的科學。即統計學是研究如何搜集數據、整理數據和分析數據的一門方法論科學。
從本質上看,統計工作的核心就是數據(或者信息)的采集、分析和處理,正如權威的不列顛百科全書將統計定義為“statistics:the science of collecting,analyzing,presenting,and interpreting data”即“統計:收集、分析、表述和解釋數據”
三、數據挖掘與統計學的比較
數據挖掘來源于統計分析,而又不同于統計分析。數據挖掘不是為了替代傳統的統計分析技術,相反,數據挖掘是統計分析方法的擴展和延伸。大多數的統計分析技術都基于完善的數學理論和高超的技巧,其預測的準確程度還是令人滿意的,但對于使用者的知識要求比較高。而隨著計算機能力的不斷發展,數據挖掘可以利用相對簡單和固定程序完成同樣的功能。新的計算算法的產生如神經網絡、決策樹使人們不需了解到其內部復雜的原理也可以通過這些方法獲得良好的分析和預測效果。
由于數據挖掘和統計分析根深蒂固的聯系,通常的數據挖掘工具都能夠通過可選件或自身提供統計分析功能。這些功能對于數據挖掘的前期數據探索和數據挖掘之后對數據進行總結和分析都是十分必要的。統計分析所提供的諸如方差分析、假設檢驗、相關性分析、線性預測、時間序列分析等功能都有助于數據挖掘前期對數據進行探索,發現數據挖掘的題目、找出數據挖掘的目標、確定數據挖掘所需涉及的變量、對數據源進行抽樣等等。所有這些前期工作對數據挖掘的效果產生重大影響。而數據挖掘的結果也需要統計分析的描述功能(最大值、最小值、平均值、方差、四分位、個數、概率分配)進行具體描述,使數據挖掘的結果能夠被用戶了解。因此,統計分析和數據挖掘是相輔相成的過程,兩者的合理配合是數據挖掘成功的重要條件。
四、小結
數據挖掘理論與技術的產生,促進了統計學發展的同時,也提出了更多的挑戰。如何更好地使用數據挖掘和統計為解決社會實際問題做出貢獻,是統計學家和數據挖掘研究者共同關心的話題。數據挖掘和統計學應該相互學習和滲透,各自分工,協同工作,共同為挖掘隱藏在復雜現象背后的有價值的知識貢獻力量。
參考文獻:
[1]Jiawei Han,Micheline Kambr.數據挖掘――概念與技術(影印版)[M].北京:高等教育出版社,2001
[2]韓明.數據挖掘及其對統計學的挑戰[J].統計研究,2001,8
篇3
隨著數字媒體技術研究的不斷深入和新媒體藝術的興起,科技與藝術的結合越來越緊密,新媒體藝術滲入了藝術的各個領域,新媒體舞蹈是最后被開發的田地,也是集成最多媒體元素的新媒體藝術。在數字媒體技術的發展支持下,新媒體舞蹈的作品和軟件層出不窮,如“Life Forms”等,為新媒體舞蹈的演出和編創提供了全新的機遇與挑戰。
舞蹈劇目課是一門藝術表現性課程,是通向舞臺的藝術性訓練課程,在舞蹈教育中占有極其重要的地位,對學生舞蹈藝術能力的培養至關重要。在傳統的教學中,由于場地、課時、教師精力等局限性,浪費時間、精力,事倍功半。如今,我們看到了新媒體舞蹈對劇目課教學的影響作用以及新媒體技術在劇目課中應用的可能性。但現有的研究成果主要集中在如何利用計算機對舞蹈進行記錄和編創,很少涉獵舞蹈的課堂基礎教學,或者所采用的技術過于依賴硬件的配置,增加了應用的難度,不適用于舞蹈教師或演員的獨立操作。本文立足于舞蹈劇目課教學,設計一套基于數字媒體技術理念的適用于劇目課教學的交互式系統。
1 舞蹈劇目課與新媒體舞蹈簡析
舞蹈是在一定的空間和時間內,通過連續的舞蹈動作過程,凝練的姿態表情和不斷流動的地位圖形(不斷變化的圖畫),結合音樂、舞臺藝術(服裝、布景、燈光、道具)等藝術手段來塑造舞蹈的藝術形象[1]。舞蹈劇目課屬于藝術表現性的訓練課程,每個劇目都是一個完整的藝術作品,它是包含有特定的歷史文化背景、鮮明的創意、具體的角色、豐富的情感意志以及舞美、燈光、服裝、道具等眾多姊妹藝術的結合體現,加強舞蹈劇目課教學,對當前提高學生的舞蹈水平、藝術水平和文化修養,有著極為重要的現實意義。從某種意義上甚至可以說,舞蹈劇目課是舞蹈教學的本質與核心[2],傳統的劇目課教學采用“口傳身教”的教學方式,即教師口頭講解、親自示范動作、通過語言的描述讓學生想象營造出一個原生態傳承的特定環境,這種教學方式雖然具有現場感,教師能夠有針對性地臨場指導,學生有針對性地當堂提問,但由于場地的面積、人員的數量、教師的精力、個體和群體之間的關系、舞蹈藝術的身體體驗等原因,使得學生形成了單調和孤立的學習方式,而束縛了學生的自學能力和創造性思維,不利于發揮學生的主動性和積極性,不利于提高學生的全面素質 [3-4]。近年來,隨著新媒體藝術的興起,數字媒體技術被廣泛應用到了藝術的各個門類當中,正如馬曉翔在《新媒體藝術透視》一書中提到的:“新媒體藝術不僅是計算機合作與兼容數碼技術創作作品的方式,也是用計算機的計算力量和技術來創作新符號、新定義、新的交流與形式的方式。”舞蹈藝術作為一門多種藝術共同融成的綜合性藝術,其與新媒體技術更能擦出不可估量的火花,美國著名編舞家兼數字藝術家阿尼達?程如是說:“新媒體技術不僅是舞蹈記錄和傳播的物質媒介,更是激發靈感的技術型繆斯。”可見新媒體技術對舞蹈藝術數字化革命的真正含義[5]。如前所述,劇目課作為舞蹈學習通向舞臺的表演性課程,可以從新媒體舞蹈的本體特性中找到新的教學理念,即在全新環境中發展起來的立足于創意理念,并且融合了高新技術手段和互動設計理念。也就是說,更新傳統劇目課的教學理念,結合計算機技術的數字化支持,搭建具有完整資料庫、訓練實時采錄比對功能、遠程/在線反饋功能、舞臺模擬再現功能等允許學生自主學習和遠程/在線學習的劇目課教學平臺,以期做到教學中的事半功倍,對舞蹈劇目課教學改革以及創新能力的培養有著重要的現實意義。
當然,該平臺的搭建需要多學科的跨界合作,本文僅對平臺中所需的計算機技術進行分析與實現。
2 基于新媒體舞蹈理念的劇目課教學系統模型規劃
本系統是一套適用于舞蹈劇目課教學的計算機輔助教學系統,以數據庫形式管理課程參考資料和用戶個人資料,通過數字圖像處理手段對用戶的個人練習進行原型比對,給出意見建議,在此基礎上,通過可視化設計允許用戶選拼動作進行新劇目的自由開發。
本系統吸納了新媒體舞蹈的理念,將劇目課與虛擬的數字化舞臺直接相連,并允許用戶自由創作,激發創作的靈感和表演的熱情,為實際的舞臺演出提供全新的數字化劇目經驗。
本系統模型的具體規劃如下圖所示:
其中,二維圖像特征點提取與對比是技術中的重點,接下來,本文對此進行詳細說明。
3 二維圖像特征點提取與對比
3.1 芭蕾舞的算法定義
芭蕾舞在動作上有著固定的手位、腳位和精準的評價標準,因此逐幀對視頻進行二維特征點的.提取與對比,即可很準確地得出動作的分析結果,為用戶提供相應的反饋和建議。當然,結合專業教師的教學經驗和作品特點給出視頻中關鍵動作或重難點動作的時間,可以進一步減少計算時間和重復動作計算的冗余。
篇4
關鍵詞:微課程;移動終端;自主學習;數據結構;系統框架
中圖分類號:G642 文獻標識碼:A
1 引言(Introduction)
隨著便攜式移動終端的發展,“碎片化”時間的利用率越來越高,人們進入了“微時代”?!拔⒄n程”成了時代的產物。所謂“微課”是指按照新課程標準及教學實踐要求,以教學視頻為主要載體,反映教師在課堂教學過程中針對某個知識點或教學環節而開展教與學活動的各種教學資源的有機組合[1]。現如今各高校大力推動微課程,組織各種微課程比賽,調動教師的積極性,“微課”對于教師來說已不是一個陌生的名詞。然而,目前的微課程只是針對一門課程當中的一個組成部分,僅是單獨講解某個知識點,沒有形成一門完整的課,還沒有完全發揮微課程的優勢,并沒有應用于真正的教學當中。
《數據結構》課程是計算機課程體系中的專業基礎課程[2],作為程序設計的基礎,數據結構課程不僅成為高校碩士研究生入取的必考科目,還是各企業招聘員工入職筆試中青睞的學科。如何讓學生在課堂教學中對課程有更深刻的理解,并在復習考研和準備找工作中進行更好的自主學習,成為數據結構課程教學的研究重點,本文在分析數據結構教學現狀的基礎上通過對數據結構知識點的分析,構建合理的數據結構微課程框架,并將其應用于教學中,使得學生能更好的應用“微課程”進行學習。
2 數據結構課程的現狀分析(Current situation
analysis of data structure)
數據結構課程是一門比較抽象的課程,而且學生本身知識儲備不足[2],所以僅靠課堂上的講解,不能使學生達到很好的消化吸收的效果。目前,很多高校也開發了網絡教學平臺,積極倡導教師和學生通過網絡平臺實現在線探討交流,通過對網絡教學平臺的建設,如將大綱日歷、教案、教學課件,教學視頻上傳到教學平臺,使學生增加課下自主學習的意識,同時,老師在上課的時候也會給學生提供一些教學視頻的網站,如清華教育在線等,然而,雖然教學平臺的建設很完整,教師提供的教學視頻也很不錯,學生卻很少好好利用網絡教學平臺或教師提供的網絡視頻進行自主學習。主要原因有三點:
(1)教師的課堂教學主要以集中講授為主,并沒有引導學生利用網絡教學平臺的資源進行自主學習,學生把網絡教學平臺當成了一個簡單的提交作業、下載課件的平臺。
(2)教學平臺的內容過于繁多,視頻基本上為課堂講授的視頻,即使有學生想課下自主學習,在看到45分鐘甚至90分鐘的教學視頻也會打退堂鼓。
(3)教師提供的教學視頻,如清華教育在線雖是名校老師講解,但對于一般高校的學生來說講解內容過深,沒有針對性,很多學生覺得聽不懂,打消了自主學習的積極性。
通過“微課程”的概念,專家學者認為“微課程”就是針對一個具體的知識點在短時間內(一般為10分鐘左右)做簡單明確的講解,這種講解不是泛泛的介紹,而是通過精心的設計,最終完成容量小,內容精的視頻制作[3]。可以說,“微課程”的出現為我們解決數據結構自主學習難的狀況提供了很好的解決方案。如何做到容量小,內容精成了“微課程”視頻制作的關鍵,也是本文的研究重點。
3 基于微課程的數據結構模塊化設計與實現
(Modular design and implementation of data
structure based on micro-lecture)
本文依據清華大學出版社出版的嚴蔚編的數據結構教材[4]進行知識點的劃分,構建知識點的模塊化,并將其應用在教學中。
3.1 數據結構相關知識點的分析與研究
數據結構課程研究的是數據和數據之間的關系,其基本分為四大類:集合、線性結構、樹形結構和圖形結構。在數據結構課程中,主要講解的是后三種結構的邏輯結構、物理結構,以及相關算法的實現。在課程的最后講解了利用已學過的數據結構解決基本的查找和排序的問題。
上述這些知識點中都具有一定的順序性、關聯性,但又相互獨立。如果只是把課程講解的內容分解成10分鐘之內的小視頻,除了時間上看著短了以外,沒有改變課堂講解的實質,沒有做到真正意義上的微課程。在多年教學經驗的指導下,本文要研究的是什么樣的知識點適合做成微課程,讓學生課下自主學習,課上共同討論,培養學生自主學習的能力,并且在考試復習時通過溫習微課程的視頻可以更快的掌握主要題型的解決方法,節約復習時間。
微課程知識點的設定原則為5―20分鐘可以被清晰地講解,且盡量不涉及程序性的內容。棧和隊列可以說是操作受限的線性表,其抽象數據類型和現實生活中的很多例子都有相似性,可以將其作為微課程的一個知識點,讓學生自主學習。在樹形結構中,如何在連續的存儲空間中把非線性的東西表示出來可以在短時間內很經典的講解出來,其鏈表的表示所以也非常適合做成微課程。二叉樹的結構和樹非常像,對二叉樹的遍歷,以及樹和森林的轉化都是比較獨立的知識點,其方法不涉及難理解的程序,將這些放入微課程中。赫夫曼樹是二叉樹的重要應用,其構造方法可以放入微課程的知識點框架中。在圖形結構中圖的鄰接矩陣表示法和鄰接表表示法都可以作為微課程的一部分,深度優先遍歷和廣度優先遍歷的算法雖然不易理解,但其求解方法的思想卻可以通過微課程表達出來。最小生成樹,關鍵路徑,單源最短路徑都是圖里的應用,僅把問題的解決方法放入微課程中是比較好的選擇。在查找中的折半查找和二叉排序樹的構造都是獨立的知識點,可以很好的用于微課程的制作。在排序中,會選擇相對復雜一些的快速排序和堆排序,僅僅介紹排序的思想。微課程的知識點設定如圖1所示。
3.2 翻轉課堂輔助數據結構微課程的實現
學生在剛接觸數據結構時會覺得特別的抽象,其基本概念和相關的術語并不適合讓學生自主學習,線性表是學生接觸的第一種線性結構,其邏輯結構,順序存儲和鏈式存儲,以及插入刪除等操作都非常的重要,但多數都是枯燥的程序,想讓學生在短時間內掌握其精髓并不是一件容易的事,如果這個部分讓學生自主學習很可能會打消學生的積極性,所以前幾節課程并不適合做翻轉課程。在學生已經對線性表有所掌握的情況下,可以將棧和隊列的邏輯結構微課程要求學生自己學習,在課堂上進行討論,在討論的基礎上講解實現通過自主學習了解的各種操作的程序。樹形結構是學生接觸的第一種非線性結構,所以其邏輯結構需要在課堂上進行講解,雖然樹形結構的存儲結構已經安排在微課程中,但由于是學生第一次接觸,所以本微課程部分并不作為翻轉課堂的一部分,學生在復習時可以通過微課程進行復習,以更好的掌握知識點。而二叉樹的相關微課程可以要求學生自行學習,在課堂上根據學生學習的結果共同研究算法的實現。圖形結構和樹形結構都屬于非線性結構,所以二者具有很多相似的地方,可以由學生自主學習課堂討論,通過討論的情況分析學生的掌握情況,因為微課程的內容簡單,重要的算法實現還需要在課堂上詳細講解。經過前面的學習,插入和排序的內容無論是應用方面還是程序實現方面都由學生自主完成,通過討論和測試考察學生的掌握情況。
經過和微課程相結合的翻轉課程的設計,使學生習慣通過微課程進行學習,掌握自主學習的能力。
4 結論(Conclusion)
微課程的系統框架對微課程的制作起到了指揮棒的作用,在總體框架下進行各個微課程的制作,在制作過程中絕不僅僅是錄制簡單的視頻,雖然僅僅是10分鐘左右,但工作量絕不亞于一節課的準備,不僅要對微課程設計方案,制作電子課件,還要精心準備習題,并配合易理解的答案。只有一個完整系統的微課程,再加上與課堂的相輔相成,才能使得學生在課下自主學習時更有針對性,學生學的更明白,課上討論也會更豐富,形成良性循環,真正實現了教師學生共同授課,共同討論的多樣化教學體系。
參考文獻(References)
[1] 梁樂明,曹俏俏,張寶輝.微課程設計模式研究――基于國內
外微課程的對比分析[J].開放教育研究,2013,19(1):65-73.
[2] 董麗薇.“數據結構”課程教學方法的改進[J].沈陽師范大學
學報:自然科學版,2012,30(2):307-309.
[3] 劉名卓,祝智庭.微課程的設計分析與模型構建[J].中國電化
教育,2013,(12):127-131.
[4] 嚴蔚敏,吳偉民.數據結構(C語言版)[M].北京:清華大學出版
社,2012.
作者簡介:
董麗薇(1981-),女,博士生,講師.研究領域:供應鏈管理.
篇5
關鍵詞:大數據;數據分析;統計學
大數據在如今社會已經成為熱點詞匯,不僅在計算機領域,在其他各個行業都能夠得到運用,為各個行業提供便捷,為了讓大數據能夠得到充分利用,下文將對大數據分析相關方面進行討論。
一、大數據與大數據時代
(一)大數據大數據是在當今科技飛速發展的情況下,一種新興的信息數據處理技術。隨著社會科技的進步,各行各業對于數據的應用也越來越廣泛,傳統的數據處理技術耗時較長且精準度較為低下,已經不能滿足現代科技對數據應用的要求。新時代的大數據系統具有超大的數據容量,同時兼容半結構化與結構化的數據,遠遠超出傳統數據庫管理系統的管理能力。因此新的大數據技術就此誕生。大數據在發展過程中,具有比為鮮明的特點。與傳統數據處理技術相比,大數據具有數量龐大、多樣化、速率快、價值高的特點。在信息處理的速度不斷加快的當今社會,這樣的特點為大數據的廣泛應用打下了堅實基礎。由于數據的數量較為龐大,且各種數據近年來的增長趨勢呈指數型,其數據的種類和形式也各有不同。其次,合理利用大數據技術,能夠在一定程度上降低成本,提高效率,因此,大數據處理各項關鍵技術的進一步的開發與利用已成為了提高自身效率,實現核心競爭力的重中之重。
(二)大數據時代大數據時代是指在物聯網技術、計算機技術、數據信息處理技術的基礎上,通過互聯網途徑,大量收集并處理分析數據資源,而形成一種新型的信息時代。大數據時代的主要核心內容是對龐大的數據體系進行處理以發揮價值,從而提升數據分析效率以及數據應用價值。大數據時代是由多種信息技術共同組成,可以有效地避免數據處理中不同步、使用不方便的情況發生,具有高效可靠的數據處理、整合、分析及匯總的功能。因此,大數據時代的新型數據處理技術可最大程度的對數據進行分析與挖掘,極大提高處理數據的效率。
二、大數據時代與統計學
(一)大數據時代與統計學的關系統計工作是集數據的搜集、整理、分析和解釋為一體的系統的過程。大數據與統計二者互相依存,通過統計的方法和原理對數據進行整理和分析,提高數據的精確度和適用度,以此來實現數據的價值和利用率。由此看來,大數據與統計學的聯系既緊密,又存在區別。大數據與統計學的關系甚為密切,它們都是關于數字的學科。統計學為大數據提供了了施展方向,而大數據將統計學引領至更深更廣的空間。共性之一就是社會與數據。幾乎所有的行業與大數據都有著密切聯系,這些聯系或直接或間接,而人們正是通過獲取數據并進行分析,從而才能得到商業知識和社會服務等能力。大數據與統計學的區別。首先,信息規模不同。大數據的分析對象是與某事物有關聯的所有數據,要求數據量龐大。統計學則是用樣本來分析和推斷總體的數量特征。在大數據時代,則可以通過各種方法和渠道獲得全面而又完整的的信息資料,從而完成更多從前無法完成的事情。其次,動靜標準不同。數據經過了搜集、整理、分析的過程就很有可能因為精確性不足而被認為失去了用處。而大數據時代,則不必再擔心這個問題,數據的精確性和原始性不在被過分重視,人們可以接受復雜數據。第三,數據搜集形式不同。在以往數據搜集形式主要是抽樣調查,方法局限。而在大數據時代,特點是信息爆炸和互聯網飛速發展,這一情況得到改觀。最后,思維方式不同。大數據時代人們的思維發生轉變,人們開始更多的關注事物的相關關聯。
(二)大數據對統計學研究工作的影響首先,大數據豐富了統計學的研究對象。在大數據時代,我們既可以以結構化數據作為測量單位對文本、圖像和視頻等進行分析,還可以對非結構化數據實行分析。其次,大數據影響了統計學的工作進程。統計數據需求豐富,原有的統計抽樣分析不能在適應時代的發展,而現代科技方法如透過傳感器自動收集數據等方法取代了傳統方法,更加便捷有效。
三、大數據數據分析理念
(一)統計學的應用隨著現代科技的發展,傳統的大數據已經不能滿足人們對數據處理的要求。傳統的抽樣數據調查不能滿足大數據的數據處理以及知識發現。因此,新技術及思維的引進就顯得尤為重要。新的統計學思維以及知識的應用能夠很大程度的提高大數據分析的效率。摒棄對傳統的小數據樣本的依賴,不在用傳統的統計工具對數據進行全部分析。而是對數據進行針對性的分析,使數據分析更加精準,并且能夠更加全面的體現數據的價值。我們利用統計計算工具對數據進行分析從而判斷數據的變化趨勢。統計學的應用可以,為數據分析提供科學的參考依據。
篇6
【論文摘要】所謂統計思想,就是在統計實際工作、統計學理論的應用研究中,必須遵循的基本理念和指導思想。統計思想主要包括均值思想、變異思想、估計思想、相關思想、擬合思想、檢驗思想等思想。文章通過對統計思想的闡釋,提出關于統計思想認識的三點思考。
【論文關鍵詞】統計學;統計思想;認識
1關于統計學
統計學是一門實質性的社會科學,既研究社會生活的客觀規律,也研究統計方法。統計學是繼承和發展基礎統計的理論成果,堅持統計學的社會科學性質,使統計理論研究更接近統計工作實際,在國家和社會得到廣泛發展。
2統計學中的幾種統計思想
2.1統計思想的形成
統計思想不是天然形成的,需要經歷統計觀念、統計意識、統計理念等階段。統計思想是根據人類社會需求的變化而開展各種統計實踐、統計理論研究與概括,才能逐步形成系統的統計思想。
2.2比較常用的幾種統計思想
所謂統計思想,就是統計實際工作、統計學理論及應用研究中必須遵循的基本理念和指導思想。統計思想主要包括:均值思想、變異思想、估計思想、相關思想、擬合思想、檢驗思想?,F分述如下:
2.2.1均值思想
均值是對所要研究對象的簡明而重要的代表。均值概念幾乎涉及所有統計學理論,是統計學的基本思想。均值思想也要求從總體上看問題,但要求觀察其一般發展趨勢,避免個別偶然現象的干擾,故也體現了總體觀。
2.2.2變異思想
統計研究同類現象的總體特征,它的前提則是總體各單位的特征存在著差異。統計方法就是要認識事物數量方面的差異。統計學反映變異情況較基本的概念是方差,是表示“變異”的“一般水平”的概念。平均與變異都是對同類事物特征的抽象和宏觀度量。
2.2.3估計思想
估計以樣本推測總體,是對同類事物的由此及彼式的認識方法。使用估計方法有一個預設:樣本與總體具有相同的性質。樣本才能代表總體。但樣本的代表性受偶然因素影響,在估計理論對置信程度的測量就是保持邏輯嚴謹的必要步驟。
2.2.4相關思想
事物是普遍聯系的,在變化中,經常出現一些事物相隨共變或相隨共現的情況,總體又是由許多個別事務所組成,這些個別事物是相互關聯的,而我們所研究的事物總體又是在同質性的基礎上形成。因而,總體中的個體之間、這一總體與另一總體之間總是相互關聯的。
2.2.5擬合思想
擬合是對不同類型事物之間關系之表象的抽象。任何一個單一的關系必須依賴其他關系而存在,所有實際事物的關系都表現得非常復雜,這種方法就是對規律或趨勢的擬合。擬合的成果是模型,反映一般趨勢。趨勢表達的是“事物和關系的變化過程在數量上所體現的模式和基于此而預示的可能性”。
2.2.6檢驗思想
統計方法總是歸納性的,其結論永遠帶有一定的或然性,基于局部特征和規律所推廣出來的判斷不可能完全可信,檢驗過程就是利用樣本的實際資料來檢驗事先對總體某些數量特征的假設是否可信。
2.3統計思想的特點
作為一門應用統計學,它從數理統計學派汲取新的營養,并且越來越廣泛的應用數學方法,聯系也越來越密切,但在統計思想的體現上與通用學派相比,還有著自己的特別之處。其基本特點能從以下四個方面體現出:(1)統計思想強調方法性與應用性的統一;(2)統計思想強調科學性與藝術性的統一;(3)統計思想強調客觀性與主觀性的統一;(4)統計思想強調定性分析與定量分析的統一。
3對統計思想的一些思考
3.1要更正當前存在的一些不正確的思想認識
英國著名生物學家、統計學家高爾頓曾經說過:“統計學具有處理復雜問題的非凡能力,當科學的探索者在前進的過程中荊棘載途時,唯有統計學可以幫助他們打開一條通道”。但事實并非這么簡單,因為我們所面臨的現實問題可能要比想象的復雜得多。此外,有些人認為方法越復雜越科學,在實際的分析研究中,喜歡簡單問題復雜化,似乎這樣才能顯示其科學含量。其實,真正的科學是使復雜的問題簡單化而不是追求復雜化。與此相關聯的是,有些人認為只有推斷統計才是科學,描述統計不是科學,并延伸擴大到只有數理統計是科學、社會經濟統計不是科學這樣的認識。這種認識是極其錯誤的,至少是對社會經濟統計的無知。比利時數學家凱特勒不僅研究概率論,并且注重于把統計學應用于人類事物,試圖把統計學創建成改良社會的一種工具。經濟學和人口統計學中的某些近代概念,如GNP、人口增長率等等,均是凱特勒及其弟子們的遺產。
3.2要不斷拓展統計思維方式
統計學是以歸納推理或歸納思維為主要的邏輯方式的。眾所周知,邏輯推理方式主要有兩種:歸納推理和演繹推理。歸納推理是基于觀測到的數據信息(尤其是不完全甚至劣質的信息)去產生新的知識或去驗證一個假設,即以所掌握的數據信息為依據,歸納得出具有一般特征的結論。歸納推理是要在數據信息的基礎上透過偶然性去發現必然性。演繹推理是對統計認識能力的深化,尤其是在根據必然性去研究和認識偶然性方面,具有很大的作用。
3.3深化對數據分析的認識
任何統計研究都離不開數據分析。因為這是得到統計研究結論的必要環節。雖然統計分析的形式隨時代的推移而變化著,但是“從數據中提取一切信息”或者“歸納和揭示”作為統計分析的目的卻一直沒有改變。對統計數據分析的原因有以下三個方面:一是基于同樣的數據會得出不同、甚至相反的分析結論;二是我們所面對的分析數據有時是缺損的或存在不真實性;三是我們所面對的分析數據有時則又是海量的,讓人無從下手。雖然統計數據分析已經經歷了描述性數據分析(DDA)、推斷性數據分析(IDA)和探索性數據分析(EDA)等階段,分析的方法技術已經有了質的飛躍,但與人類不斷提高的要求相比,存在的問題似乎也越來越多。所以,我們必須深化對數據分析的認識,圍繞“準確解答特定問題并且從數據中獲取一切有效信息”這一目的,不斷拓展研究思路,繼續開展數據分析方法技術的研究。
參考文獻:
[1]陳福貴.統計思想雛議[J]北京統計,2004,(05).
[2]龐有貴.統計工作及統計思想[J]科技情報開發與經濟,2004,(03).
篇7
筆者在教學實踐中,依據統計學教學基本理論應以實際應用為目的,以“必須”、“夠用”為度的原則,結合清遠職業技術學院教學條件和學生的實際情況,對統計學教學做了如下改革:
1.簡化理論,保證“夠用”。統計學的原理抽象、公式的推導難懂、計算過程復雜容易出錯,這些都是學生學習統計學的共同難點。大多數高職院校學生高等數學基礎差,甚至根本就沒有高等數學的基礎。而且,統計學課程的周課時少(一般周課時只有2節),教學進度快,學生理解消化的時間不夠。對高職學生來說就更是難上加難了。所以,在保證“夠用”的前提下,簡化理論就成了統計學教學中的一個重要任務。筆者在實際教學中,按照“必須”和“夠用”的原則,根據人才培養方案和教學大綱的要求對上課的內容進行重組。強調課程體系的針對性,課程設置不是從學科體系出發,而是從職業崗位群的需要出發,體現國際勞工組織的MES職業培訓體系經常采用的模式――模塊式課程模式(把專業學科的系統理論知識進行簡化、分解成職業崗位群所需要的模塊知識)。具體課堂教學操作是:
在簡化理論方面,首先,在教材體系中,簡化教材中抽象基本原理的講述、復雜公式的推導,省略繁雜的書面統計計算過程的章節。把重點放在假設檢驗、方差分析、χ2檢驗和直線回歸等實際應用性的章節;其次,在教學內容上,簡化抽象基本原理的講述、復雜公式的推導,省略繁雜的統計計算過程。重點講授基本原理適應解決的對象,統計公式應用的條件,解題的基本步驟、基本方法和應注意的事項,新增引用Excel計算統計量、統計分析和常見統計軟件的初步應用等內容。
所謂“夠用”,首先是保證學生將來從事的崗位群所需要的統計方法及其原理,包括基本統計方法和原理的含義、應用對象、適用條件等基本知識;其次要保證具有分析和解決實際問題的實操能力,能做到學以致用。主要包括基本統計原理在實際工作中的應用、分析和解決問題的靈活運用能力和基本統計工具(Excel和SPSS,EVIEWS,SAS統計軟件)的使用能力等,其中重點是MicrosoftOfficeExcel一些自帶工具在統計學上的應用。
2.優化手段,講求“實用”。在課堂教學中,我們還應遵循教育教學過程和培養目標的另一個特點,即注重崗位能力的培養,根據“按需施教、學以致用”的原則,組織課程教學、試驗和實訓。筆者根據以上原則,突出統計專業課程是定量分析的內容較多,應用性和實踐性十分明顯的特點,把優化教學手段和“實用”結合起來,一并體現在課堂教學之中,主要是改變傳統講授統計學的“三個一”模式,對教學手段進行優化,采用多媒體自做課件教學和計算機實操教學。首先,利用多媒體教學信息容量大、視覺直觀、效果好的優點,既能簡化教材中抽象基本原理的講述、復雜公式的推導,省略繁雜書面統計計算的過程,又不影響學生對教材的學習和理解,在保證基本理論夠用的前提下,還有足夠的時間把重點放在講授基本原理應用性的實用內容上。其次,增加計算機實操(實驗實訓)課,把教材中的手工、半手工統計計算轉化成計算機計算。主要做法是增加SPSS、EVIEWS和SAS統計軟件的簡介,重點放在引用Excel自帶的函數公式“fx”計算標準誤、方差等統計量、利用Excel自帶的“數據分析”工具分析雙樣本均數假設檢驗和方差分析、利用Excel的“圖表向導”求回歸方程、相關系數和制作圖表等內容,其主要目的就是利用計算機這個現代化工具去解決實際生產中的統計問題,使復雜的統計計算簡單化,以增強學生的解決實際生產問題的實操運用能力。第三,根據教學對象將來的就業方向,并結合實際工作中的實際案例和學生學習中其它學科出現的統計問題自編練習題,讓學生反復練習并要求他們能舉一反三、熟練應用。
3.注重方法,力求“會用”。本文所講的方法是指注重統計學的實際運用方法,強調統計學基礎知識和基本原理在實際工作中的運用。重點內容應放在Excel自帶的函數公式、數據分析庫和統計軟件的基本應用上,而不是理論和繁雜的書面計算過程。核心問題是教會學生能夠靈活應用統計學這個統計工具,去解決生產實踐中的實際問題。在實際生產中,最為簡單、方便、實用的統計工具就是Excel。所以筆者在教學過程中就是以Excel的應用為中心,結合實際生產中的問題開展教學工作。
在工作中要始終堅持“會用”這個原則,“會用”包括兩層含義:第一,會用統計的原理解決實際問題,即知道解決什么問題時使用什么統計方法;第二,會利用Excel自帶的函數公式“fx”、“數據分析”庫和圖形處理等計算統計量,并根據統計計算結果對問題進行推論,達到解決實際問題的目的。
在課堂教學中,我們應注意以下幾個問題:第一,注意講清楚“數據分析”工具與手工統計分析計算上的銜接關系;第二,向學生交代清楚Excel自帶“數據分析”適用對象、適用條件,并教會他們分析和判斷;第三,詳細講授運用Excel自帶函數公式和“數據分析”的具體操作步驟,明確Excel計算結果中各個數量所代表的意義。下面舉例說明兩種安眠藥的療效有無極顯著的差異:
對10名失眠患者,服用甲乙兩種安眠藥。以XiYi分別表示使用甲乙兩種安眠藥后各個患者睡眠的延長小時數,結果如下表:
分析說明:第一,利用Excel自帶的“數據分析”工具解此題的步驟同手工統計法,也要求有以下4個步驟,①提出假設;②確定顯著水平;③計算概率值;④推斷H0的正誤。其中提出假設、確定顯著水平和推斷H0的正誤這三步與手工統計分析相同;而Excel自帶的函數公式和“數據分析”工具僅僅用于計算概率值。第二,Excel自帶的“數據分析”工具的選定和運用分析。本題具有兩組樣本數據,而且兩個樣本是相互關聯的,樣本容量一樣,每對數據都是同一總體在不同條件下抽取的樣本,如第1組數據1.9和0.7是同一個患者服用甲乙兩種藥睡眠延長的時間數。所以應選用Excel“數據分析”工具中的“t-檢驗:成對雙樣本均值分析”。第三,講清具體操作步驟,并注意對結果進行說明。
解:①檢驗假設:H0:u1=u2即兩種藥療效相同;HA:u1≠u2即兩種藥療效不相同
②取α的值為0.01(判斷這兩種安眠藥的療效有無極顯著的差異)
③統計計算:此步需用Excel“數據分析”工具,具體操作步驟如下:
打開Excel,把數據輸入Excel表格,點擊“工具”,再點擊“數據分析”,在對話框中選取“t-檢驗:成對雙樣本均值分析”,點擊“確定”。在隨后出現的對話框內單擊“變量1的區域”后的對話框,而后拖動鼠標選定Excel表中的第1組數據;同理,單擊“變量2的區域”后的對話框,而后拖動鼠標選定Excel表中的第2組數據;把“(Α)”后對話框的值改成0.01。然后在“輸出選項”下面的“輸出區域”前的圓圈內單擊鼠標表示選定,再用鼠標點擊“輸出區域”后面長形對話框,并在Excel數據表中鼠標點擊適當的單元格作為輸出區域。最后用鼠標點擊“確定”,此時Excel就會自動生成如上表的結果:“df”為自由度;“tStat”是“t-檢驗:成對雙樣本均值分析”的統計值,即t=4.062128;“t單尾臨界”是單尾檢驗臨界值,即單尾t0.01=2.8214;“t雙尾臨界”是雙尾檢驗臨界值,即雙尾t0.01=3.2498;“P”為概率,“P(T
④推斷H0的正誤:
篇8
【關鍵詞】統計學;統計思想;認識
1關于統計學
統計學是一門實質性的社會科學,既研究社會生活的客觀規律,也研究統計方法。統計學是繼承和發展基礎統計的理論成果,堅持統計學的社會科學性質,使統計理論研究更接近統計工作實際,在國家和社會得到廣泛發展。
2 統計學中的幾種統計思想
2.1 統計思想的形成
統計思想不是天然形成的,需要經歷統計觀念、統計意識、統計理念等階段。統計思想是根據人類社會需求的變化而開展各種統計實踐、統計理論研究與概括,才能逐步形成系統的統計思想。
2.2 比較常用的幾種統計思想
所謂統計思想,就是統計實際工作、統計學理論及應用研究中必須遵循的基本理念和指導思想。統計思想主要包括:均值思想、變異思想、估計思想、相關思想、擬合思想、檢驗思想。現分述如下:
2.2.1 均值思想
均值是對所要研究對象的簡明而重要的代表。均值概念幾乎涉及所有統計學理論,是統計學的基本思想。均值思想也要求從總體上看問題,但要求觀察其一般發展趨勢,避免個別偶然現象的干擾,故也體現了總體觀。
2.2.2 變異思想
統計研究同類現象的總體特征,它的前提則是總體各單位的特征存在著差異。統計方法就是要認識事物數量方面的差異。統計學反映變異情況較基本的概念是方差,是表示“變異”的“一般水平”的概念。平均與變異都是對同類事物特征的抽象和宏觀度量。
2.2.3 估計思想
估計以樣本推測總體,是對同類事物的由此及彼式的認識方法。使用估計方法有一個預設:樣本與總體具有相同的性質。樣本才能代表總體。但樣本的代表性受偶然因素影響,在估計理論對置信程度的測量就是保持邏輯嚴謹的必要步驟。
2.2.4 相關思想
事物是普遍聯系的,在變化中,經常出現一些事物相隨共變或相隨共現的情況,總體又是由許多個別事務所組成,這些個別事物是相互關聯的,而我們所研究的事物總體又是在同質性的基礎上形成。因而,總體中的個體之間、這一總體與另一總體之間總是相互關聯的。
2.2.5 擬合思想
擬合是對不同類型事物之間關系之表象的抽象。任何一個單一的關系必須依賴其他關系而存在,所有實際事物的關系都表現得非常復雜,這種方法就是對規律或趨勢的擬合。擬合的成果是模型,反映一般趨勢。趨勢表達的是“事物和關系的變化過程在數量上所體現的模式和基于此而預示的可能性”。
2.2.6 檢驗思想
統計方法總是歸納性的,其結論永遠帶有一定的或然性,基于局部特征和規律所推廣出來的判斷不可能完全可信,檢驗過程就是利用樣本的實際資料來檢驗事先對總體某些數量特征的假設是否可信。
2.3 統計思想的特點
作為一門應用統計學,它從數理統計學派汲取新的營養,并且越來越廣泛的應用數學方法,聯系也越來越密切,但在統計思想的體現上與通用學派相比,還有著自己的特別之處。其基本特點能從以下四個方面體現出:(1)統計思想強調方法性與應用性的統一;(2)統計思想強調科學性與藝術性的統一;(3)統計思想強調客觀性與主觀性的統一;(4)統計思想強調定性分析與定量分析的統一。
3 對統計思想的一些思考
3.1 要更正當前存在的一些不正確的思想認識
英國著名生物學家、統計學家高爾頓曾經說過:“統計學具有處理復雜問題的非凡能力,當科學的探索者在前進的過程中荊棘載途時,唯有統計學可以幫助他們打開一條通道”。但事實并非這么簡單,因為我們所面臨的現實問題可能要比想象的復雜得多。此外,有些人認為方法越復雜越科學,在實際的分析研究中,喜歡簡單問題復雜化,似乎這樣才能顯示其科學含量。其實,真正的科學是使復雜的問題簡單化而不是追求復雜化。與此相關聯的是,有些人認為只有推斷統計才是科學,描述統計不是科學,并延伸擴大到只有數理統計是科學、社會經濟統計不是科學這樣的認識。這種認識是極其錯誤的,至少是對社會經濟統計的無知。比利時數學家凱特勒不僅研究概率論,并且注重于把統計學應用于人類事物,試圖把統計學創建成改良社會的一種工具。經濟學和人口統計學中的某些近代概念,如GNP、人口增長率等等,均是凱特勒及其弟子們的遺產。
3.2要不斷拓展統計思維方式
統計學是以歸納推理或歸納思維為主要的邏輯方式的。眾所周知,邏輯推理方式主要有兩種:歸納推理和演繹推理。歸納推理是基于觀測到的數據信息(尤其是不完全甚至劣質的信息)去產生新的知識或去驗證一個假設,即以所掌握的數據信息為依據,歸納得出具有一般特征的結論。歸納推理是要在數據信息的基礎上透過偶然性去發現必然性。演繹推理是對統計認識能力的深化,尤其是在根據必然性去研究和認識偶然性方面,具有很大的作用。
3.3深化對數據分析的認識
任何統計研究都離不開數據分析。因為這是得到統計研究結論的必要環節。雖然統計分析的形式隨時代的推移而變化著,但是“從數據中提取一切信息”或者“歸納和揭示”作為統計分析的目的卻一直沒有改變。對統計數據分析的原因有以下三個方面:一是基于同樣的數據會得出不同、甚至相反的分析結論;二是我們所面對的分析數據有時是缺損的或存在不真實性;三是我們所面對的分析數據有時則又是海量的,讓人無從下手。雖然統計數據分析已經經歷了描述性數據分析(DDA)、推斷性數據分析(IDA)和探索性數據分析(EDA)等階段,分析的方法技術已經有了質的飛躍,但與人類不斷提高的要求相比,存在的問題似乎也越來越多。所以,我們必須深化對數據分析的認識,圍繞“準確解答特定問題并且從數據中獲取一切有效信息”這一目的,不斷拓展研究思路,繼續開展數據分析方法技術的研究。
參考文獻
[1] 陳福貴.統計思想雛議[J]北京統計, 2004,(05) .
[2] 龐有貴.統計工作及統計思想[J]科技情報開發與經濟, 2004,(03) .
篇9
一、統計學中的幾種常見統計思想
統計思想主要包括:均值思想、變異思想、估計思想、相關思想、擬合思想、檢驗思想等。統計思想不是天然形成的,需要經歷統計觀念、統計意識、統計理念等階段。統計思想是根據人類社會需求的變化而開展各種統計實踐、統計理論研究與概括,才能逐步形成系統的統計思想。作為一門應用統計學,它從數理統計學派汲取新的營養,并且越來越廣泛的應用數學方法,聯系也越來越密切,但在統計思想的體現上與通用學派相比,還有著自己的特別之處。其基本特點:(1)統計思想強調方法性與應用性的統一;(2)統計思想強調科學性與藝術性的統一;(3)統計思想強調客觀性與主觀性的統一;(4)統計思想強調定性分析與定量分析的統一。
1.均值思想。均值是對所要研究對象的簡明而重要的代表。均值概念幾乎涉及所有統計學理論,是統計學的基本思想。均值思想也要求從總體上看問題,但要求觀察其一般發展趨勢,避免個別偶然現象的干擾,故也體現了總體觀。
2.變異思想。統計研究同類現象的總體特征,它的前提則是總體各單位的特征存在著差異。統計方法就是要認識事物數量方面的差異。統計學反映變異情況較基本的概念是方差,是表示“變異”的“一般水平”的概念。平均與變異都是對同類事物特征的抽象和宏觀度量。
3.估計思想。估計以樣本推測總體,是對同類事物的由此及彼式的認識方法。使用估計方法有一個預設:樣本與總體具有相同的性質。樣本才能代表總體。但樣本的代表性受偶然因素影響,在估計理論對置信程度的測量就是保持邏輯嚴謹的必要步驟。
4.相關思想。事物是普遍聯系的,在變化中,經常出現一些事物相隨共變或相隨共現的情況,總體又是由許多個別事務所組成,這些個別事物是相互關聯的,而我們所研究的事物總體又是在同質性的基礎上形成。因而,總體中的個體之間、這一總體與另一總體之間總是相互關聯的。
5.擬合思想。擬合是對不同類型事物之間關系之表象的抽象。任何一個單一的關系必須依賴其他關系而存在,所有實際事物的關系都表現得非常復雜,這種方法就是對規律或趨勢的擬合。擬合的成果是模型,反映一般趨勢。趨勢表達的是“事物和關系的變化過程在數量上所體現的模式和基于此而預示的可能性”。
6.檢驗思想。統計方法總是歸納性的,其結論永遠帶有一定的或然性,基于局部特征和規律所推廣出來的判斷不可能完全可信,檢驗過程就是利用樣本的實際資料來檢驗事先對總體某些數量特征的假設是否可信。
二、對統計思想的若干思考
1.要改變當前存在的一些不正確的思想認識。英國著名生物學家、統計學家高爾頓曾經說過:“統計學具有處理復雜問題的非凡能力,當科學的探索者在前進的過程中荊棘載途時,唯有統計學可以幫助他們打開一條通道”。但事實并非這么簡單,因為我們所面臨的現實問題可能要比想象的復雜得多。此外,有些人認為方法越復雜,越科學。在實際的分析研究中,喜歡簡單問題復雜化,似乎這樣才能顯示其科學含量。其實,真正的科學是使復雜的問題簡單化而不是追求復雜化。與此相關聯的是,有些人認為只有推斷統計才是科學,描述統計不是科學,并延伸擴大到只有數理統計是科學、社會經濟統計不是科學這樣的認識。這種認識是極其錯誤的,至少是對社會經濟統計的無知。比利時數學家凱特勒不僅研究概率論,并且注重于把統計學應用于人類事物,試圖把統計學創建成改良社會的一種工具。經濟學和人口統計學中的某些近代概念,如GNP、人口增長率等等,均是凱特勒及其弟子們的遺產。
篇10
2011年2月,國務院學位委員會進行了學科調整,統計學完全從數學和經濟學中獨立出來,上升為一級學科,設在理學門類中,編號為0714。統計學上升為一級學科后,下設的二級學科包括數理統計學、社會經濟統計學、生物衛生統計學、金融統計、風險管理和精算學、應用統計學。統計學上升為一級學科對統計學專業的教學帶來巨大影響。
同時,隨著大數據時代的到來,使得傳統的統計數據收集、處理與分析方法面臨新的挑戰,從而推動統計學的發展進入了一個全新的階段。在統計學上升為一級學科以及大數據時代已經到來的大背景下,統計學專業的課程教學也面臨著新的挑戰,需要進一步改革與調整。
一、大數據時代的到來
(一)大數據的生成
伴隨著人類對客觀世界各領域數字化程度的不斷提高,每天都有大量的數據產生,并且其產生的速度也越來越快。這些數據來源廣泛,其中最主要的來源有:科學研究(如天文學、生物學、高能物理等實驗數據)、社交網絡、電子商務、物聯網、移動通信等。
(二)大數據的定義
為了應對數據大規模增長帶來的機遇和挑戰,美國《Nature》雜志在2008年9月4日率先提出了“大數據”的概念。國際數據中心IDC 是研究大數據及其影響的先驅,在2011年的報告中定義了大數據:“大數據技術描述了一個技術和體系的新時代, 被設計于從大規模多樣化的數據中通過高速捕獲、發現和分析技術提取數據的價值”。但是大數據是一個新興而且內涵不斷發展的概念,尚沒有統一公認的定義,只能從其特點上加以認識。
(三)大數據的特點
與傳統數據相比,大數據的特征可以用五個“V”來表示,即Volume(容量大)、Variety(種類多)、Velocity(時效性強)、Value(價值高)、Visualization(可視化呈現)。大數據容量大是個相對的概念,受時間、行業和數據類型等因素的影響;種類多是指數據集的結構異質性,科技進步導致了結構化、半結構、非結構化數據的日益增多;時效性強是指大數據被生成、處理、移動的速度相當快,是區別于傳統數據最顯著的特征,這也增加了對即時分析、加工數據的需求;價值高是指大數據潛在的高價值能為評價和決策提供依據??梢暬谴髷祿治龅年P鍵步驟,是對有價值信息加以提煉并顯示的過程。
(四)大數據的應用
大數據具有5Vs(Volume、Velocity、Variety、Value、Veracity)特點,蘊含著巨大的社會價值、經濟價值和科研價值,已引起了產業界、學術界、政府部門和其他組織的高度關注和重視。
近年來,世界發達國家相繼布局大數據戰略,諸如聯合國“數據脈動”計劃、美國大數據戰略、英國“數據權”運動,大力推動大數據發展和應用。大數據已納入我國國家發展戰略,國務院2015年8月31日印發了《促進大數據發展行動綱要》的通知(國發[2015]50號),指出:“大數據成為推動經濟轉型發展的新動力,大數據成為重塑國家競爭優勢的新機遇,大數據成為提升政府治理能力的新途徑。以數據流引領技術流、物質流、資金流、人才流,將深刻影響社會分工協作的組織模式,促進生產組織方式的集約和創新。探索發揮大數據對變革教育方式、促進教育公平、提升教育質量的支撐作用”
二、大數據給傳統統計學帶來的沖擊
(一)數據收集方法上
不同于傳統的調查抽樣方法獲取數據,大數據的收集來源渠道通常為現代網絡渠道,如互聯網、物聯網等。不同的數據源的數據采集需要專用數據采集技術, 如包含格式文本、圖像和視頻的網站數據,通常需要web爬蟲技術。
(二)數據存儲上
大數據的存儲不同于傳統的數據存儲方式,有固定的格式和結構,對于大數據的數據庫來說,可以直接將所探測到的信號自動容納到其中;大數據需要有先進的存儲設備,傳統的存儲設備已經不能容納如此大量的數據。
(三)數據分析上
傳統的統計分析方法,難以勝任對非結構化的大數據的分析。當前大數據分析技術的研究可以分為6個重要方向:結構化數據分析、文本數據分析、多媒體數據分析、web數據分析、網絡數據分析和移動數據分析。
(四)數據展示上
數據可視化的目標是以圖形方式清晰有效地展示數據的信息。一般來說,圖表和地圖可以幫助人們快速理解信息。但是,當數據量增大到大數據的級別,傳統的電子表格等技術已無法處理海量數據。大數據的可視化展示需要專業的軟件來完成。
三、大數據時代統計學專業教學改革
大數據時代的到來對統計學也帶來了新的機遇和挑戰,特別是大數據對于數據分析人才產生了巨大需求,同時也要求統計專業學生掌握更為復雜統計軟件的編程和操作。大數據背景下,統計學要適應新的形勢,需要對課程教學進行有針對性的改革。
(一)大數據時代統計學專業畢業生就業方向定位
大數據時代的到來,使各行各業,包括政府、企業、個人都希望能從大數據這座金礦中挖掘出對自己有價值的金子,從而增加了對統計專業畢業生的需求。一直以來,我國統計工作領域主要是政府統計、部門統計、民間統計。傳統意義上,政府及各個部門是統計學學生就業的首選。然而,隨著大數據時代的來臨,越來越多的畢業生選擇發展空間更為廣闊的民間統計。民間統計相對于政府統計來說,涉及范圍十分廣泛,包括各類統計咨詢公司、統計調查公司、統計研究院等,介于市場和企業、行業之間。民間統計的發展前景十分廣闊,可以預見,隨著大數據時代的來臨,統計學作用的提高,民間統計必會成為統計專業畢業生選擇就業的主要渠道之一。
(二)大數據時代統計學專業課程設置改革
大數據時代,在對統計數據分析人才需求增加的同時,也對統計專業畢業生的大數據處理能力提出了更高的要求,這就需要統計學專業在課程設置上,增加大數據處理與分析方法課程,如《大數據分析方法》、《數據挖掘》等,培養學生能夠使用專業統計軟件(R/SAS/Python)進行大數據的挖掘、清洗、分析等。
(三)大數據時代統計學專業學生實踐能力培養改革
在課堂教學之外,通過廣泛舉辦大數據技術創新大賽、大數據技術創新與創業大賽、數據挖掘挑戰賽,支持學生成立大數據研究協會,舉辦大數據相關講座論壇等方式,增強學生分析和處理大數據的能力。另外,還要加強校外大數據實踐教學基地建設,通過與通信、互聯網、電子商務等企業大數據開發中心以及大數據研究咨詢機構合作,為學生提供給更多的實習、實踐機會。
四、總結
總之,面對大數據時代的到來,統計學專業需要積極改革與調整課程的設置,注重學生實踐能力的培養,以適應各行各業對大數據分析與挖掘人才的需求。
作者簡介: