數據分析方法范文10篇
時間:2024-04-28 20:43:00
導語:這里是公務員之家根據多年的文秘經驗,為你推薦的十篇數據分析方法范文,還可以咨詢客服老師獲取更多原創文章,歡迎參考。
繼電保護狀態評價大數據分析方法
【摘要】繼電保護狀態評價是保障繼電保護工作的重要手段。其中繼電保護信息具備大數據的特性,然而在實踐活動中,受到數據傳輸不暢通、數據源不一致以及缺乏科學合理分析等因素的影響,繼電保護狀態評價難以在線上進行工作。結合在線評價過程中產生的問題,對其進行定向分析,在保障在線評價質量的前提下,不僅節省了數據傳送時間還有評價時間,還為輸變電環節提供了可靠性參考依據。本文就繼電保護狀態評價的大數據分析方法進行探討,并提出建議。
【關鍵詞】繼電保護;狀態評價;大數據
目前,隨著電網安全性逐步被人們所重視,信息數據在保障電網安全性的過程中起到至關重要的作用??茖W合理的利用電力系統運行數據,對繼電保護系統運行狀態進行在線分析,并給出合理的評價結果,這也是降低繼電保護裝置運行風險的重要手段之一。傳統的機電保護狀態分析通常是采用歷史數據進行分析研究,然后得出不合理的結果,將這一結果投入到運行中的繼電保護系統中,很難真正意義上降低運行風險,更別談找出運行故障隱患和薄弱環節了。
1繼電保護系統運行狀態評價的大數據
分析法的特點在過去,繼電保護裝置在進行狀態評價工作時,往往將繼電保護裝置置于一個隱蔽的系統內,其傳輸命令較為單一,只有輸入與輸出兩項操作。換言之,一旦電力系統發生故障或者故障結束后,對已經發生故障的元件進行事后數據記錄分析,從而反映該故障元件是否是真的發生了故障,這一過程并不能真正意義上正確、合理的對故障元件做出正確的判斷。因此,借助信息化大數據平臺,創建電力系統機電保護狀態信息化基站,設置一個主機,若干個子機,主機發出指令,各個子機收到指令后進行數據采集、分析以及總結等工作,最后向主機輸送數據包,這一大數據分析法的數據分為兩類:(1)周期性數據;(2)事件驅動數據。采用大數據分析法對繼電保護運行狀態進行評價具有較高的精確性、合理性、科學性以及靈敏性等優勢,這是傳統評價方法所不能比的。
2用于繼電保護運行狀態評價的大數據要求
太陽輻射數據分析及質量控制方法
摘要:本文利用索倫國家基準氣候站1993年~2017年逐月輻照度資料,使用統計學分析方法對索倫太陽輻照度數據變化規律進行分析,研究輻照度質量控制方法,提高觀測系統的精準度,為農業生產、太陽能開發利用和決策服務提供及時、準確的服務。
關鍵詞:輻射數據;質量控制方法;索倫
索倫國家基準氣候站太陽輻射觀測業務積累了27年觀測數據,為了保證歷史資料數據的準確性,便于開展應用服務,有必要對索倫太陽輻射數據進行分析及質量控制方法研究。為農業生產、太陽能開發利用和決策服務提供及時、準確的服務。
1研究資料和方法
本文利用索倫國家基準氣候站1993年~2017年逐月輻照度資料,使用統計學分析方法對索倫太陽輻照度數據變化規律進行分析,并研究了輻照度質量控制方法。季節劃分采用常規的劃分標準:春季3~5月,夏季6~8月,秋季9~11月,冬季12月到次年2月。
2索倫太陽輻射數據分析
多維數據在電力營銷中運用
隨著電力體制改革的深入,供電系統的營銷管理也逐步從粗放型向集約型轉變。而只有通過管理手段的創新,采用多維數據分析的一體化管理,才能實現電力部門真正意義上的集約型管理。目前,諸如自動化調度系統、售電自動化系統、用戶自助服務系統等的建立,實現了電力業務的產、輸、配、售信息一體化,既促進了供電系統業務的高效化,也積累了大量的業務數據。如何有效地利用這些現有的業務數據,將業務數據轉化成管理數據,為供電系統電力營銷工作提供服務,提高企業管理水平,是目前供電企業信息化所面臨的主要問題之一?;贠LAP的多維數據聯機分析處理工具BusinessObjects是一種自適應、基于服務的商務智能應用開發平臺,根據實際應用需求,可集成多個BusinessObjects套件產品如:CrystalRe-portsXI、WebIntelligence、PerformanceMan-ager等。該平臺在報表歸類、數據查詢、企業績效等實際應用中,提供了全方位、便捷化的多維數據分析服務,能滿足用戶的信息需求。
1多維數據分析技術
多維數據分析技術是一種建立在OLAP基礎上的高效數據分析方法,能有效地將企業數據由業務型向管理型轉化,是企業提高經營管理水平的有效方法。OLAP通過多維的方式對數據進行分析、查詢和報表,它不同于傳統的OTLP應用。OTLP應用主要是完成用戶的事務處理,通常要進行大量的更新操作,對響應時間要求比較高。而OLAP主要是對用戶分析、輔助領導決策,可以進行大量的查詢操作,對時間的要求不太嚴格。其典型的應用有對銀行信用卡風險的分析與預測、公司市場營銷策略的制度建設等。多維數據分析技術的核心是“維”,即用戶根據經營管理信息需求,從多個現實世界角度觀察數據,并對數據進行相應處理,從而獲得有用信息的方法。多維數據分析基本分析操作有鉆取、切片、切塊、旋轉,它讓用戶能同步快速、高效靈活地掌握從總體到局部的企業經營情況,將企業運營的隱藏信息直觀呈現給用戶。根據多維數據分析技術的基本定義及原理,在供電系統電力營銷中運用BusinessObjects平臺進行的多維數據分析,有如下特點:
(1)多維性:這是多維數據分析技術標志性特點,可以從分析維中分支出時間維、地區維、類別維等多個維度面。如對售電量的展現,可以從時間維中的年、季、月、周、日時間層次上查看。
(2)可析性:從不同角度對數據進行平均值、差距值、數排序、匯總、記錄限定等處理,提供給用戶強大的數據匯總、即時查詢等數據分析能力。
(3)同步性:體現了用戶對信息在時間上的要求。包含對多維數據分析結果同步快速獲得的要求,而且使多維數據分析能實時、適時地接收用戶數據。
試析數據分析在財務管理的作用
摘要:在企業管理中,財務管理是非常重要的工作。財務管理質量的提高,可以使得企業領導對企業的經營狀況全面分析并充分了解,基于此作出經營決策?,F代企業財務管理中應用統計數據分析的方法處理數據,從中還可以提取出有價值的數據信息,可以為企業的財務管理提供參考,這也是企業發展的重要保障。本文針對數據分析在企業財務管理中的作用展開研究。
關鍵詞:數據分析;企業;財務管理;作用
當前的市場經濟環境中,競爭日益激烈,企業認識到財務管理的重要性,給予了高度重視。企業要提高競爭力,就要將財物數據信息充分利用起來。在企業的財務管理工作中,統計數據是基礎性工作,不僅對于數據信息要予以處理,還要從數據中挖掘出有價值的信息。但是,從傳統的財務管理模式的角度而言,企業如果沒有在財務管理上與時俱進,而是依然采用傳統的模式,使得財務數據信息不能夠有效利用,必然會對企業的發展產生一定的影響。將統計數據分析作為一種手段,對于財務管理中產生的數據進行處理,發揮統計學原理的作用,對于財務數據信息之間的內在關聯性進行研究,所獲得的結果可以為企業的決策提供參考,對財務管理工作科學高效地展開也可以起到一定的促進作用。
1現代企業財務管理中對統計數據分析的應用
1.1采用統計數據分析企業產品的銷售利潤。處于當前的市場經濟環境中,企業的產品要獲得較高的經濟利潤,就需要提高企業經濟效益。企業在發展的進程中,要提高市場競爭優勢,在當前的市場中穩定的發展,就要使得生產的產品市場為導向,滿足市場的需求。在企業的管理工作中,財務管理是重要的內容。企業的產品銷售中要獲得較高的利潤,采用統計數據分析的方法是非常必要的。根據統計數據信息實時企業財務管理,使得管理工作建立在統計數據分析的基礎上,為企業的決策提供參考,企業產品的盈利能力也可以根據統計數據作出判斷。根據統計數據分析結果還可以制定產品銷售策略,確保企業的資金高效利用。1.2采用統計數據分析企業經費。財務管理工作需要一定的資金,資金是否到位對企業各項工作的展開具有一定的影響。現代企業在進行財務管理中所要實現的目標就是在最低成本的情況下獲得最高的經濟效益。通過財務管理活動對成本有效控制,提高資金的利用率,同時企業的各項管理費用得到有效控制,包括員工的工資、福利以及各種招待費等都合理控制,可以實現企業的利益最大化。在具體的工作中采用統計數據分析的方法,可以獲得一定的成本管理成效。在企業資金的運行過程中,按照相關的規范對資金合理控制,可以避免資金浪費。1.3采用統計數據分析企業利潤總額。衡量企業經濟效益中,利潤是重要的指標。總利潤金額中所涵蓋的內容主要包括產品銷售中所獲得的利潤、企業營業外凈收入等。企業的經營中所獲得的利潤就是企業在經營的過程中,在收入的金額中扣除折舊、營業稅以及成本消費等的剩余費用。營業外收入中,所涵蓋的收入包括非流動資產處置所獲得的收益、無形銷售所獲得的收益、非貨幣性資產交換所獲得的收益、債務重組所獲得的利潤、政府提供的補貼、罰款中所獲得的收入、以及獲得的捐款等。在企業運營的過程中,在各種因素的影響下,企業的利潤就會出現不穩定狀態,很有可能導致企業沒有達到預期的利潤目標。在分析企業總利潤的過程中采用統計數據分析的方法,可以準確的評估企業所獲得的利潤。所以,對于企業的資金使用合理控制,有助于提高愜意的經濟利潤。
2現代企業財務管理中提高統計數據分析效率的有效策略
數據分析在會計專業教學的重要性
摘要:數據分析是現代會計專業人才必須掌握的一項基本能力,學生數據分析能力的培養在會計專業教學中占有重要地位。文章首先對會計專業教學中的數據分析能力培養要求進行分析,進而采用案例研究法,探討數據分析的重要性。在此基礎上,對會計專業教學改革提出幾點建議,以期促進其教學水平的提高。
關鍵詞:數據分析;會計專業教學;重要性
一、會計專業教學中的數據分析能力培養要求
在會計電算化改革趨勢下,數據分析的重要性越來越顯著,許多傳統會計工作已經被人工智能所取代。在教學過程中,也需要明確學生的數據分析能力培養要求,從而適應時展趨勢,提升學生未來的崗位勝任力。目前計算機軟硬件技術已經在會計行業數據分析中得到了廣泛應用。以Stata軟件為例,在培養學生數據分析能力的過程中,可以利用其統計分析、數據管理、回歸分析等功能,幫助學生形成現代化會計工作的基本能力[1]。
二、會計專業教學中數據分析的重要性
1.回歸分析的重要性?;貧w分析是會計行業數據統計常用的方法,主要對兩個變量的因果關系進行檢驗。在大數據的應用下,回歸分析方法也被應用于檢驗兩變量的相關關系。在其應用過程中,首先要建立回歸方程模型,然后利用最小二乘法等對變量系數進行估計,再利用統計學知識分析變量間相關關系的顯著性,從而為企業財務決策提供支持。比如MM理論中提出,公司價值和公司資本結構無關,但利用回歸分析法證實,公司價值與公司資本結構之間存在某種二次函數關系。還有學者利用回歸分析方法證實企業績效和企業借貸成本也具有相關關系,企業績效越好,企業的借貸成本越低。這些回歸分析結果對于企業財務管理具有重要的參考價值。在會計專業教學過程中,可以利用Stata軟件快速完成數據回歸分析工作,通過“reg/*reg”指令輸入因變量、自變量和控制變量,由軟件直接給出回歸分析結果,從而提高會計專業工作效率[2]。2.盈余管理的重要性。盈余管理也是企業財務管理中的重要工作,但盈余管理容易成為公司管理層的自利工具,需要對企業盈余管理程度進行有效識別,這對于投資者、監管部門具有重要意義。在度量盈余管理的過程中,通常采用改進的Jones模型,按行業同年度回歸分析,得出模型殘差,反映公司盈余管理水平。如果殘差為正值,說明公司采取的是正向盈余管理措施,可能調高公司業績。相反則代表公司采取負向盈余管理措施,可能調低公司業績。在會計專業教學過程中,同樣需要引導學生掌握利用軟件實現盈余管理的能力。在Stata軟件中,盈余管理殘差計算是通過循環命令實現的,分別進行年度循環和行業循環,然后在statsby命令下進行分類變量循環,最終計算出相應的殘差,通過該數據反映公司盈余管理水平,幫助投資者了解公司實際經營狀況。3.事件分析的重要性。會計專業教學中的數據分析也包含事件分析研究,根據市場效率假說,所有股票漲跌的影響因素都能夠即時反應在股票變化趨勢上。Fama在此基礎上提出弱勢效率、強勢效率和半強勢效率的市場概念,可以通過開展相關事件數據分析工作,判斷股票變化趨勢。目前事件分析研究已經成為檢驗市場有效性的重要工具。在其應用過程中,主要是通過檢驗某個事件發生后的股票價格變化,得到異常報酬率,判斷該事件的信息含量。采用這種數據分析方法,可以幫助投資者正確認識事件的影響,包括公司并購行為、回購行為、定向增發股票和訴訟行為等。
移動通信網絡優化大數據分析
摘要:文章主要從移動數據和無線網絡方面進行分析,指出移動通信中存在的問題,將大數據分析與移動通信之間的關系進行剖析,改進大數據在移動通信中的優化方式,促進通信行業的發展與進步。
關鍵詞:大數據;移動通信網絡;優化
我國對于通信網絡要求隨著技術的發展逐漸提升,這與國家政策存在一定的聯系,也是國家政策發展的需要。特別是4G牌照的發放,使移動通信網絡得到全面的進步,對于通信行業來講是巨大的進步。但是在發展中也遇到一定的問題,主要表現是移動網絡在運行優化中的技術也需要得到全面提升,才能保持運行的穩定性,這樣才能更好地滿足群眾的使用要求。這就需要通過大數據分析手段,對移動通信的發展方向以及需求進行分析,找出更加妥善的處理方法,制定更加全面的方針,提升移動網絡的使用質量,促進技術的發展與進步[1]。
1大數據分析概述
大數據處理技術就是在大數據分析的基礎上產生和發展起來的,在掌握大數據的基礎上,通過數據存儲、數據處理以及數據分析等不同的技術,將數據進行相互之間的協調創新,使得數據在處理中更加的快捷高效,實現數據處理的全面進步。大數據分析以龐大的數據信息作為基礎,這些數據信息的取得可以是任何的平臺以及網絡軟件系統中的數據,技術人員對這些數據進行收集分析,進而篩選需要的數據信息,為企業的發展提供依據,幫助企業更加準確地找尋數據源,提升信息處理質量和效率[2]。與傳統的數據信息處理方法比較,大數據在數據收集方法上更加快捷,數據的處理質量和效率得到顯著的提升,掌握了更加科學的數據處理方法。
2移動通信網絡技術
新聞傳播人才數據分析能力培養路徑
摘要:本文基于新聞傳播人才數據分析能力培養實踐,提出面向問題解決的數據分析能力培養路徑。在此基礎上系統化構建指向培養路徑實現的數據分析能力培養體系,該體系包含課程、實訓、師資三個子體系。
關鍵詞:大數據時代;新聞傳播;數據分析;培養路徑;培養體系
大數據時代高校人才培養面臨新挑戰,受技術發展影響深刻的新聞傳播專業更是如此。新聞傳播教育融入大數據內容迫在眉睫,然而現實培養效果不盡如人意。分析其原因是當前培養方式主要停留在課程層面,通過直接在傳統課程體系中加入一門或幾門數據類課程實現,課程設置缺乏理論依據,課程之間缺乏邏輯關聯。數據分析能力獨立于新聞傳播傳統核心能力培養之外,需在專業內生需求驅動下,系統化設計培養路徑與培養體系,設計過程需充分考慮專業特點。
新聞傳播人才數據分析能力培養路徑
大數據時代新聞傳播生態面臨重大調整的同時也深度參與時代形態塑造,因此數據分析能力培養目標指向:深刻理解大數據內涵,既能利用數據分析方法支持新聞傳播領域需求,也能清楚認識新聞大數據在解決其他領域問題上的潛能。培養路徑設計亦圍繞該目標實現,主要內容包括:(一)強化數據分析思維培養,弱化技術細節傳授。數據分析能力分為兩個層面:數據分析思維能力與數據分析技術能力。前者包括:理解分析方法背后數學邏輯,明晰方法適用問題類型,能正確解釋分析結果;后者包括:根據數據分析方法特點能利用可視化軟件或編寫程序實現數據分析過程。因此,數據分析能力培養方式細化為三種:數據分析思維與技術并重培養;重技術實現,弱分析思維培養;重分析思維,弱技術細節培養。毋庸置疑,思維與技術并重培養最為全面,但在加重學習負擔的同時不可避免地會壓縮其他能力培養空間。正如哥倫比亞大學教授James?W.Carey所言“新聞學的學術來源應該根植于人文科學和人文類的社會科學中,新聞應該與政治、文學、哲學、藝術、歷史聯系”[1],并重式培養不免舍本逐末,影響人才整體培養目標實現。得益于集成軟件的可視化操作以及新一代編程語言豐富的可調用程序“包”,數據分析技術實現難度降低,為“重技術實現”培養方式創造條件。但集成操作在封裝數據分析過程的同時也導致學生對方法內涵及其背后邏輯理解不透,缺乏舉一反三的能力,更無法融合知識背景對分析結果進行深度解讀。另一方面,計算機性能提升促進數據分析方法快速迭代,從技術角度培養學生,容易導致教學內容滯后或在該能力培養上投入過多時間。因此,筆者傾向“重分析思維,弱技術細節”?培養模式。該模式重點講授數據分析方法原理,適用問題場景以及對分析結果進行有效解釋。在原理講授上可根據內容難易程度采用不同方式,例如對于基于單一數學公式的可直接補充數學知識;對于涉及復雜數學原理的,可采用通俗的符合現實邏輯的語言來講述。無論采用何種講授方式,其目的就是讓學生真正理解數據分析方法內涵,切實具備將方法應用到現實問題解決的能力。(二)開展信息素養教育,提高信息檢索與連接學習能力。采用“重思維,弱技術”培養方式必然存在兩個弊端:一是學生技術實現能力不足;二是無法及時跟進技術前沿??偨Y教學實踐,筆者認為開展信息素養教育是解決這兩個問題的關鍵?!靶畔⑺仞B”概念由美國信息產業協會提出,根據Doyle在《信息素養全美論壇的終結報告》中下的定義可知:理解信息在問題解決上的重要性,描述面向信息需求的問題,利用工具獲取目標信息,選擇有效信息并將其準確運用到問題解決上是開展信息素養教育的目的[2],也正是克服“重思維,弱技術”培養方式下人才技術短板的關鍵。首先,針對技術實現能力不足問題,可通過與有技術優勢的專業人員合作來彌補。識別合作對象是開展合作的前提,當前數據分析方法種類繁多,在解決現實問題時需要與有不同技術專長的對象合作。因此僅依靠人際網絡很難全面識別,需運用信息檢索技術,多渠道獲取信息才能更全面定位潛在合作對象并與之建立關聯。另外,不同專業人員的思維習慣以及對問題的理解存在差異,這種差異將影響合作效果。為提高溝通效率,除加強本專業學生溝通技巧外,關鍵在于提高學生對信息處理需求進行準確的、符合專業邏輯的描述的能力,而這正是信息素養教育內容之一。其次,針對無法及時跟進技術前沿問題,除了需要授課教師及時更新授課內容,保證課程緊跟技術前沿,更為重要的是培養學生連接學習能力。連接主義學習理論認為數字時代的學習可以看作在特定時間訪問與使用所需信息的過程,與之對應,連接學習能力就是在學習需求驅動下獲取與利用分布廣泛的信息的能力[3]?[4]。信息素養教育正是該能力的養成途徑之一。(三)深化人文社會學科教育,促進深厚人文素養養成,提高數據分析結果的深度解讀能力。上述兩條路徑培養學生適應大數據時代發展的能力,但在發揮新聞傳播專業優勢方面效果有限。本節將探討新聞傳播專業在數據分析流程中的優勢以及如何強化這種優勢。面向問題解決的新聞傳播人才數據分析流程可劃分為:問題解析、數據分析結果獲取、數據分析結果解讀三個階段。問題解析階段任務包括:判斷問題是否可采用數據分析方式解決,如可行需要采集那些數據、選擇那些數據分析方法,該階段考驗學生的數據分析思維。數據分析結果獲取階段任務包括:確定數據獲取渠道并明確采集需求;定位專業人員并與之建立關聯;通過與專業人員合作獲取數據分析結果,該階段需要學生具備堅實的信息素養。數據分析結果解讀階段任務包括:準確理解數據分析結果,融合背景知識對結果進行深度解讀,形成可供閱讀的分析報告,該階段需要學生具備深厚的人文素養。近年來,數據分析結果解讀在分析流程中的重要性日益凸顯,深厚的人文素養是開展深度解讀的前提,而這正是新聞傳播專業學生的優勢所在。一方面,新聞傳播專業重視人文主義教育,與文學、歷史學、哲學等不斷交融,培養學生人文情懷、獨立思考能力與批判精神[5]。更有學者呼吁在當前環境下更要加強文史哲教育,夯實新聞傳播人才的人文基礎[6]。另一方面,新聞傳播學科內在基因強調與法學、經濟學、政治學等社會學科交叉,培養學生跨界能力[7]。由此可知,數據分析過程中凸顯新聞傳播專業優勢的關鍵在于深化人文社會學科教育,促進學生深厚人文素養養成,提高數據分析結果深度解讀及對解讀結果準確描述的能力。
新聞傳播人才數據分析能力培養體系
統計學數據挖掘實驗教學探索
摘要:大數據時代,數據分析各環節的變化對統計學專業人才培養模式的變革起到了催化作用.數據挖掘作為拓展和提升大數據分析方法與思路的應用型課程,被廣泛納入統計學本科專業人才培養方案.本文對大數據時代數據分析師的職業需求進行了調研,在此基礎上提出了基于R語言的項目式數據挖掘實驗教學模式.教學實踐結果表明,通過項目式學習,可以讓學生在掌握理論知識的基礎上,進一步提升分析問題和解決實際問題的能力,進一步適應大數據時代數據分析師的職業要求.
關鍵詞:統計學;數據挖掘;實驗教學;數據分析師;項目式學習
1引言
2016年美國統計協會(AmericanStatisticalAsociation)對統計學的內涵給出一個較為簡潔的說明,將統計學定義為:“thescienceoflearningfromdata”,即從數據中學習的科學[1].該定義實際上與數據科學(DataScience)的內涵如出一轍.筆者以為ASA之所以對統計學做出這樣的內涵解釋,實際上表明在大數據浪潮中,統計學正走在變革的道路上.大數據時代,數據的產生、收集、分析與應用等環節都發生著深刻的變化.互聯網技術的高速發展使每個人成為數據的生產者,數據生產已經突破了時間、地點的限制,數據量也由抽樣數據向大數據轉化;數據的存儲類型由紙和筆記載的關系型結構化數據向半結構、非結構和異構的網絡數據類型轉化;數據的采集由根據統計分析目的的調查式收集向基于大數據技術的自動化采集方法轉化;數據的分析由傳統的驗證型分析方法向探索型分析方法轉化;數據的應用由輔助管理決策向引導變革轉化.以上變化正在重塑數據分析流程,而數據分析模式的變革必然引起教育模式的改革.事實上,在大數據洪流的沖擊下,統計學專業的人才培養模式已經悄然發生變化.當前,統計學專業融合大數據、計算機、人工智能等相關學科知識,引導學生認識和掌握數據處理的新技術,推動交叉學科應用型人才的培養,已經成為共識.其中,在統計學專業課程體系中引入數據挖掘課程就是典型的代表.數據挖掘技術在一定程度上彌補了傳統統計分析方法的不足,可以進一步增強學生探索性數據分析的能力,更加適應大數據時代的需求.與統計學強調推斷理論和方法不同,數據挖掘強調經驗,著重于從數據中挖掘有用的模式和價值,只要能夠有效地解決問題,方法和模型本身并不重要.因而,筆者認為數據挖掘課程能夠拓展統計學專業學生數據分析的思路和方法,進一步加深對數據分析內涵的理解.由此,本文致力于探索大數據背景下統計學專業數據挖掘實驗課程教學模式,以提升統計學人才實踐應用能力,使其不斷適應大數據分析的需求.
2大數據時代市場對應用型統計人才的新需求
數據分析師是統計學專業大學生畢業后的主要職業選擇之一.數據分析師是指在不同行業中,專門從事數據搜集、整理、分析,并依據數據做出行業或市場研究、評估和預測的專業人員;是以實際數據為依據,對項目現狀及遠期進行統計、分析、預測并轉化為決策信息的專業人才[2].為了客觀分析大數據時代應用型統計人才需具備的知識、能力和技術,本文通過智聯招聘網對企業公布的數據分析師職位招聘信息進行了調研,這些招聘信息都是面向應屆本科畢業生的,具有較強的針對性,調研時間為2018年8月3日.本文調研了七家上市公司[3],有國企事業單位、互聯網公司、金融公司、網絡游戲公司、網絡媒體公司等,各公司對數據分析師的崗位職責、知識要求、能力要求和技術要求見表1所示.從數據分析師的崗位職責來看,不同類型的企業雖然具體要求不同,但是核心職責是相同的,主要有三個方面:負責業務部門的數據需求分析,也就是通過調研了解業務部門的需求,確定數據分析對象和目的;構建業務數據分析指標體系,即如何開展數據分析工作,確定數據采集、處理和分析及結果解讀等環節的指標、方法、模型及數據分析工具等;為業務部門提供數據決策支持,包括撰寫調研報告、數據分析報告及設計數據產品和開發數據分析工具等等.從崗位職責的核心要素來看,數據分析師是非常契合統計學專業的人才培養目標的,從調研到設計到分析到結果解讀,是數據分析的一個完整流程.但是,也可以看出很多企業在數據分析中特別強調了數據挖掘方法,如北京計算機技術及應用研究所強調用戶行為挖掘和個性化推薦、金融界強調用戶行為數據和網絡日志數據挖掘,而這些都不是傳統統計學分析方法的范疇.從知識要求來看,大部分企業都要求數據分析師具有統計學專業背景,但互聯網公司特別強調統計學、數學和計算機的交叉和融合.實際上,數據分析師作為復合型人才,除了掌握必要的統計分析理論和方法外,數學建模和編程能力都是必不可少的.從能力要求來看,較強的數據敏感度和清晰的邏輯思維能力是核心要素.其次,從業務來看,數據分析師需要同不同的部門打交道,溝通協調能力和團隊協作能力也是必不可少的.從技術要求來看,大部分企業都要求數據分析師至少要掌握一種統計分析軟件,如SPSS或MATLAB;至少要熟悉一種編程語言,如Python或R;至少要掌握一種數據庫技術,如MySql/Oracle/SQLServer等,最簡單的是excel.在高校及商業統計分析領域,R語言是當前最受歡迎的統計編程語言之一.綜合以上分析可以得出,統計學專業的學生要想成為出色的數據分析師,除了具備堅實的統計學理論和方法外,還需要具備良好的計算機能力,如數據庫技術和編程能力.更重要的是,數據挖掘方法與技術作為大數據技術的基礎已經成為數據分析師必備的技能,也是企業招聘時重點關注的技術.
商業銀行大數據審計難點與對策
一、商業銀行大數據審計分析的難點與挑戰
(一)數據獲取難度大,大數據分析有時成為?!盁o米之炊”商業銀行內部審計大數據分析雖然起步較早,但受理論儲備和科技投入等因素的影響,普遍缺乏高效的數據分析接口,數據需求得不到有效滿足,審計部門常常面臨“無米下鍋”的窘境。一是數據來源系統雜。商業銀行信息化建設歷史較長,經過長期發展,各銀行均建立起龐大的信息系統。為迎合業務發展需要,許多商業銀行將系統建設職責按業務條線進行了劃分,而系統整合不夠充分,客觀上造成了系統林立而數據隔絕的問題。例如,大型商業銀行的系統數量可達千余個,涵蓋銀行各業務條線。由于受部門銀行等不利因素影響,各條線單獨采集和加工數據,部分系統間機構樹、客戶編碼等基礎數據還不統一,給系統間數據交互造成障礙。目前,大多數商業銀行都建立了企業級數據倉庫,但數據完備程度仍有待提升,新系統數據入倉速度也不能滿足審計時效的要求。二是數據類型樣式多。傳統數據分析方法主要是對結構化數據的分析。大數據理論豐富和普及了對數據類型的認識,將網頁、日志文件、搜索索引、社交媒體、電子郵件、辦公文檔、影音文件及傳感數據等多種類型數據都納入分析。商業銀行內部審計多年來在結構化數據采集和存儲方面積累了一定的經驗,但對非機構化數據的處理仍處于起步階段。三是數據安全影響大。商業銀行就像一架強大的數據加工機器,不但收集了客戶的多維度關鍵信息,也通過交易結算生成了海量行為數據。這些數據有的受到國際組織或他國監管機構關注,有的屬于我國政府監管重點,有的是銀行內部數據,敏感性強、受保護程度高。如歐盟《通用數據保護條例》(GDPR)被稱為史上最嚴厲的個人數據保護法,對觸犯法規的處罰上限是“兩千萬歐元或企業年度全球營業額的4%”,也會給企業聲譽帶來重大風險。從當前實踐來看,覆蓋數據采集、加工和應用全鏈條的數據安全機制還不夠完善,出于安全需要,商業銀行大多被動采取限制使用策略,數據需求普遍得不到充分滿足。隨著全社會數據安全意識的提升,數據獲取難度將不斷加大,一定程度上對數據使用產生了障礙。四是數據申請鏈條長。內審部門根據審計項目需要,常常需要分析不同業務條線、不同系統的數據。審計數據需求涵蓋范圍廣,時效性強。而現有數據申請機制,常常需要與業務部門、數據管理部門、數據加載部門和數據維護部門等多部門進行協商,溝通協調成本較高。即使審批通過,還需經歷數據采集、上傳、加載等技術流程,從數據申請到數據獲得耗時較長,缺乏一站式便捷的數據應用接口。五是數據存儲空間不足。從當前應用實踐來看,商業銀行內審部門主要采取兩種方式實現審計數據分析。一種是直接訪問數據倉庫。該方式的優點是數據通道相對貫通,數據獲取難度小,但出于安全性和效率性考慮,數據倉庫往往無法支持較多用戶同步訪問,系統并發任務受限,不能滿足審計業務需要。另一種是將審計需要的數據遷移至審計數據庫。該方式的優點是數據庫獨立,數據管理的自主性強,但也給審計部門賦予了本不擅長的數據管理職責。有的商業銀行審計數據庫達到幾百T的規模,由于存儲資源不充分,數據管理機制和手段不完善,該類審計數據庫時常面臨存儲結構不合理和存儲空間不足的問題。(二)原始數據不夠規范清晰,數據含義難以理解。商業銀行內部審計大數據分析一項顯著的特色就是可以從數據源頭著手分析,通過對未經加工和清洗的原始數據進行比對,找出問題疑點線索。應用這種數據分析方式,需要對原始數據有較深入的理解。而在當前數據的設計初衷、采集方式和服務流程等方面,均對數據的認識和理解存在不利因素。一是數據和業務不易對應。當今商業銀行信息化程度之高,各類業務鮮有不通過信息系統管理和作業的。在這一發展態勢下,銀行的各類業務都在系統中留有痕跡,有具體的數據體現。國外大型咨詢公司曾估算,銀行每創收100萬美元,平均產生820GB數據,數據量級高居各行業之首。但長期以來,有的商業銀行系統建設重開發、輕管理,存在不重視數據資產的傾向,數據管理不夠規范,從數據還原業務場景存在一定困難。二是數據間關系較難建立。按照關系型數據庫的設計規范,商業銀行數據庫通常遵從一定的范式要求,范式越高數據庫冗余越小。但范式要求會拆解原有數據的業務邏輯,審計數據分析過程中需要重建數據間關系,還原業務邏輯。而數據間關系的信息專業性較強,審計存在一定的技術障礙。三是數據字典難以獲取。數據字典是理解數據的重要文檔,因此,數據字典往往作為商業銀行的重要數據進行保管。各家銀行數據文檔管理的規范程度不同,有的商業銀行缺乏對數據字典的統一管理,版本更新也不夠及時。內部審計在獲取數據字典的過程中存在不小的困難。(三)數據分析能力與手段不足。數據應用是體現數據價值的關鍵環節。當前商業銀行內部審計無論在技術手段,還是分析結果方面,數據應用能力與水平都有較大的提升空間。一是數據分析方式方法比較單一。當前商業銀行內部審計主要采用傳統的SQL聯機數據分析手段。該數據分析方法往往從真實業務場景出發,分析違規業務的數據特征,通過賬表拼接和統計分析,按照業務規則和風險規律,揭示問題線索。該方法直觀性強,容易理解,但對業務規則的依賴程度較高。數據分析過程中,有時很難提出有針對性的業務規則,有時提出的規則準確性較低,由此造成SQL聯機數據分析的覆蓋面不全、準確性不高。目前,該方法仍然在商業銀行內部審計大數據分析中扮演重要角色,分析技術難以取得顯著突破。二是數據分析技術在內部審計方面的應用場景缺乏?;跀祿诰蚝蜕疃葘W習理論的大數據分析技術,以概率論為基礎,重視對事物相關性的分析,在客戶營銷和風險管理等方面都有比較成熟的應用。但商業銀行內部審計以問題為導向,重視對普遍性和典型性問題的揭示。由于審計發現問題往往涉及責任人認定和處理處罰,客觀要求問題指向的確定性較強,由此也影響了大數據分析技術在內部審計中的應用。三是數據分析結果精確性不足。當前商業銀行內部審計主要從業務特征入手開展數據分析,業務特征難以做到窮盡,許多業務特征也沒有具體的數據表現,因此審計部門往往只能在有限的業務范圍內,鎖定風險點的個別特征。這些特征有的屬于風險點的非充分特征,不能直接認定違規線索,由此推斷出的問題疑點精準性不高。
二、商業銀行內部審計應對大數據挑戰的策略
(一)建立審計大數據架構體系,實現數據可獲得。采集數據是大數據應用的第一步,也是開展大數據分析的基礎。貫通高效的數據獲取途徑,建設多層次、多維度數據架構,是大數據應用成功與否的核心(見圖1)。一是以原系統數據為基礎,滿足臨時性數據需求。審計大數據必須打通與原系統數據的通道。審計數據分析非常注重對原汁原味數據的挖掘,一是因為原系統數據沒有經過清洗,更能體現業務的貌;二是審計的靈活性決定了數據分析的不確定性,審計數據分析常常會對個別系統、個別數據進行臨時提取和分析。建立與原系統數據往來的“高速公路”,支持靈活、及時、便捷和高效的數據訪問,是審計大數據分析的基礎和保障。二是以數據倉庫為核心,解決審計數據分析業務覆蓋面的問題。數據倉庫存儲全行主要系統數據,并往往按照一定的業務邏輯進行清洗和加工。與數據倉庫建立高效的數據傳輸和訪問機制,能夠有效降低審計數據庫資源占用,提高數據組織效率。審計對倉庫數據的使用,也可以從運用的角度推動倉庫豐富數據來源,提升數據倉庫建設水平。三是以數據集市為抓手,滿足常規審計數據分析需求。在原系統和數據倉庫之上,建設不同主題的數據集市,每一主題下分別按照業務規則還原業務場景。大多數情況下,可以不再從原系統開始拼接數據,而是直接使用集市數據開展分析,降低了數據分析門檻,提高了數據分析效率。四是以外部數據為補充,擴展數據種類和來源。大數據環境下,數據的特點表現為大、多、廣。大就是數據量大,多是指數據種類多,廣則是指數據來源豐富。目前業內比較成熟的大數據應用,正是體現了數據廣的特點。比如,統籌客戶消費、信用、司法、海關、工商等多渠道信息,通過相互印證和比對,全面反映客戶狀態和質量,實現對客戶的完整畫像。廣闊的數據來源,為審計大數據分析提供了更多方向和可能。(二)搭建完善的模型體系,滿足數據可理解。模型是商業銀行大數據分析的主要抓手。多層次、多維度的審計模型體系,體現了內審部門對商業銀行業務風險的理解和認識。模型體系是否完善,決定了審計數據分析的能力和水平。按照使用場景的不同,審計模型可分為基礎模型、分析模型和特征模型三類(見圖2)。一是利用基礎模型,重現業務場景?;A模型是審計模型體系的基礎,通過重現業務場景,在審計數據分析中發揮前端和接口作用,模型結果主要存放在數據集市中。系統建設往往涉及多個模塊和環節,對每一節點數據的理解常常分散于各開發人員,審計人員在審計項目有限的時間范圍內,很難對原始數據形成深入理解。建設基礎模型,就是在原始數據之上,通過梳理表間關系、字段含義,還原業務鏈條,重現業務場景,建立可理解程度高的中間數據模型,供各類數據分析場景使用。二是利用分析模型,展現業務短板和經營風險。分析模型是在基礎模型之上,建立對某一機構、某一產品或某一客戶的多維度分析。分析模型可以體現業務的發展脈絡和未來趨勢,也可以展現業務的集中程度和分布規律,還可以與某一標準進行比對,查找過度和差距。分析模型通常思路相對固定、編碼相對成熟,審計分析模型也可以借鑒業務部門的經驗,通過逐步積累,豐富分析維度,實現對機構、產品和客戶的全覆蓋。該類模型對制定審計計劃、確定審計重點都是非常重要的參考。三是利用特征模型,鎖定問題線索。特征模型是針對某一業務風險點的具體分析。特征模型的編制主要來源于審計業務實踐,如制度文件、審計案例等。特征模型的結果直接指向具體審計樣本。與分析模型主要解決面和線的問題相比,特征模型更加注重對點的分析。特征模型的豐富與否,體現了審計對業務風險的刻畫能力。(三)采用多種分析手段,達到數據可運用。魔高一尺,道高一丈。在傳統審計數據分析思路和手段逐步透明化的背景下,沿用傳統方法發現審計疑點線索的難度正在不斷加大,迫切需要豐富審計數據分析手段,通過維度變化揭示舞弊和違規。一是通過統計匯總,實現歷史數據積累。對成熟的特征模型,實現定期自動運行,形成區分時段和時點的風險特征線索。對線索記錄進行累積,直觀展示違規數量、金額等量化指標,展現特征的集中程度,反映業務風險的聚集水平。二是通過大數據分析技術,發現數據背后隱藏的相關性規則。傳統的審計數據分析,主要是從業務實際出發,梳理業務規則,首先完成業務建模,再根據業務模型的數據映射,通過數據關聯和拼接,完成數據建模。當前應用比較廣泛的大數據分析技術與此相反,往往從數據特征出發,將數據特征投入成熟的算法,首先形成數據模型,再憑借業務經驗對模型結果進行解讀,提煉業務模型。大數據分析技術與傳統方法相比,主要依靠數據說話,能夠挖掘業務數據的深層規律,從而發現傳統方法難以鎖定的問題,揭示非常規風險。三是通過可視化技術,直觀展示分析結果。多種數據類型、多個數據來源渠道納入審計數據分析范圍,必然帶來分析結果的多樣化,也會帶來結果數量的膨脹。審計數據分析的目的是面向應用的、不直觀、不易理解、數據量龐大的結果數據,一定會影響疑點線索的應用??梢暬治黾夹g是以可視技術和自動化分析技術為核心,支持對大規模復雜數據進行分析的技術方法??梢暬淖詣咏<夹g將大數據以直觀的圖形形式展示,審計人員可以直觀發現數據背后的信息。因此,審計數據分析應有效引入文本可視化、網絡可視化、時空數據可視化、多維數據可視化等多種技術,打通數據的最后一公里,提升分析結果的直觀性,促進分析結果的有效應用。
總之,對商業銀行內部審計來說,大數據是一種技術,也是一種模式,更是一種思想。大數據浪潮滾滾而來,涉及商業銀行的方方面面,內審部門除技術層面外,還要從組織方式、工作模式、業務流程和人員構成等多個方面主動變革,適應未來審計業務發展的需要,進一步發揮內部審計在商業銀行經營管理、風險合規和績效發展等多方面的獨特作用。
作者:曹軼 單位:中國農業銀行股份有限公司審計局
大數據分析技術在安全領域的運用
1安全大數據分析
大數據分析技術給信息安全領域帶來了全新的解決方案,但是如同其它領域一樣,大數據的功效并非簡單地采集數據,而是需要資源的投入,系統的建設,科學的分析。Gartner在2013年的報告中指出,大數據技術作為未來信息架構發展的十大趨勢之首,具有數據量大、種類繁多、速度快、價值密度低等特點。將大數據技術應用與信息安全領域可實現容量大、成本低、效率高的安全分析能力。
1.1信息安全分析引入大數據的必要性
大數據具有“4V”的特點:Volume、Variety、Velocity和Value,可實現大容量、低成本、高效率的信息安全分析能力,能夠滿足安全數據的處理和分析要求,將大數據應用于信息安全領域能夠有效的識別各種攻擊行為或安全事件,具有重大的研究意義和實用價值。隨著企業規模的增大和安全設備的增加,信息安全分析的數據量呈指數級增長。數據源豐富、數據種類多、數據分析維度廣;同時,數據生成的速度更快,對信息安全分析應答能力要求也相應增長。傳統信息安全分析主要基于流量和日志兩大類數據,并與資產、業務行為、外部情報等進行關聯分析?;诹髁康陌踩治鰬弥饕◥阂獯a檢測、僵木蠕檢測、異常流量、Web安全分析等;基于日志的安全分析應用主要包括安全審計、主機入侵檢測等。將大數據分析技術引入到信息安全分析中,就是將分散的安全數據整合起來,通過高效的采集、存儲、檢索和分析,利用多階段、多層面的關聯分析以及異常行為分類預測模型,有效的發現APT攻擊、數據泄露、DDoS攻擊、騷擾詐騙、垃圾信息等,提升安全防御的主動性。而且,大數據分析涉及的數據更加全面,主要包括應用場景自身產生的數據、通過某種活動或內容“創建”出來的數據、相關背景數據及上下文關聯數據等。如何高效合理的處理和分析這些數據是安全大數據技術應當研究的問題。
1.2安全大數據分析方法
安全大數據分析的核心思想是基于網絡異常行為分析,通過對海量數據處理及學習建模,從海量數據中找出異常行為和相關特征;針對不同安全場景設計針對性的關聯分析方法,發揮大數據存儲和分析的優勢,從豐富的數據源中進行深度挖掘,進而挖掘出安全問題。安全大數據分析主要包括安全數據采集、存儲、檢索和安全數據的智能分析。(1)安全數據采集、存儲和檢索:基于大數據采集、存儲、檢索等技術,可以從根本上提升安全數據分析的效率。采集多種類型的數據,如業務數據、流量數據、安全設備日志數據及輿情數據等。針對不同的數據采用特定的采集方式,提升采集效率。針對日志信息可采用Chukwa、Flume、Scribe等工具;針對流量數據可采用流量景象方法,并使用Storm和Spark技術對數據進行存儲和分析;針對格式固定的業務數據,可使用HBase、GBase等列式存儲機制,通過MapReduce和Hive等分析方法,可以實時的對數據進行檢索,大大提升數據處理效率。(2)安全數據的智能分析:并行存儲和NoSQL數據庫提升了數據分析和查詢的效率,從海量數據中精確地挖掘安全問題還需要智能化的分析工具,主要包括ETL(如預處理)、統計建模工具(如回歸分析、時間序列預測、多元統計分析理論)、機器學習工具(如貝葉斯網絡、邏輯回歸、決策樹、隨機森利)、社交網絡工具(如關聯分析、隱馬爾可夫模型、條件隨機場)等。常用的大數據分析思路有先驗分析方法、分類預測分析方法、概率圖模型、關聯分析方法等??墒褂肕ahout和MLlib等分析工具對數據進行挖掘分析。綜上,一個完備的安全大數據分析平臺應自下而上分為數據采集層、大數據存儲層、數據挖掘分析層、可視化展示層。主要通過數據流、日志、業務數據、情報信息等多源異構數據進行分布式融合分析,針對不同場景搭建分析模型,最終實現信息安全的可管可控,展現整體安全態勢。