高校財務樣本數據庫研究

時間:2022-07-20 03:36:33

導語:高校財務樣本數據庫研究一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

高校財務樣本數據庫研究

摘要:研究了大數據算法在高校財務數據分析中的應用,提出了基于水庫抽樣算法建立樣本數據庫的方法,結果表明:基于水庫抽樣算法建立樣本數據庫,能夠大幅縮短建立時間、系統開銷小、且建立完成后其內部數據具有良好的均勻特性,可有效解決傳統高校財務管理中基礎數據樣本生成時間長、開銷大、分布不均勻的缺點,提高了財務基礎數據分析質量,推動了高校財務管理工作的發展.

關鍵詞:大數據;高校財務;數據分析

大數據對高校財務管理的影響比較廣泛而深遠,它將有利于高校的資源配置,強化高校全面預算管理,加強成本核算意識,同時提高資金使用效益,防范財務風險,使高校側重預算編制和結果分析的財務管理向業務全過程的財務管理轉變,實現高校財務管理新變革[1-8].大數據為高校財務管理帶來變革的關鍵特性之一是其預測性作用,傳統財務利用財務報表和人為經驗為高校財務管理者提供決策依據,隨著海量數據的產生,此種方式已不能在合理的時間范圍內產生合理性的判斷依據,遠不能達到目前高校財務管理精細化要求,更偏離信息化時代所強調的信息支持決策的發展方向[9-13].從目前高校財務管理實際來看,基礎數據的分析是關鍵,而數據更新及時、均勻特性好的樣本數據庫是進行分析的前提條件.但由于受到高校財務數據多等因素限制,傳統財務的線性掃描處理方法無法對基礎數據進行快速均勻的抽取處理,導致了高校財務數據分析工作上的困難,不利于高校財務管理工作的開展.應用大數據對數據進行全面分析,遵循的是每件事情都有跡可循,找到事物變化的規律,能夠更好地對高校資源籌劃、資本運營、資產管理以及當前辦學和長期的規劃進行預測,把握高校發展方向,使教育產出能更好地適應市場需求,合理配置資源,提高經濟與社會效益,實現高??缭绞娇沙掷m發展.大數據技術的出現,為高校財務數據分析工作提供了新的技術手段,文中將大數據算法與高校財務數據分析進行結合與應用,在保證速度的前提下,建立具有良好均勻特性的樣本數據庫.

1樣本數據庫

11數據庫構架

數據挖掘與分析是大數據在教育領域中的應用之一,其主要作用是進行預測分析、行為分析、學業分析等的應用和研究.其中財務數據分析能夠為學生心理健康、獎優助評、貧困生關懷、個性化就業等領域提供數據參考.為了實現數據的有效收集,應建立財務基礎數據樣本數據庫,為下一步數據分析提供有力支持,其總體架構為:傳統財務通常利用線性掃描與隨機選取的方法進行樣本數據抽取,抽取過程中需要將所有數據加載進內存或緩存,同時在索引遞增的同時利用隨機函數生成索引用于確定抽取元素.數據加載和隨機索引生成帶來了大量的系統開銷,同時如果隨機算法的選擇并不優秀,還會導致樣本的重復概率增加.為解決上述問題,文中利用水庫抽樣算法作為樣本數據抽取的基礎算法,該算法打破了傳統財務線性的時間處理局限,在未損失精度的前提下,提供傳統財務所不能提供的海量數據樣本生成能力.樣本數據庫除了數據抽取功能之外,還要求具有數據的統計分類和序列化功能.對樣本數據進行統計分類可以實現按類別和權重的樣本抽取,從而豐富大數據分析的手段.同時通過對樣本數據進行統計分類,還能解決基礎數據的序列化問題.序列化通過為分類數據添加指定索引,可以大大提升數據的檢索速度和準確性.所以,做好樣本數據的統計分類,并按照財務管理信息類別對基礎數據進行合理的序列化對數據處理是十分必要的.對樣本數據進行分類和序列化之后,可對每一類數據進行必要的統計,總結樣本數據特點,把握樣本數據處理原則,提高樣本數據的處理質量.

12數據庫數據樣本處理流程

數據樣本處理流程為:

2數據庫抽樣算法及其改進

21數據庫線性抽樣算法

在盡可能快的時間內,對基礎數據庫中的學生進行盡力均勻抽取,形成樣本用于數據分析.盡力均勻抽取意味著盡力保證每個學生被抽為樣本的概率是相同的.輸入:基礎數據庫中的學生數據.輸出:這組數據的k個均勻取樣.

22水庫抽樣算法定義

針對應用情景,可以利用水庫抽樣算法進行樣本抽取,該算法的特征為:1)抽取時限要求較高,且數據只掃描一次.2)利用計算機資源有限,只為用戶想要獲取的k個取樣分配內存空間用于計算.3)掃描前n個數據時,已保存的k個取樣是均勻抽取的,隨著n的增長,k個取樣的隨機性一直不變.算法定義為:1)申請一個長度為k的數組A保存抽樣.2)保存首先接收到的k個元素.3)當接收到第i個新元素t時,以k/i的概率隨機替換A中元素.

23改進算法均勻性證明

該算法的取樣是均勻的,在任何時候接收到大于k的n個數時,選出的k個數一定是已掃描數據中的均勻抽?。寒斀邮盏降趇+1個數時,第i個數能保存在數組中的概率為1-1i+()1,因為在接收到第i+1個數的時候要以ki+()1的概率隨機替換.而第i個數被選中的概率是1k,他們相乘為1i+1,1i+1就是第i個數被換出數組的概率.所以1-1i+()1就是在接收i+1個元素時,第i個數在數組中的概率.同理在接收第i+2個數時,第i個數仍然保存在數組中的概率為1-1i+()2,以此類推,接收第n個數時,第i個元素仍保存在數組中的概率為1-1()n,如果上述事件都發生,那么在接收第n個數時,第i個數才能保存在數組中,因此它保留在抽樣數組中的概率是這些時間發生概率的積,就是k()i×1-1i+()1×1-1i+()2×…×1-1()n=kn.

24算法實現

算法實現的偽代碼為:初始化:A[k]←;處理j:foreachi≠EOFdoifi<kthenA[i]←value(i)elsej=random(1,i)ifj≤kA[j]←value(i)i←i+1

3實證結果分析

財務流程中,對于業務數據的時效性有較高要求,處理算法的優劣直接影響執行算法主機的系統開銷,從而影響整個財務流程的運轉速度.為對比傳統線性掃描算法和水庫抽樣算法的系統開銷,對兩種算法進行了程序實現,設定樣本規模為3000并進行了樣本抽取,2種抽取算法帶來的系統開銷對比如圖(3)所示,可見傳統線性掃描隨數據量級的上升系統開銷不斷增大,而水庫抽樣則穩定在樣本規模時的臨界值.傳統的利用隨機數確定抽樣元素,隨機函數利用時間等作為種子產生隨機數,雖保證了隨機性,但不能保證樣本抽取的均勻特性,而水庫抽樣彌補了傳統方法的這個缺陷,圖(4)展示了部分抽樣結果.

4結語

大數據環境中,高校財務數據的數量級不斷提升,因此基礎數據的分析成為難點.而樣本數據庫作為基礎數據分析的必要支撐,其建立生成尤為重要.通過本文的分析可知,大數據技術的出現,給了均勻、快速的樣本生成以新的手段支持,為在允許的時間與精度范圍內的分析提供了依據.本文提供了基礎數據樣本數據庫的建立思路,在樣本數據庫的基礎上利用水庫抽樣算法進行抽樣,作者對上述思路進行了程序實現并提供了試驗結果.該應用手段解決了高校財務管理中基礎數據樣本來源困難,提高了財務基礎數據分析質量,豐富了高校財務分析工作手段.

作者:陽靈芬 于志強 單位:昆明醫科大學 云南民族大學

參考文獻:

[1]韓丹丹.大數據時代下高校財務管理如何做好基礎數據的分析[J].財務管理,2015(18):82.

[2]黎羊.基于高校財務管理問題的調查與對策研究[D].長春:吉林大學,2014:10-20.

[3]薛硯丹.基于決策樹算法的高校財務管理與決策分析研究[D].銀川:寧夏大學,2015:4-11.

[4]王宏志.大數據算法[M].北京:機械工業出版社,2015:29-57.

[5]王元卓,靳小龍,程學旗.網絡大數據:現狀與展望[J].計算機學報,2013(6):1126-1138.

[6]孫大為,張廣艷,鄭緯民.大數據流式計算:關鍵技術及系統實例[J].軟件學報,2014,25(4):839-862.

[7]楊靜,張楠男,李建,等.決策樹算法的研究與應用[J].計算機技術與發展,2010(20):115.

[8]陳東.淺談高校財務決策支持系統及其構建[J].財會通訊:綜合(上),2011(6):126-127.

[9]ELNIKETYE,ELSAYEDT,RAMADANHE.iHadoop:asynchronousiterationsforMapReduce[C]//CloudComputingTechnologyandScience(CloudCom),2011IEEEThirdInternationalConferenceon.IEEE,2011:81-90.

[10]孟濤.數據挖掘在高校財務中的應用[J].軟件導刊,2008(7):14-15.

[11]郭遲,劉經南,方媛,等.位置大數據的價值提取與協同挖掘方法[J].軟件學報,2014,25(4):713-730.

[12]王珊,王會舉,覃雄派.架構大數據:挑戰、現狀與展望[J].計算機學報,2011,34(10):1741-1752.

[13]孟小峰,慈祥.大數據管理:概念、技術與挑戰[J].計算機研究與發展,2013,50(1):146-169.