證券行業數據應用論文

時間:2022-03-29 04:56:00

導語:證券行業數據應用論文一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

證券行業數據應用論文

一、前言

數據挖掘(Datamining)或稱為知識發現已經成為許多使用者從浩如煙海般的數據中提取有用信息,并贏得競爭勝利的第一號秘密武器。數據挖掘是指在對大量的企業歷史數據進行探索后,揭示出其中隱藏著的規律性內容,并且由此進一步形成模型化的分析方法。通過數據挖掘還可以建立起企業整體或某個業務過程局部的不同類型的模型。這些模型不僅可以描述企業當前發展的現狀和規律性,而且可以用來預測當條件變化后可能發生的狀況。這可以為企業開發新的產品和服務、甚至于為企業機構的重組提供決策支持依據。

百事通

證券市場存在巨大的風險。證券公司應該能夠給自己的客戶提供大盤及各股的未來走勢的信息,給客戶的投資、選股提供有價值的參考,盡可能地回避風險。更何況,大多數證券公司本身就是證券的投資者。股票價格的變動受多方面因素的影響,而證券投資分析的方法很多,并且一般分為:技術分析和基礎分析兩類,可以說在證券行業的應用分析是一門十分龐大、復雜的研究課題。

在這個方案里,我們使用證券的數據和數據挖掘產品OpenMiner1.0.1,作為拋磚引玉,分別對客戶關系管理、技術分析和基礎分析三個大的應用方向給出了數據挖掘的例子,更多的內容請參考。

二、客戶關系管理:利用聚類做客戶行為分析

1、目標

用客戶交易數據統計出每個客戶的交易情況,根據客戶行為進行聚類。通過對客戶數據進行聚類,將客戶進行分群,考察每類客戶的對證券公司的貢獻情況,這樣可以根據客戶的產生類別的交易行為等其他特點知道該類用戶是否對公司最有價值,并且證券公司根據客戶行為的特點對貢獻度大的客戶類采取相應的政策照顧,并且還能吸引某些行為類似的貢獻度較低類的客戶發展為較高貢獻的客戶。

2、數據解釋

對交易數據(變量描述如表1)進行數據總結,生成客戶股票交易行為數據表,變量描述如表2。使用的數據包括股民代碼,買賣股票的最大、最小數量/金額,平均價格,總金額等。

3、步驟

我們使用數據挖掘的聚類算法,聚類數為4,聚類準則采用Newton。

4、模型結果

聚類后給數據集增加了一個新的類別變量,標志客戶所屬的類別。

5、應用評估

從表4可以看出第二類客戶買賣的股票種類比較多,交易頻繁,成交金額大,是公司的大用戶,人數雖少但需要精心對待。第四類交易次數雖然排名第二與第一相比相差6、7倍,是對公司貢獻率第二大的類別,并且人數是第二多的,與貢獻最多的類別相比只是交易次數少,通過提高服務等內容吸引他們多做交易,從而提高公司收益。

第一類買賣股票的平均價格最低,買賣的股票種類比較少,是對公司貢獻率第三大的類別,并且人數是最多的,是證券公司主要的客戶群,并且由于行為特點與公司貢獻第二大類的用戶比較相近,只是賣的少買的多,通過提高服務等內容吸引他們往公司最有利的行為轉變。第三類客戶買賣的股票種類少,但買賣股票平均價格比較高,交易次數少,看來主要做高價股,需要多提供高價股的信息吸引更多的交易,從當前對公司的貢獻程度看是最少的。

此外,如果我們補充對客戶基本信息(如年齡,開戶等)的分析,還可以得出更有效的信息。

三、股市技術分析:利用時間序列預測股票價格

1、目標

數據挖掘是對大量的歷史數據進行處理和分析,提煉出有價值的信息(表現為規則、模型等模式信息)。其中的時間序列模型,可以用于股票價格的預測。

2、數據解釋

我們使用的數據是東大阿爾派(600718)在半天的變動情況做短線分析,此外又使用從1996年5月-1999年5月的日交易歷史數據做做日線分析。數據內容包括股價的時間和當前價格。

3、步驟

數據處理:提取中各股的歷史數據,確定時間序列的窗口長度為8(經過多次試用得到效果較好)。在OpenMiner1.0.1中建立工程,流程圖如下:

4、模型結果

5、應用評估

股票日價格預測的效果比較好,基本反映了實際的變化趨勢。短線價格預測的效果差一些,原因之一是指標值的分布比較集中。另外的原因是由于國內股票價格有10%的停板限制,這樣股價變化幅度不是很大,相對比較穩定。而我們所采用的模型實際是針對穩定模型的,故此效果比較好。對于非穩定模型(一般股價變化應是這種情況),我們可以手動做差分來解決這個問題,由于這個過程比較需要時間,在這個方案里沒有做實現。

四、股市基本分析:利用決策樹等預測

1、目標

基本分析家假設:任何金融資產的"真實"價值等于這項資產的所有者的所有預期收益流量的現值。具體地說,分析家不僅需要預測折現率,而且還必須預測這種證券的每股平均收益和派息率。證券的真實價值一經確定,就可以用來與這種證券的市場價格進行比較,從而鑒別這種證券的定價是否恰當。

并在真實價值低于市場當前價格,那么該證券是被價值高估了,應該賣出;如果證券的真實價值高于市場當前價格,那么該證券是被價值高估了,應該買進。具體的分析策略包括宏觀經濟信息、產業分析與區域分析和公司分析幾類。

從上面可以知道,宏觀經濟信息、產業、地區和公司的基本信息對股票價格有關系的。在我們的方案里,我們使用數據挖掘的辦法來描述這種數據間隱藏的規律,根據證券的發行特征尋找它與實際價格的基本規律,并且我們根據這個規律對未知真實價格的股票(新發行的股票)進行預測。

2、數據解釋

從統計的觀點來看,股票的真實價值可以用價格的平均值來估計。在這個模型里,由于數據的問題,股票的實際價格的平均值不能得到,我們采用某一天的股票的開盤價作為估計值,這樣的估計值雖然比股票年平均值差,但也是一種可以使用的估計值。

3、步驟

這個方案里我們使用數據挖掘的決策樹算法。

4、模型結果

是決策樹的訓練集分類結果信息。表的首列表示實際值,冒號之前的表示類別號,冒號之后表示取值的范圍;因為其中股價從44到47.667沒有數據,因此沒有類別號為13的類,這樣共13個區間。表的首行表示預測值,其取值范圍與實際值是相同的。表內的值表示預測的數目,注意對角線的值是預測正確的值的數目。

從結果看,對角線上的值是同列最大的,但是最低的正確率才是39%;而如果加上臨近一行的值,那最低正確率就可以到79%,這點從列的角度來看也是相同的。這可以表示為訓練模型是有規律的,但是分類的情況不是很好,或者說如果我們調整分類的方法,精度是可以提高的;而且預測的誤差范圍是4元的話,就可以把最低正確率提高到79%。而股價超過30的精度就很差了,這是由于所謂的高科技股,而我們的數據沒有這部分內容就無能為力了。

是決策樹的征實集分類結果信息,結構同表8。從結果看,最明顯的是效果不如訓練集,而股價超過20的精度就很差了,這同樣是因為而我們的數據沒有包含行業和地域信息。如果只考慮股價低于20的,訓練集的特點完全保留。

5、應用評估

由于數據的問題,我們不能得到可用的行業、地域信息(或者是綜合而成的板塊信息),這對算法的精度造成較大的影響。但是我們也可以利用股價及股價的變化情況使用聚類算法產生新的板快信息標識,而用這個標識可以較好的提高算法的精度。此外,我們可以改變一下離散化的方法,也會比較大的提高算法精度。

五、結束語

我們所用的方案只是代表幾類模型,這些辦法可以應用到類似地多種股票價格預測情況。例如,對預測新股上市我們還可以增加開盤大盤的指數,然后預測新股上市一周后的價格。從這些數據挖掘模型的結果分析來看,的確是有規律、有價值、有實際意義的。以上的方案都是在OpenMiner的基礎上實現的,東軟集團中間件技術分公司還可以提供更進一步的方案。