加權回歸建模管理論文

時間:2022-07-04 10:11:00

導語:加權回歸建模管理論文一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

加權回歸建模管理論文

摘要:以加權回歸估計方法為核心,對林業上常用模型的異方差性進行了研究,提出了能徹底消除異方差的最佳權函數。并對模型的評價指標進行了探討,提出了評價通用性回歸模型的3大指標,并分析了加權回歸估計與這些評價指標之間的關系。最后對樣本資料的收集進行了討論,提出了收集建模樣本應遵循的基本原則。

關鍵詞:加權回歸建模異方差模型評價

林業數表模型是森林經營決策必不可少的計量、預測、評價依據,保證模型質量至關重要,而樣本組織、模型擬合方法和模型評價是保證質量的3個重要環節。實踐證明,林業數表模型所描述的問題普遍存在異方差性,在模型擬合中若不采取消除異方差影響的有效方法,必然導致模型有偏。為此,一般可采取加權最小二乘法擬合模型,但在權函數的選擇上尚存在兩個有待進一步解決的問題:一是權函數的形式因模型所描述的事物的性質不同而異,確定最佳權函數十分繁瑣;二是到目前為止,尚未找出能完全消除異方差的權函數。本文旨在提出一種可以完全消除異方差影響的權函數通式,并給出正確評價模型的指標體系及組織建模樣本的基本原則。

1加權回歸的概念

確定變量之間的回歸關系,一般情況下是利用普通最小二乘法。假設隨機變量y~,其中,E(y)=f(x)。也就是說,隨機變量y與x滿足下列模型:

y=f(x)+ε(1)

式中的ε有3個基本假定,即“獨立、正態、等方差”,它們是采用普通最小二乘法建立回歸模型的先決條件。3個條件中的“獨立”與“正態”在一般情況下都是基本滿足的,而“等方差”這一條件,則在很多情況下都難以滿足。為解決誤差項ε的異方差性問題,應設法校正原有的模型,使校正后的模型其誤差項具有常數方差,而模型的校正取決于方差σ2εi與自變量xi之間的關系。假設εi的方差與xi的函數g(xi)呈比例關系,即:

σ2εi=g(xi)σ2(2)

這里σ2是一個有限常數。于是用去除原有模型,可使新模型的誤差項具有常數方差。用這種方法估計模型中相應的參數,叫做加權最小二乘法(俞大剛,1987)。

2權函數的選擇

2.1異方差性的基本概念

根據回歸估計理論,當建立的回歸模型的誤差項存在異方差時,必須采用加權最小二乘法來消除異方差對參數估計的影響。在林業上所涉及的許多數學模型,如材積模型、生物量模型、生長率模型、削度模型等,其誤差項的方差都不為常數,而是隨解釋變量的變化而變化(駱期邦等,1992;曾偉生等,1992;曾偉生,1996)。一般而言,模型預估值隨解釋變量的增大而增大時,其誤差項的方差也隨解釋變量的增大而增大,如材積模型和生物量模型;模型預估值隨解釋變量的增大而減小時,其誤差項方差也隨解釋變量的增大而減小,如生長率模型。在殘差圖上反映出來,二者都為喇叭型。另外,預估變量的變化范圍愈大,異方差性一般也愈明顯。因此,采用適當形式縮小預估變量的變動幅度,可在一定程度上消除異方差性。如將材積轉化為形數來建模,可將預估變量的取值大致控制在0.35~0.65的范圍,使預估值的最大相差倍數從數千倍縮小至2倍以內,從而基本上消除了異方差性。將生長量轉化為生長率再建模,也在很大程度上縮小了預估值的變動幅度,可明顯削弱其異方差性。

2.2權函數選擇的研究現狀

上面提到的一些常用模型,由于存在異方差,因此必須選用適當的權函數來進行加權回歸估計。關于這一點,近幾年已經逐步有了認識。如對材積模型V=aDbHc的估計,一般認為選用權函數W=1/(D4H2)可有效地消除異方差的影響(駱期邦等,1992);對生長率模型PV=aDbAc的估計,取權函數W=1/(D2A)效果較佳(曾偉生等,1992)。而且,還認識到了最合適的權函數是針對某一個模型而不是某一類模型(曾偉生,1992)。但是,針對一個具體的回歸模型,如何確定其最合適權函數的問題仍然沒有得到圓滿解決。

一般情況下,如果不具有異方差性形式的信息,可通過對剩余值|ei|=g(xi)進行試驗,以挑選出一種合適的擬合形式(俞大剛,1987)。另外,也有人提出直接尋找方差S2ei與自變量xi的關系式S2ei=g(xi),再以W=1/g(xi)為權函數進行加權回歸,新模型的誤差項方差S2ei就會近似為常數1。還進一步提出了較具通用性的拋物線形式的權函數,并取得了較好的效果(曾偉生,1996)。但是這樣來確定權函數,一方面比較繁瑣;另一方面也難保證拋物線形式能適合所有模型,尤其是含多個自變量的模型;再就是必須有比較大的建模樣本才可能得到誤差項方差與變量x之間的回歸關系。誠然,在此基礎上還可以作些改進,如:借鑒曾偉生文(曾偉生等,1997)中可變參數模型的設計,將狹義的拋物線形式y=a+bx+cx2擴展為廣義的拋物線形式y=a+bxn+c(xn)2(n=0.5,1,2…)以更好地適應各個模型不同程度的異方差性;從自變量集中選出最主要的變量(如材積模型中的直徑)來構造權函數等。即使這樣,效果仍然不太理想。

2.3最佳權函數的確定

前面已經提到,最佳權函數是針對某個模型而不是某類模型,即同類模型中不同的回歸方程式應有不同的最佳權函數?;谶@一認識,我們再來對一些經典模型及其合適權函數作進一步分析。

不難發現,認為以W=1/(D2H)2為權函數效果較好的材積模型V=aDbHc,其參數b、c的估計值分別接近于2和1;以W=1/(D2A)為權函數的生長率模型PV=aDbAc,其參數b、c的估計值分別接近于1和0.5。最近筆者還發現,形如W=a(D2H)b的生物量模型,取W=1/(D2H)2為權函數效果也很佳,此時b的估計值接近于1。如果定義W=1/g(x)2為權函數,因為上述模型中的參數估計值與權函數中的相應參數值接近,故模型兩邊同時除以g(x)時,右邊都近似等于參數a;若權函數中的相應參數取模型的參數估計值,則模型兩邊同除g(x)時右邊就會恒等于參數a了。更進一步,若?。?/p>

W=1/f(x)2(3)

作為權函數,則模型兩邊同除以f(x)后得到的新模型,右邊都等于1。可以證明,此時得到的新模型,其誤差項的期望值為0,方差為常數。亦即,以模型本身構造的權函數就是要尋找的最佳權函數。這剛好應證了“不同模型有不同的最佳權函數”的觀點。

該模型為:

y=f(x)+ε(4)

兩邊同時除以f(x)得新模型:

y′=y/f(x)=1+ε/f(x)=1+ε′(5)

對新模型(5)采用普通最小二乘法進行估計(相當于原有模型(4)的加權回歸估計),有:

(6)

下面討論新模型誤差項ε′的性質。

期望值:

E(ε′)=E[ε/f(x)]=E[y/f(x)-1]

由(6)式知,E[y/f(x)]=1,故E(ε′)=0。

方差:

式中f(e′i)為頻數(董德元等,1987)??捎媒颖緦ι鲜龇讲頓(ε′)作出如下無偏估計:

因此,新模型誤差項的期望值為0,其方差為常數,即對所有xi來說,每個ε′i的方差都相同;滿足等方差的條件。至此可以得出結論:以模型本身構造的權函數(3)式就是要尋找的最佳權函數。

3模型評價與加權回歸

3.1回歸模型評價指標

建立回歸模型,從一般的意義上講有以下3個目的(劉璋溫等,1983):

結構分析——對觀測數據進行分析,以便描述存在于解釋變量與目標變量之間的結構關系;

預測——以已知解釋變量的值來預測目標變量的未來值或期望值;

控制——為使目標變量的值保持在一個理想的水平上,而適當調整解釋變量中可調整的變量值。

在上述3個目的中,預測是最根本的。因為結構分析可以考慮為在更一般的條件下預測目標變量的變化問題,而控制可以考慮為針對解釋變量的不同水平來預測相應的目標變量的值,以便從中選擇最佳變量的問題。事實上,林業上的所有通用性數表的編制都可以看成是用于預測的超總體回歸模型的建立問題。如何評價這類模型的優劣,一直是林業數表領域所面臨的一個課題。

關于回歸模型評價的常用指標,包括殘差平方和Q、剩余標準差S、復相關系數R、修正復相關系數R、參數變動系數(穩定性)、殘差分布(隨機性)、參數的可解釋性以及信息量準則AIC和CP準則等(駱期邦等,1992;劉璋溫等,1983;鐘義山,1992;盛承懋等譯,1989)。除此之外,筆者認為對用于預測目的的回歸模型,尚需考慮以下4大指標:

(7)

(8)

平均相對誤差絕對值(9)

預估精度(10)

或,預估誤差(11)式中:yi為實測值;i為預估值;n為樣本單元數;tα為置信水平α時的t分布值;T為回歸模型參數個數;為平均預估值,可由f()給出。另外,因為這類回歸模型必須具有通用性質,需滿足隨自變量x從小到大時模型的上述指標應基本保持一致,所以還需分段對上述指標作出評價。

應特別強調的一點是,因為相對誤差公式一般表示為:

從而在林業應用上對(7)~(9)式過去幾乎都是寫成(預估值-實測值)/實測值,即習慣性地將實測值當成了真值。將實測值當真值正確與否,需視具體情況而定。如某一株D=20cm、H=15m的杉木,經實測其材積為0.24m3。如果用于立木材積的目測訓練,正確的做法自然是將0.24m3作為該樹的材積真值來檢測每個人的目測水平;如果是用于立木材積表的編制,則0.24m3只是滿足D=20cm、H=15m這一條件的某株杉木的材積實測值,在這種情況下不存在真值的概念,而只有實測值與預估值(或期望值)之分。誤差計算在林業數表領域的應用基本上都是后一種情形,因此一般應采用前面給出的(7)~(9)式。

預估精度(10)式或預估誤差(11)式是筆者提出的評價通用性模型的新指標,從后面的討論將看到,它是反映模型預估效果的最重要的評價指標。它的成立需滿足條件總體為正態分布這一前提條件。對于林業生產應用中的絕大多數情況,這一條件都是基本滿足或近似滿足的。

3.2模型評價與加權回歸

為了說明加權回歸方法對建立通用性模型的重要性,現以一組實測數據為例,來對普通最小二乘法和加權最小二乘法得出的模型進行評價。

所用數據為杉木地上部分干物質生物量,采集自江西省德興市的人工杉木林中。共計50株樣木,來自6個樣地,樣地按幼、中、成3個齡組和中、好兩個立地等級各分布1塊。如果從建立立木生物量模型這一目的考慮,所用數據嚴格講并不符合建模要求(后面將討論到),但用作不同方法結果的對比是可以的。表1給出了常規生物量模型W=a(D2H)b兩種回歸估計方法的對比結果,表2列出了(7)~(10)式的評價指標值,其中包括將整個建模樣本按胸徑D的大小以株數平分為5段所算出的評價指標值。

從表1、表2可以明顯看出,盡管加權回歸(特指按前面的最佳權函數(3)式加權,下同)的殘差平方和為普通回歸的2.1倍,剩余標準差為1.4倍,但按(7)~(10)式所給指標進行分段檢驗的結果,加權回歸模型明顯優于普通回歸模型。普通回歸模型隨自變量x從小到大各評價指標從劣到優,即主要只照顧絕對值大的樣點,而對絕對值小的樣點很少考慮。但是,加權回歸模型卻各段的檢驗結果基本一致,而且加權回歸模型還有一個很好的特性,即總系統誤差為0,這從(6)式可以推知。

表1普通回歸與加權回歸估計的擬合結果

Tab.1Fittingresultsofordinaryregressionandweightingregressionestimation

方法

Regressionmethod

參數估計值(變動系數%)

Parameterestimates(coefficientsofvariation%)

統計指標

Statisticalindices

a

b

Q

S

R

R*

普通回歸

Ordinaryregression

0.029074(22.72%)

0.94180(2.68%)

2455.23

7.1520

0.99144

0.99126

加權回歸

Weightingregression

0.069923(11.01%)

0.83353(1.92%)

5137.91

10.3460

0.98201

0.98163

表2普通回歸與加權回歸估計的檢測結果

Tab.2Testresultsofordinaryregressionandweightingregressionestimation

樣本范圍

Samplesize

普通回歸

Ordinaryregression

加權回歸

Weightingregression

RS

E

RMA

P

RS

E

RMA

P

全部

Total

1.26

958.00

25.59

94.36

4.20

0.00

14.18

92.30

第1段

SectionNo.1

43.35

543.45

54.35

38.36

-2.86

-4.86

10.47

83.60

第2段

SectionNo.2

33.05

400.12

41.84

61.38

4.15

75.82

22.92

77.67

第3段

SectionNo.3

5.74

65.24

8.14

91.45

-6.79

-72.34

9.88

91.54

第4段

SectionNo.4

-4.67

-58.41

16.03

86.10

-6.87

-91.67

16.35

85.71

第5段

SectionNo.5

0.49

7.60

7.61

91.72

10.76

93.06

11.28

85.56

需要說明的一點是,由于模型本身的參數是未知的(假定模型結構為已知——模型結構設計也是建模的重要環節之一,本文不作討論),因此,只有事先得到其普通回歸估計值,才能進行加權回歸估計。嚴格來講,以模型本身為權函數進行的加權回歸估計,應該是權函數所賦參數值與回歸估計得出的參數完全相等;如果不相等,應再以新的回歸模型為權函數重新進行擬合。一般地,要達到完全穩定需經數次的反復擬合,而且參數越多,所要擬合的次數也越多。如上述表1中的例子,就經過了7次加權回歸才使參數完全穩定不變(指5位有效數)。但是,從消除異方差這一目的考慮,經過1~2次加權回歸就基本上具有齊性方差了,模型的總系統誤差已接近于0。

加權回歸估計與普通回歸估計的結果之所以產生如此大的差別,根本原因在于求解模型參數的準則不同。普通回歸是使Q=Σ(y-)2最小,即保證總相對誤差為0(由于非線性回歸估計中的非線性模型是用泰勒級數展開式近似表示的,故存在一定偏差,使估計出來的模型其總相對誤差并不等于0,可參見表2),必然優先考慮y絕對值較大的點;而加權回歸是使Q′=Σ(y/-1)2最小,即保證總系統誤差為0,考慮的是相對值,每個樣點都同等重要,故必然會照顧到所有的樣點??傊?,不論理論分析還是實際對比結果都表明,通用性回歸模型的建立必須采用加權回歸估計方法。

關于回歸模型的評價,Q、S、R、R及參數穩定性等指標主要用于比較確定不同的模型形式,最終回歸模型的評價則必須重點考慮(7)~(10)式中的指標值,而且其分段檢驗結果尤為重要。

4收集建模樣本的基本原則

要建立一個好的通用性模型,對建模樣本是有一定要求的。如林業上一些通用性數表的編制,對樣本資料的要求在部頒技術規定(林業部,1990)中都作了具體規定。但是也不難發現,其中對建模樣本的要求仍然不是很明確,還有必要再作進一步探討。

4.1樣本單元數

作為建模樣本,首先涉及樣本單元數的問題。文(中華人民共和國林業部,1990)中提到了一條原則:“樣本單元數應根據各項因子的變動范圍和精度要求按數理統計原理確定”,但是對精度要求都是用“系統誤差”這一指標來規定的,如“蓄積量計量數表的系統誤差不超過±3%”。這里的系統誤差是(7)式的總相對誤差還是(8)式的總系統誤差或其它什么含義,并未明確。根據數理統計原理,體現精度要求的誤差概念應該是(11)式所表示的預估誤差,這樣才可據此確定樣本單元數。

作為通用性模型,預估精度是針對每一個預估值而言,因此必須落實到與每一個自變量xi所對應的預估值i。對于林業上的常用模型,xi為連續變量,因此應該在其取值范圍內確定m個能反映因變量yi的變化規律的點,再分別根據與這m個xi所對應的yi的變動系數及精度要求,確定各點的子樣本單元數,m個子樣本單元數之和即為整個建模樣本的單元數。只有當各點的變動系數相同,其對應的子樣本單元數才要求相等。

上面只是考慮一個自變量的情況。如果有多個自變量,則情況要復雜一些,但原則相同。以二元立木材積表的編制為例,首先需定出m個直徑值,再針對每個直徑值定出k個樹高值,最后按一定要求收集m×k個子樣本,合起來形成整個建模樣本。假定每個子樣本有相同的變動系數(如10%),按±5%的預估誤差要求(置信水平95%),則各需16個樣本單元(取t0.05=2,實際操作時應隨n作調整)。按最低限度取m=5、k=3,則共需240個樣本單元。如果要求預估誤差為±3%,且其它條件不變,則共需667個樣本單元。一般情況下,材積變動系數會隨D、H的增大而增大,因此,如果建模樣本中對應較大D、H組合的點所取子樣本單元數較少,則必然會造成大徑級立木的材積估計值達不到預定的精度要求。

4.2樣本構成

樣本構成指樣本單元數隨自變量的分布情況。仍以二元立木材積模型為例,樣本構成涉及上述m、k的確定及每一個子樣本中具體建模樣木的選取。

關于徑級數m和每個徑級中的樹高級數k,文(中華人民共和國林業部,1990)中建議分別在10~15左右和不少于3個。因為m、k的大小直接影響收集樣本的工作量,提供一個最低限度指標是必要的。對于材積模型,因為其曲線變化趨勢比較單一,故取m=5~8、k=3~5即可。如果是變化趨勢比較復雜的模型(如“S”型生長曲線),可適當增加至m=7~10。在確定m、k之后,具體選取哪些徑級和樹高級時,應掌握如下原則:最小、中等和最大者必選,然后再在其間適當增選;目標變量變化規律未知時考慮等距均勻分布,變化規律已知時宜典型選取,其中變曲點處必選。由于樹高級的確定是在已定徑級基礎上進行的,故應考慮影響樹高變動的各種因素。

具體針對某一徑級和樹高級組合的子樣本,其樣木的選取必須考慮影響材積變動的各種因素,在根據各種影響因素劃分的類型中去典型選樣。因為異方差性的存在,筆者認為各子樣本樣木的D、H應盡可能地一致,以正確地估計其平均數的方差和變動系數。盡管整個樣本看起來呈現離散性,但不會影響建模效果。相反,因為各子樣本的收集都達到了建模要求,只要模型選取得當,其預估精度是肯定可以達到預定要求的。

樣本資料的收集是建模的首要環節,其質量好壞直接影響建模效果。通過模擬數據的對比檢驗結果可以發現,一套理想的建模樣本數據,不管是采用普通回歸還是加權回歸估計方法,其結果幾乎是一致的。也即由一套好的樣本資料所建立的模型,其總相對誤差和總系統誤差都應該接近于0。因此可以說,2種估計方法得出的回歸模型的差異大小,在一定程度上反映了建模樣本的質量好壞。

4.3檢驗樣本與精度檢驗

建立通用性回歸模型時,一般要求在收集建模樣本的同時,還另收一套檢驗樣本。如文(中華人民共和國林業部,1990)中提到收集編表資料的另一條原則:“要同時收集編表和檢驗兩套樣本,用編表樣本編表,用檢驗樣本檢驗所編數表的精度?!睓z驗樣本的收集原則和方法類似于建模樣本,此處只著重討論檢驗方法及這一檢驗的必要程度。

利用檢驗樣本進行所謂“適用精度”檢驗,必須分別徑級進行。正確的方法應是先按(7)式算出總相對誤差E′,然后判斷它是否超過公式:

(12)

的計算結果。式中,CV為檢驗徑級的預估材積的變動系數,n′為該徑級檢驗樣本單元數,t′α為置信水平α時的t分布值(自由度為n′-T,T為模型參數個數)。如果不超過,則認為模型是可以接受的。

由(11)式知,(12)式中的變動系數CV可表示為:

(13)

式中Ep為檢驗徑級的材積預估誤差,n為該徑級的建模樣本單元數,tα為置信水平α時的t分布值(自由度為n-T)。將(13)式代入(12)式,可得到接受模型的條件為:

(14)

如果n′=n,則只要檢驗樣本的總相對誤差不大于建模樣本的預估誤差就行了。另外,(14)式還反映出了一條信息,即各徑級檢驗樣本單元數必須滿足n′>T。

從上述檢驗方法可看出,整個檢驗行為并不能提出一個反映所建回歸模型預估精度的指標值,而只是作出一個可否接受模型的判定。可以推斷,只要建模樣本的收集符合要求,就基本上能以(1-α)的概率作為接受模型的判定,也即作出否決模型的判定只是一個小概率事件。萬一真是出現此種情況,也只能按要求去完善樣本資料重新建模。因此,與其花費一部分工作量去收集檢驗樣本,還不如在收集建模樣本時多花點功夫以確保其質量。真正體現回歸模型預測精度的,還是預估誤差這一指標。

5結論

樣本資料收集、回歸估計方法和模型評價是建立回歸模型的3個重要環節。

建模樣本單元數必須根據預定精度要求和目標變量的變動系數及變化規律綜合確定。樣本的構成關系到樣本的質量,而樣本的質量好壞將直接影響所建回歸模型的精度。

加權回歸估計方法是建立通用性回歸模型所應采取的方法。任何回歸模型的最佳權函數就是模型本身。以模型本身為權函數所進行的加權回歸估計,一方面將所有建模樣本單元同等對待,從而保證了模型的總系統誤差為0;另一方面徹底消除了模型中可能存在的異方差性。

對回歸模型的評價,除了殘差平方和、剩余標準差、復相關系數、修正復相關系數、參數變動系數、殘差分布圖以及信息量準則AIC和Cp準則等等指標以外,還需考慮另外4大重要指標,即總相對誤差、總系統誤差、平均相對誤差絕對值和預估精度(或預估誤差)。

參考文獻

董德元,楊節,蘇敏文等.試驗研究的數理統計方法.北京:中國計量出版社,1987

劉璋溫,吳國富.選擇回歸模型的幾個準則.數學的實踐與認識,1983,(1):61~69

駱期邦,寧輝,賀東北等.二元立木材積動態模型研究.林業科學研究,1992,5(3):263~270

盛承懋,李慧芬,錢君燕編譯.應用回歸分析.上海:上??萍嘉墨I出版社,1989

俞大剛.線性回歸模型分析.北京:中國統計出版社,1987

曾偉生,駱期邦.二元材積生長率標準動態模型研究.中南林業調查規劃,1992,11(3)1~6

曾偉生.關于加權最小二乘法中權函數的選擇問題.中南林業調查規劃,1996,15(1)54~55

曾偉生,廖志云.削度方程的研究.林業科學,1997,33(2):127~132

鐘義山.回歸模型優劣評價的幾個問題.中南林業調查規劃,1992,11(4):10~14

中華人民共和國林業部.林業專業調查主要技術規定.北京:中國林業出版社,1990

RESEARCHONWEIGHTINGREGRESSIONANDMODELLING

Abstract:Takingweightingregressionestimationmethodasthecore,theheteroscedasticityofthegeneralmodelsusedinforestrywasdiscussed,andanoptimalweightfunctionwaspresentedthatcouldcompletelyeliminatetheunequalvariance.Secondly,themodelassessmentwasstudied,andfourimportantindicesforcommonly-usedregressionmodelassessmentwerepresented,andtherelationshipbetweenthefourindicesandweightingregressionestimationwasanalysed.Finally,thecollectionofmodellingsamplewasdiscussed,andthebasicprincinpleforcollectingsampledatawaspresented.

Keywords:Weightingregression,Modelling,Heteroscedasticity,Modelassessment