當前位置:首頁 > 科技 > 正文

加權線性回歸(加權最小二乘法回歸)

轉自個人微信公衆号【Memo_Cleon】的統計學習筆記:加權線性回歸(加權最小二乘法回歸)。

殘差恒定是線性回歸建模的一個前提條件,《線性回歸中的方差齊性探察》一文曾介紹過各種線性回歸的方差齊性的檢驗方法。如果出現了異方差,數據變換、方差穩健估計(使用三明治方差估計量)、加權最小二乘法回歸、非參數回歸都是可以考慮的方法。此次筆記介紹加權最小二乘法(weighted least square,WLS)回歸。

SPSS中至少有兩個過程可以實現加權線性回歸,一是直接在線性回歸中直接指明權重(WLS weight),該方法需要先确定權重;二是權重估計(Weight Estimation),用于獲取最優的權重并以這個權重進行WLS回歸。

一般來說,在線性回歸中的WLS權重以取樣本的頻數、方差的倒數多見。頻數好理解,比如在你想看下血液中某些指标間的關系,如果同一個受試者的血液接受了不同次數的檢測,在進行回歸時用的是各個受試者的平均值,很顯然同一個患者檢測次數越多,其結果越穩定,在進行分析時可以直接将檢測的次數作為權重。方差的倒數則有多種實現形式,而且結果也略有差異:①最直接的方法就是直接計算。先将某解釋變量分成一定數量的組,求得每個組的響應變量的方差,拟合方差與該解釋變量分組值的線性關系獲得回歸方程,然後再将該解釋變量的原始值代入回歸方程求得解釋變量每個具體值對應的方差估計值,取其倒數作為權重;②先采用普通最小二乘法(Ordinary least-squares,OLS)拟合回歸模型求得殘差,以殘差平方(或殘差絕對值)對合适的解釋變量進行回歸,獲得回歸方程,再這個回歸方程獲得拟合值,權重為拟合值(或拟合值平方)的倒數。②中方法的邏輯是殘差平方的期望值是方差。與OLS相比,WLS估計的回歸系數标準誤更小(更穩定、變異更小),回歸系數差别不大,如果差别過大則需要WLS的殘差再次進行權重回歸(叠代再加權最小二乘)不斷獲得修正的權重。 SPSS中的權重估計(Weight Estimation)則相對比較簡單,隻需要設定權重變量和幂範圍就可以了,軟件會自動計算幂範圍内的各個權重,權重為 權重變量取幂後的倒數 【1/(weight variable)**power】,并使用最佳的權重進行加權回歸。 本次筆記演示權重估計的SPSS操作步驟。
示例:272例兒童年齡與白細胞值得關系。數據來源:白話統計.電子工業出版社,2018.

這實際上并不是一個十分恰當的例子,其正态分布也不滿足要求,在《Box-Cox變換:非正态數據的處理》有過演示。因此本文不考慮線性、正态性,隻是單純演示方差不齊下采用加權最小二乘法的SPSS操作步驟。

【1】數據錄入 :略。 【2】方差齊性考察:檢驗方法有很多,可參見《線性回歸中的方差齊性探察》。

Analyze>>Regression>>Linear…

Dependent(因變量):選入WC;

Independent(自變量):選入age;

Plot…:X選入标準化預測值(ZPRED),Y選入标準化殘差(ZRESID);

Save…:選中殘差部分的[未标準化殘差]。

Graphs>>Chart Builder;

Gallery: Scatter/Dot>>Simple Scatter,将age拖入橫坐标,剛生成的未标準化殘差拖入縱坐标。

結果顯示随着年齡的增長,殘差呈逐漸減少的趨勢,方差不齊。

【3】權重估計: Analyze>>Regression>>Weight Estimation…
Dependent(響應變量):選入WC; Independent(解釋變量):選入age; Weight Variable(權重變量):選入age。 權重估計過程以此 變量取幂後的倒數 對數據進行加權。 Power Range (幂範圍):默認-2~2,步長0.5。 與權重變量結合使用計算權重,-6.5≤幂範圍取值≤7.5,幂的值範圍為從低值到高值,增量由指定的步長值(by)确定,幂範圍中值的總數不能超過150。權重估計過程将利用幂範圍的每個幂值拟合多個回歸方程,使對數似然函數最大的幂對應的回歸方程為最佳模型。 Option…:選中将最優權重另存為新變量 。

結果會首先給出幂總結表,顯示幂值等于-1.5時,對數似然值最大(-739.097),同時會給出權重weight=age^-1.5時的回歸結果,數據表中會增加一列名稱為[WGT_1]的數據表示權重(Weight for WC from WLS, MOD_2 AGE** 1.5)。

但由于我們設置的步長為0.5,最佳幂值在-1.5左右,-2~-1之間,為獲得更為精确的幂值,我們可以将幂範圍和步長做進一步精确:

Power range: -2 through -1 by: 0.1 調整後結果同未調整的結果,幂值等于-1.5時,對數似然值最大。在此幂值計算的權重下,進行加權線性回歸結果。

在幂總結表之後是最佳模型(幂值為-1.5時)的統計結果:加權最小二乘法(WLS)的參數估計結果同普通最小二乘法(OLS)的參數估計結果差别并不是太大,方差不齊對參數估計準确性影響不大,影響的是參數估計值的精确度,也就是說WLS估計的解釋變量回歸系數标準誤更小(更穩定、變異更小)。本例OLS估計的系數标準誤0.076,而WLS為0.072。

還有一點需要說明,WLS結果的複相關系數比OLS要大,這是因為即使在WLS相關系數的計算還是按照OLS法進行計算的,因此加權後的回歸方程相關系數必然小于OLS,也就是說此時不能用相關系數來判斷模型的優劣。

權重估計中給出了模型的一些基本信息,如果想得到更多的信息,可以運行線性回歸,将權重估計成的變量WGT_1選入WLS weight框即可,具體操作和結果解讀可參見《 多重線性回歸分析 》。 Analyze>>Regression>>Linear…

轉自個人微信公衆号【Memo_Cleon】的統計學習筆記:加權線性回歸(加權最小二乘法回歸)。

… E N D …

你可能想看:

有話要說...

取消
掃碼支持 支付碼