作者:大仙兒
T檢驗是我們醫學科研工作中使用頻率非常高的一種進行均值比較的統計方法。但是對于T檢驗的适用條件卻似乎存在着争議。
有人說,應用T檢驗的前提是數據來自于正态分布的總體,因此在進行T檢驗前均需進行正态性檢驗,也有人說,在樣本量比較大時,可不必在意數據是否來源于正态分布總體,因為中心極限定理告訴我們樣本均數在樣本量較大時可以近似為正态分布。
那麼到底哪種說法正确呢?樣本量較大時是否還要求數據服從正态分布呢?其實這個問題在統計學專業的教材中有非常明确的數學證明,數據不滿足正态分布時,也是可以使用T檢驗的,但不完全是因為中心極限定理。(本文附錄将介紹統計學教材中對該問題的數學證明,建議先看文末的附錄再看結論)
1. 原始數據為非正态數據時使用T檢驗的條件
從文末附錄的證明過程我們不難看出,樣本量較大時,任意分布的随機樣本均數比較,可以使用T檢驗,但足夠大的樣本量是關鍵條件。那麼多大的樣本量才算是足夠大呢?實際上并沒有唯一答案,這取決于原始分布本身偏離正态分布的程度,以及我們對近似性标準要求到底有多高。
經驗來看,若隻是稍稍偏離正态分布,可能大于30的樣本量就夠了(相信大家對這個說法有所耳聞),但若偏離比較大,則會需要更多,比如50以上,甚至100以上。這種近似是可以接受的,因為即便是我們通過正态性檢驗發現不拒絕正态性假設時才進行T檢驗,也無法保證原始數據一定就是完美的正态分布,正态性檢驗本身也是個近似。
2. 選擇T檢驗還是非參數檢驗?
通常我們獲得的建議是,如果通過正态性檢驗發現不拒絕正态性假設就用T檢驗,如果拒絕了就用非參數檢驗,例如對于兩樣本,通常是wilcoxon rank-sum檢驗。那麼T檢驗與非參數檢驗之間該如何選擇呢?
答案是,若原始數據比較符合正态分布,推薦用T檢驗,若偏離較大,建議用非參數檢驗。若樣本量非常大,那麼這兩種檢驗都是可以的。
這是因為兩種檢驗方法在不同條件下的power不同。當數據近似符合正态分布時,T檢驗幾乎利用了所有的數據信息,因此最有能力發現差異,非參數檢驗利用的是數據間的次序關系,本身造成了一定的信息損失。
但是當數據明顯偏離正态分布時,由于T檢驗依賴于較大的樣本量才可以獲得較好的近似,其power可能下降明顯,不如非參數檢驗power高。
例如,理論上,對于兩組正态分布數據,wilcoxon rank-sum 檢驗的漸近檢驗效率是T檢驗的95.5%,但若數據明顯偏離正态分布,同等樣本量下wilcoxon rank-sum 檢驗的power要更高一些。所以當你無法确定原始數據是否大緻符合正态分布,而又需要提前确定分析方法時,用非參數檢驗會相對保險。
我們常常也會看到支持用非參數檢驗另外一些說法:非參數檢驗對原始分布類型沒有要求,不需要額外假設,對于非對稱數據檢驗中位數比檢驗均數更好。這其實也是誤解。
就拿wilcoxonrank-sum檢驗來說,雖然其不要求數據來自于哪個具體的分布,但是要求兩個樣本的分布形狀要大體相同,在這樣的情況下,檢驗兩組樣本均值存在差異還是中位數存在差異,其實是等價的,都可以說明兩組數據分布位置存在差異,因此不存在檢驗均數不正确的問題。
對于非對稱數據用中位數進行描述,隻是因為中位數能更好地代表數據的中心位置,但不代表中位數是唯一可以用來說明組間存在差異的統計量。而且非參數檢驗大多檢驗的是位置參數,中位數和均數同屬于位置參數,因此也不能說非參數檢驗方法檢驗的就一定是中位數(當然某些非參數檢驗确實針對的是中位數),或者用了非參數檢驗就一定隻能報告中位數。
3. 模拟驗證
本部分将針對幾個不同類型的分布,構造樣本的t統計量,以驗證該統計量是否近似為标準正态分布(或T分布)。
①首先假設數據總體來自正态分布。(總體均數為2,标準差為5,樣本量50,重複抽樣1000次)
②指數分布(總體均數為2,标準差為2,樣本量分别為50/100,重複抽樣1000次)
③兩點分布(p=0.2,樣本量為50/100/200/500,重複抽樣1000次)
兩點分布隻有0和1兩個取值,與正态分布差異巨大,但樣本量到200以上時,樣本t統計量也比較接近标準正态分布了。
附錄
為了使讀者對該問題有全面的理解,本文的附錄将首先證明為什麼原始數據符合正态分布時,樣本均值的比較要用T檢驗;然後證明為什麼原始數據不符合正态分布時,樣本均值可以近似使用T檢驗,以及近似的條件。
原始數據符合正态分布,
樣本均值比較時需要用T檢驗的證明
數據用什麼樣的檢驗方法進行分析,實際上取決于我們構造的統計量服從什麼樣的分布,隻有服從這個分布,才可以利用這個分布的相關函數計算P值,如果實際上不服從這個分布,那麼計算出的P值自然是不準确的。因此要證明以上問題,實際上是要證明原始數據符合正态分布時,我們構造的檢驗統計量符合T分布。
在開始證明前,我們需要先了解以下三個分布及其特征:
正态分布
正态分布大家應該都很熟悉了,它有兩個重要的參數,一個是均值μ,另一個是方差 σ2。正态分布一個非常重要的特征是:如果有多個變量服從正态分布,且互相獨立,那麼它們的線性組合也服從正态分布,例如,若
X1 ~ N(μ1,σ12),
X2 ~ N(μ2,σ22),那麼
aX1+bX2~ N(aμ1+bμ2,a2σ12+b2σ22),
aX1-bX2~ N(aμ1-bμ2,a2σ12+b2σ22)。
χ2分布
如果一個變量X服從标準正态分布,即 N(0,1),那麼變量 X2服從自由度為1的χ2 分布。χ2 分布的一個重要特征是:n個相互獨立的 χ2 分布的和也服從χ2 分布,且自由度為n。
T分布
如果變量 X 服從标準正态分布 N(0,1),Y服從自由度為 n 的χ2 分布,且X 和 Y 相互獨立,則以下統計量服從自由度為n 的T分布:
我們稱以上為T分布的标準形式。
因此一個統計量要服從T分布需滿足以下三個條件:
變量X為标準正态分布變量
變量Y為卡方分布變量
變量X與變量Y獨立
換句話說,如果我們構造了一個統計量,并且這個統計量滿足以上三個條件,那麼就可以證明這個統計量服從 T 分布。
現在,我們從正态分布 N(μ,σ2)的總體中抽取了一個樣本,并計算該樣本的均數(例如若中國60歲居民收縮壓是符合正态分布的,我們随機抽取了1000人計算了平均收縮壓用于研究),即,
我們把T統計量的計算公式進行一下變形:
對比一下前面介紹的T分布的标準形式:
至此,我們證明了條件B。
而對于正态分布的數據,其樣本方差與樣本均數獨立,即條件C(證明見參考資料1),因此T分布成立的三個條件全部滿足。
故 T統計量服從T分布,即,
以上我們證明了數據來源于正态分布總體時樣本均數和樣本方差構造的統計量服從T分布。
原始數據不符合正态分布,
樣本均值比較時可以用T檢驗的證明
第三,總體服從正态分布時可以證明樣本均數與樣本方差獨立,當總體不服從正态分布時獨立性無法保證,因此條件C也可能不滿足。
這樣看來,原始數據不符合正态分布時樣本均值比較好像不應該使用T檢驗,為什麼本文說可以使用呢?其實本文在一開始就提到過,這個證明不完全取決于中心極限定理,因為還需要用到另外兩個統計學中非常重要的定理。
定理1(又稱Slutsky定理):
設{Zn} 和{Un} 是兩個随機變量序列,若
Zn依分布收斂于分布 Z,Un依概率收斂于常數 C,則有,
Zn+Un依分布收斂于Z+C
Un*Zn 依分布收斂于 C*Z
Zn/Un依分布收斂于Z/c (c不等于0)
注:依分布收斂可以簡單理解随着樣本量增大,變量的分布越來越接近一個特定的分布;依概率收斂可以簡單理解為随着樣本量增加,變量的取值越來越可能接近一個固定的常數。
定理2:
設{Zn} 為一随機變量序列,且 Zn依概率收斂于常數C,又函數 g(.) 在C處連續,則g(Zn) 依概率收斂到 g(C)。(即如果一個變量收斂到一個常數,那麼這個變量經過某種運算後的值收斂到該常數接受同樣運算後的值)
下面我們利用以上幾個定理完成第二個證明。
由中心極限定理,上式中分子服從标準正态分布 N(0,1);上式分母依概率收斂到常數1;由定理1,上式 t 依分布收斂到标準正态分布 N(0,1)。
到此,我們證明了任意分布下樣本構造的 t 統計量趨向于标準正态分布(确實不一定符合 T 分布),那為什麼說可以用 T 檢驗呢?因為:在樣本量比較大時,T 分布是近似于标準正态分布的,因此 t 統計量對應的P值可由 T 分布近似計算。也就是說,樣本量較大時,任意分布的随機樣本均數比較可以使用T檢驗。
以上證明來自于參考資料2(P38-P42),有興趣的讀者可以查閱驗證。
參考資料:
1.http://jekyll.math.byuh.edu/courses/m321/handouts/mean_var_indep.pdf
2.茆詩松,王靜龍,濮曉龍. 高等數理統計第二版. 北京:高等教育出版社,2006
掃碼關注“醫咖會”公衆号,及時獲取最新統計教程!
有話要說...