第11講實驗性研究分類數據統計策略(1):
兩組率比較的統計方法
系列課程“SPSS教程”1-10講為實驗性定量數據統計分析策略。從第11文開始,介紹實驗性分類數據結局的基本統計分析方法。
分類結局包括這兩種形式,一種無序分類的結局,一種是有序分類結局。無序分類結局又包括二分類結局和多分類結局。
本文的内容是二分類結局的分析。二分類結局往往以率的形式開展描述,因此統計分析探讨的是率有無差異。
實例分析
吲達帕胺片治療原發性高血壓療效,将患者随機分為兩組。試驗組用吲達帕胺片加輔助治療,對照組用安慰劑加輔助治療。試分析兩組率有無統計學差異?數據詳見ht.sav
思考
這個案例需要思考:
-該研究屬于何種類型的研究設計?
-結局變量屬于什麼類型的變量?
-分組數是多少?
-正态性問題如何考慮?
案情分析
本案例結局為療效為二分類結局。該結局開展描述時計算有效率,比如治療組有效率、對照組有效率等。分組變量為處理因素,分為2個水平:吲達帕胺片組和安慰劑組。
如此數據,在統計描述上,可以繪制出三線表
該研究核心數據有2行2列(紅框内),因此稱之為2*2行列表或者交叉表資料。此外,由于紅框中的結果在表格中占據4個單元格(a、b、c、d),這樣的交叉表資料被俗稱為四格表資料。
一般來說,分析四格表資料就等同于分析兩個率的差異性。
最後,兩組率的差異分析,不考慮正态性問題。
統計分析策略
兩個率的差異如何分析呢?基本統計學方法有三類:z檢驗、卡方檢驗和Fisher确切概率法。最常見的就是卡方檢驗(c2檢驗,Chi-square)和Fisher确切概率法。
卡方檢驗是統計學奠基人Kar-Pearson百年前提出,其基本理論是比較理論值(期望值)和實際值的吻合程度來探讨不同樣本是否來源于同一個總體。具體原理不再贅述。Fisher确切概率法是另外一位統計學奠基人Fisher提出,主要基于二項分布和二項分布函數,計算極端事件發生概率是否屬于小概率事件的一種方法。
總結來說,
具體來說,采用卡方檢驗還是Fisher确切概率法,一般有如下考慮:
1.如果整個研究樣本量≥40,四個單元格(a,b,c,d)的理論值T,又稱期望值,(expectation)都大于或等于5,則可采用卡方檢驗進行比較。
n≥40,且T ≥ 5,卡方檢驗
2.如果整個研究樣本量≥40 ,四個單元格(a,b,c,d)的理論值T(期望值,expectation)至少有一個在1-5之間,普通的卡方檢驗的結果不太可靠,需要對卡方檢驗方法進行改進,采用校正卡方檢驗進行比較。
n≥40,且至少一個1≤T <5,校正卡方檢驗
3.如果整個研究樣本量<40,或者四個單元格(a,b,c,d)的理論值T(期望值,expectation)至少小于1,則無論卡方或者校正卡方都不可靠,須采用Fisher确切概率法。
n<40或至少1個T <1 ,Fisher确切概率法
值得注意的是,上述方法均為我國教材流傳至今的常規操作。實際工作可便宜行事,具體可見最後的讨論。
如何利用SPSS進行卡方和Fisher确切法檢驗
卡方和Fisher檢驗入口界面
分析-描述統計-交叉表
卡方和Fisher檢驗檢驗對話框
在“交叉表”對話框中,分别選擇分組變量和結局變量到“行”和“列”中。
①、②:行”和“列”分别放哪個變量沒有規定,結果是一緻的(分組變量可以放“行”,也可以放“列”中)。一般建議與最後論文報告中的行列方向一緻。
③精确:點擊選擇“精确”選項,進行Fisher檢驗
④統計:選擇“卡方”,進行卡方檢驗
⑤單元格:可進行計算①實際頻數(必選)和期望頻數(可選,不建議選擇),②選擇計算百分比中的行與列,不必同時選擇,選擇一項即可,一般和交叉表的分組變量的放入行”“列”位置一緻。
統計分析結果與解釋
結果主要為2張表格。
第1表:分組統計描述結果,分别給出試驗組和對照組的各自的結局,包括發生數以及相應的百分比。
第2表:卡方和Fisher确切檢驗的結果。該結果同時展示了卡方、校正卡方、和Fisher确切概率分析結果,也顯示了總樣本量、理論(期望)頻數的情況。
閱讀表格,首先要關注總樣本量和理論(期望)頻數。總樣本量在表格最後一行①:有效個案數。需要關注是否≥40。理論(期望)頻數在表格下方第一個注釋a②。注釋前半句說的是多少單元格期望數小于5,這半句将決定是否采用卡方檢驗;後半句指出最小期望數,将決定是否采用Fisher法。
卡方檢驗,當n≥40,且T ≥ 5,選擇第一行的“皮爾遜卡方”①,卡方值②,選擇P值(漸進顯著性雙側)③。
校正卡方檢驗,n≥40,且至少一個1≤T <5,選擇第二行“連續性修正”①,
,卡方值②,選擇P值(漸進顯著性雙側)③。
Fisher确切概率法,n<40或至少1個T <1 ,選擇第四行的“費希爾精确檢驗”①,選擇值(精确顯著性雙側)②。
對于本例,樣本量70,0單元格(0%)期望計數小5,最小為10.77,應選擇一般的卡方檢驗,卡方值8.399,P=0.004。兩組人群的有效率存在着統計學差異。
結果及表格的規範表達
規範的統計表(其中一種形式)為:
提醒:和均數一樣,率也建議計算置信區間。怎麼計算?系列文章将很快推出!
拓展知識
1. 兩組率的比較方法,基于Poisson 分布檢驗了解下?
除了本文介紹的常規二分類結局,有些醫學研究的結局是罕見事件的結局(腫瘤的發病、出生缺陷發生率等)。例如,開展以下兩個率的比較,試驗組和對照組發生率分别為6.7/10萬,5.0 /十萬。
二分類數據中,陽性事件數的分布屬于二項分布,而當率非常低時,陽性事件數(例如本例的發生數)分布可視為另一個特殊的分布:泊松(Poisson)分布。
泊松分布數據的比較有相應的檢驗方法,但SPSS軟件不好實現,可通過R語言快速實現假設檢驗,這裡展示一下R語言程序和結果
①R語言程序
poisson.test(c(30,10), c(300000,200000),
alternative = c("two.sided"),
conf.level = 0.95)
②R語言分析結果。
2.Fisher方法不是兩個率比較的輔助方法上文寫到,Fisher方法應用條件是n<40或至少1個T <1 。實際上,這一條件可以放寬。理論上,Fisher方法可以使用在所有分類數據的比較上,當然也包括四格表資料,而且它的結果更為精确。所以不要覺得Fisher是配角,Fisher使用沒有條件限制。
那為什麼一直以來卡方檢驗更常見而不是Fisher法呢?部分原因是計算能力的問題,Fisher對計算機的性能要求較高。Fisher很難人工進行運算,或者早些年在計算機運算能力較弱的時,Fisher法會卡殼!而卡方就沒有這個問題,而且大樣本時卡方檢驗結果和Fisher幾乎一緻。所以,之前教材一直推崇卡方而不是Fisher。現在情況不同了,一般軟件都能應付大部分的Fisher檢驗。所以不要被“n<40或至少1個T <1”條件限制,不要覺得達不到這個條件Fisher結果不正确。比如一篇小樣本研究的論文,按照四格表統計分析的條件,有一些需要卡方、有一些需要校正卡方、有一些是Fisher法,為了統一,全部用Fisher方法,也沒有任何問題的,隻要SPSS能夠給出Fisher的結果。
特别是, 當卡方檢驗P值在0.05附近時, 更推薦Fisher法。 因為Fisher結果更精确,它能夠真正判斷一項研究P值到底>0.05,還是<0.05。 總結起來,卡方受條件限制,而Fisher不受數據限制,隻受計算機運算能力限制,很多時候,Fisher方法可以成為主角。SPSS 課程視頻和操作錄屏
SPSS課程視頻
帶字幕去水印的視頻可複制以下地址浏覽器打開SPSS課程錄屏
-本講結束-
SPSS教程(點擊相應鍊接學習)
3. 正态性檢驗(、SPSS簡版、)
4. 兩樣本t檢驗(、、)
5.兩樣本秩和檢驗(、、)
6. 多樣本F檢驗(、)
7. 多重比較(SPSS詳版、SPSS簡版、R語言版)
8. 随機區組方差分析()
9.小統計大文章(上)()
10.小統計大文章(下)()
課程資料包括視頻、講義、練習數據集、R語言代碼可通過關注公衆号,發送關鍵詞“SPSS”至公衆号,即可獲得免費下載。課程資料将随文章同期更新
本公衆号在傳播統計學知識的同時,也放置了一些常用的資源來方便大家科研。所 有資源全部免費下載,有興趣的朋友可以關注下載。1.
3.
5.
6.
。
9.
10.
有話要說...