當前位置:首頁 > 教育 > 正文

30天打卡學習醫學統計與SPSS(Day 10):兩組率比較的統計方法​

30天打卡學習醫學統計與SPSS

歡迎諸位一起學習醫學統計學與SPSS操作方法,我将每天一篇、大概30篇推文左右,講述基于不同醫學研究類型的各種統計分析策略,諸位可以結合視頻、SPSS操作錄屏、文字版教程進行學習。如果你能跟得上節奏,我相信,在一個月後,您将會掌握醫學數據分析。
打卡所需的 SPSS全套視頻、數據庫、講義下載(點擊鍊接)
2.如果您真的能夠堅持,發送關鍵詞“打卡”,加入公益免費的打卡群吧。騙人?不存在的。 作為高校老師,你們能夠學會醫學統計學,我将視為這是一種成就。 具體通告可見:

Day 10:兩組率比較的統計方法

隸屬第三章:實驗性研究定性數據的統計分析策略

系列課程前面2-9日為實驗性定量數據統計分析策略。從第10日開始,介紹實驗性分類數據結局的基本統計分析方法。

分類結局包括這兩種形式,一種無序分類的結局,一種是有序分類結局。無序分類結局又包括二分類結局和多分類結局。

本文的内容是二分類結局的分析。二分類結局往往以率的形式開展描述,因此統計分析探讨的是率有無差異。

實例分析


吲達帕胺片治療原發性高血壓療效,将患者随機按照2:1的比例分為兩組。試驗組用吲達帕胺片加輔助治療,對照組用安慰劑加輔助治療。試分析兩組率有無統計學差異?數據詳見ht.sav


1


思考

這個案例需要思考:

-該研究屬于何種類型的研究設計?

-結局變量屬于什麼類型的變量?

-分組數是多少?

-正态性問題如何考慮?


2


案情分析

本案例結局為療效為二分類結局。該結局開展描述時計算有效率,比如治療組有效率、對照組有效率等。分組變量為處理因素,分為2個水平:吲達帕胺片組和安慰劑組。

如此數據,在統計描述上,可以繪制出三線表

該研究核心數據有2行2列(紅框内),因此稱之為2*2行列表或者交叉表資料。此外,由于紅框中的結果在表格中占據4個單元格(a、b、c、d),這樣的交叉表資料被俗稱為四格表資料。

一般來說,分析四格表資料就等同于分析兩個率的差異性。

最後,兩組率的差異分析,不考慮正态性問題。


4


統計分析策略

兩個率的差異如何分析呢?基本統計學方法有三類:z檢驗、卡方檢驗和Fisher确切概率法。最常見的就是卡方檢驗(c2檢驗,Chi-square)和Fisher确切概率法。

卡方檢驗是統計學奠基人Kar-Pearson百年前提出,其基本理論是比較理論值(期望值)和實際值的吻合程度來探讨不同樣本是否來源于同一個總體。具體原理不再贅述。Fisher确切概率法是另外一位統計學奠基人Fisher提出,主要基于二項分布和二項分布函數,計算極端事件發生概率是否屬于小概率事件的一種方法。

總結來說,

具體來說,采用卡方檢驗還是Fisher确切概率法,一般有如下考慮:

1.如果整個研究樣本量≥40,四個單元格(a,b,c,d)的理論值T,又稱期望值,(expectation)都大于或等于5,則可采用卡方檢驗進行比較。

n≥40,且T ≥ 5,卡方檢驗

2.如果整個研究樣本量≥40 ,四個單元格(a,b,c,d)的理論值T(期望值,expectation)至少有一個在1-5之間,普通的卡方檢驗的結果不太可靠,需要對卡方檢驗方法進行改進,采用校正卡方檢驗進行比較。

n≥40,且至少一個1≤T <5,校正卡方檢驗

3.如果整個研究樣本量<40,或者四個單元格(a,b,c,d)的理論值T(期望值,expectation)至少小于1,則無論卡方或者校正卡方都不可靠,須采用Fisher确切概率法。

n<40或至少1個T <1 ,Fisher确切概率法

值得注意的是,上述方法均為我國教材流傳至今的常規操作。實際工作可便宜行事,具體可見最後的讨論。

如何利用SPSS進行卡方和Fisher确切法檢驗


1


卡方和Fisher檢驗入口界面

分析-描述統計-交叉表


2


卡方和Fisher檢驗檢驗對話框

在“交叉表”對話框中,分别選擇分組變量和結局變量到“行”和“列”中。

①、②:行”和“列”分别放哪個變量沒有規定,結果是一緻的(分組變量可以放“行”,也可以放“列”中)。一般建議與最後論文報告中的行列方向一緻。

③精确:點擊選擇“精确”選項,進行Fisher檢驗

④統計:選擇“卡方”,進行卡方檢驗

⑤單元格:可進行計算①實際頻數(必選)和期望頻數(可選,不建議選擇),②選擇計算百分比中的行與列,不必同時選擇,選擇一項即可,一般和交叉表的分組變量的放入行”“列”位置一緻。


3


統計分析結果與解釋

結果主要為2張表格。

第1表:分組統計描述結果,分别給出試驗組和對照組的各自的結局,包括發生數以及相應的百分比。

第2表:卡方和Fisher确切檢驗的結果。該結果同時展示了卡方、校正卡方、和Fisher确切概率分析結果,也顯示了總樣本量、理論(期望)頻數的情況。

閱讀表格,首先要關注總樣本量和理論(期望)頻數。總樣本量在表格最後一行①:有效個案數。需要關注是否≥40。理論(期望)頻數在表格下方第一個注釋a②。注釋前半句說的是多少單元格期望數小于5,這半句将決定是否采用卡方檢驗;後半句指出最小期望數,将決定是否采用Fisher法。

卡方檢驗,當n≥40,且T ≥ 5,選擇第一行的“皮爾遜卡方”①,卡方值②,選擇P值(漸進顯著性雙側)③。

校正卡方檢驗,n≥40,且至少一個1≤T <5,選擇第二行“連續性修正”①,

,卡方值②,選擇P值(漸進顯著性雙側)③。

Fisher确切概率法,n<40或至少1個T <1 ,選擇第四行的“費希爾精确檢驗”①,選擇值(精确顯著性雙側)②。

對于本例,樣本量70,0單元格(0%)期望計數小5,最小為10.77,應選擇一般的卡方檢驗,卡方值8.399,P=0.004。兩組人群的有效率存在着統計學差異。

結果及表格的規範表達


根據統計分析可以得到以下的規範的結果:
規範文字:吲達帕胺片組有效率80.77%,安慰劑組有效率45.45%,兩組有效率存在着統計學差異(差值0.35,差值這95%CI0.14-0.56,P=0.004)。

規範的統計表(其中一種形式)為:

提醒:和均數一樣,率也建議計算置信區間。怎麼計算?可見文章:

拓展知識


1.Fisher方法不是兩個率比較的輔助方法

上文寫到,Fisher方法應用條件是n<40或至少1個T <1 。實際上,這一條件可以放寬。理論上,Fisher方法可以使用在所有分類數據的比較上,當然也包括四格表資料,而且它的結果更為精确。所以不要覺得Fisher是配角,Fisher使用沒有條件限制。

那為什麼一直以來卡方檢驗更常見而不是Fisher法呢?部分原因是計算能力的問題,Fisher對計算機的性能要求較高。Fisher很難人工進行運算,或者早些年在計算機運算能力較弱的時,Fisher法會卡殼!而卡方就沒有這個問題,而且大樣本時卡方檢驗結果和Fisher幾乎一緻。所以,之前教材一直推崇卡方而不是Fisher。現在情況不同了,一般軟件都能應付大部分的Fisher檢驗。所以不要被“n<40或至少1個T <1”條件限制,不要覺得達不到這個條件Fisher結果不正确。比如一篇小樣本研究的論文,按照四格表統計分析的條件,有一些需要卡方、有一些需要校正卡方、有一些是Fisher法,為了統一,全部用Fisher方法,也沒有任何問題的,隻要SPSS能夠給出Fisher的結果。

特别是, 當卡方檢驗P值在0.05附近時, 更推薦Fisher法。 因為Fisher結果更精确,它能夠真正判斷一項研究P值到底>0.05,還是<0.05。 總結起來,卡方受條件限制,而Fisher不受數據限制,隻受計算機運算能力限制,很多時候,Fisher方法可以成為主角。

SPSS 操作視頻

-本講結束-

更多信息:

本公衆号作為醫學數據分析公衆号,提供一些免費醫學統計學學習資源下載,歡迎點擊下載。 1. 2.
4. 5. 6. 7. 特别提醒:上述列表資源每天限分享和下載一個。


如果您覺得文章不錯, 為我們打“call”,
點擊“分享”吧

你可能想看:

有話要說...

取消
掃碼支持 支付碼