編者按:臨床預測模型作為臨床研究的“高階玩法”,不僅僅是發表高分SCI文章的熱門選擇,更是改變臨床實踐的重要途徑。随着臨床預測模型熱度日漸上升,很多團隊都在嘗試建立各類疾病診斷/治療的預測模型,但經常遭遇準确性低或應用不便等“攔路虎”。在此背景下,
《臨床預測模型構建方法學》應運而生。本書由30餘位臨床統計高手合力編著而成,是一本拿來即用的“實戰指南”。
在新書即将正式發售之際,AME科研時間将節選部分精彩篇章以飨讀者。今天帶來臨床預測模型構建系列方法學文章的第一章——
臨床預測模型構建理論與實踐。本章主要介紹臨床預測模型概念、應用現狀、構建方法與流程、臨床預測模型分類、開展此類研究必要條件以及目前面臨的問題。
第一章 臨床預測模型構建理論與實踐 周支瑞,金恺睿,王紹佳,李博,張天嵩
一、背景知識
對一個醫生來說,如果可以具備某種“特異功能”預測患者是否會發生某種未知結局,那麼很多醫療實踐模式或臨床決策會因此改變,而這樣的需求實在是太旺盛,幾乎每天我們都會聽到這樣的感歎“如果我能事先知道,我一定不會這麼做!”。比如,如果我們能夠預測某惡性腫瘤患者對某種化療藥物耐藥,那麼我們不會選擇讓患者繼續使用這種藥物;如果我們能夠預測某個患者術中可能發生大出血,那麼我們一定會在手術過程中小心翼翼并備有充足的血液制品供患者使用;如果我們能預測一個高脂血症患者不會從這種降脂藥物中獲益,那麼我們就可以避免很多毫無意義的醫療幹預……
臨床預測模型作為風險與獲益評估的量化工具,可為醫生、患者以及衛生行政人員的決策提供更為客觀、準确的信息,因此其應用也越來越普遍。在這種剛需下,臨床預測模型類研究方興未艾。
當下醫學模式從經驗醫學發展到循證醫學,再發展到精準醫學,數據的價值得到前所未有的重視,大數據時代數據的獲取、存儲以及分析與預測技術的迅速發展使得個性化醫療的構想越來越成為可能
[1]。從醫療實踐的模式更叠發展的角度講,準确預測某個臨床結局發生的可能性也是當下精準醫學模式的内在要求。
本文将從臨床預測模型的概念、應用現狀、構建方法與流程、臨床預測模型分類、開展的必要條件與目前面臨的問題等進行總結。
二、臨床預測模型基本概念
臨床預測模型(clinical prediction model),是指利用參數/半參數/非參數的數學模型估計研究對象當前患有某病的概率或者将來發生某種結局的可能性
[2-5]。由此可以看出,臨床預測模型是通過已知特征來預測未知,而模型就是一個數學公式,也就是把已知的特征通過這個模型計算出未知結局發生的概率。臨床預測模型一般就是通過各種回歸分析方法建模,而回歸分析的統計學本質就是發現“量化的因果關系”。簡單講,回歸分析是一種X多大程度上影響Y的量化刻畫。常用方法包括線性回歸模型、Logistic回歸模型、Cox回歸模型等。其中預測模型效能評價與驗證是統計分析、數據建模、課題設計的關鍵所在,也是數據分析技術含量最高的部分。
依據研究的臨床問題,臨床預測模型包括:診斷模型(diagnostic model)、預後模型(prognostic model)和用于預測疾病是否發生的模型(disease occurrence model)
[3]。而從統計學角度講,臨床問題的結局Y隻要可以用特征X進行量化刻度,均可構建預測模型。診斷模型關注的是基于研究對象的臨床症狀和特征,診斷當前患有某種疾病的概率,多見于橫斷面研究;預後模型關注的是在當下的疾病狀态下,未來某段時間内疾病複發、死亡,傷殘以及出現并發症等結局的概率,多見于隊列研究;還有一類研究根據研究對象的一般特點預測未來是否會發生某種特定的疾病,也常見于隊列研究。診斷模型、預後模型與疾病發生模型有很多相似之處:他們的結局多為二分類資料;研究的效應指标均為結局出現的絕對風險,即發生的概率,而非相對危險度(relative risk,RR)、比值比(odds ratio,OR)或者風險比(hazard ratio,HR)等相對風險效應指标;在模型的技術層面,也都面臨預測因子的選擇、建模策略的制訂、模型性能的評價與驗證等環節。
三、臨床預測模型的應用場景
正如前文背景知識中描述的那樣,臨床預測模型在醫學研究與醫療實踐中應用非常廣泛。借助臨床預測模型,臨床研究者可以更精準地篩選合适的研究對象,患者可以做出更有利于自己的價值選擇,醫生可以更好地作出醫療決策,衛生管理部門也可以更好地監督和管理醫療服務質量、更合理地配置醫療資源。臨床預測模型的作用幾乎體現在疾病的三級預防體系中任何一個環節:
(1)疾病的一級預防。臨床預測模型可以給患者和醫生提供基于當前的健康狀态、未來患有某病的量化風險值(概率),為健康教育和行為幹預提供更直觀、有力的科學工具。例如,基于弗明漢心髒病研究(Framingham Heart Study)的Framingham心血管病危險評分就明确了降低血脂、血壓可以預防心肌梗死
[6]。
(2)疾病的二級預防。診斷模型常借助無創、低成本、易采集的指标,構建高靈敏度和特異度的診斷方案,踐行“早發現,早診斷,早治療”的疾病預防理念,具有重要的衛生經濟學意義。
(3)疾病的三級預防。預後模型可對疾病的複發、死亡,傷殘以及發生并發症的概率給出量化的估算,從而指導對症治療和康複方案的制訂,防止疾病的複發,降低病死率,減少傷殘,促進功能恢複,提高生存質量。
臨床上已有多個成熟的預測模型,如大家比較熟悉的Framingham、QRISK、PROCAM、ASSIGN評分等。惡性腫瘤TNM分期系統也是一種最具代表性的預測模型,TNM最大的優勢在于簡便而更新速度快,最大的問題在于預測還不夠準确,與臨床醫生的期望值相去甚遠。臨床實踐中需要運用預測工具的遠不止預測疾病發生或預測患者的預後,如果我們可以提前預知患者的某種疾病狀态,比如對于肝癌患者,如果可以提前預測其是否有微血管浸潤,那對于外科醫生來講,可能會采取完全不同的處理方式,或标準切除或擴大切除。局部晚期伴有淋巴結轉移的中低位直腸癌術前新輔助放化療是标準治療手段,但在臨床實踐過程中發現術前根據影像檢查結果判斷的淋巴結狀态不夠準确,假陽性或假陰性比例偏高,是否可以根據放化療前的已知特征準确預測患者的淋巴結狀态?這些臨床問題或可通過構建一個合适的預測模型解決。
四、臨床預測模型的研究思路
臨床預測模型并非單純拟合一個統計模型那樣簡單。從模型的建立、驗證、評價到應用,臨床預測模型有一套完整的研究流程。多個學者都曾讨論過臨床預測模型的研究思路
[2,7-10]。Heart雜志最近發表了一篇綜述,作者以心血管風險評分(cardiovascular disease risk factor)為例探讨了如何借助可視化圖形優勢構建疾病的預測模型,并提出了6個重要步驟
[11]:
(1)選擇一組預測變量作為潛在心血管疾病影響因素納入風險評分中; (2)選擇一個合适的統計模型來分析預測變量和心血管疾病之間的關系; (3)從已有的預測變量中,選擇足夠重要的變量納入風險評分中; (4)構造風險評分模型; (5)評價風險評分模型;
(6)在臨床實踐中解釋風險評分的使用。
筆者綜合文獻報道及個人研究經驗,總結了臨床預測模型構建與評價流程如圖1-1所示。
圖1-1 臨床預測模型構建與評價流程圖
(一)臨床問題确立與研究類型選擇
臨床預測模型可回答疾病的病因、診斷、患者對治療反應或預後相關問題,不同問題需采用不同的研究設計類型。例如,對于病因研究類問題,可以采用隊列研究設計,根據潛在病因預測是否發生疾病;對于診斷準确性類問題,其預測因子與結局均在同一時點或很短的時間内,适合采用橫斷面研究設計;預測患者對治療的反應可采用隊列研究設計或者随機對照試驗(randomized control trial,RCT);對于預後類問題,其預測因子與結局有縱向的時間邏輯,适合采用隊列研究設計。評估病因的隊列研究需要合理選擇研究對象并控制混雜;診斷模型研究中,需要有“金标準”即參考标準來獨立診斷疾病,且參考标準的診斷最好在盲法狀态下進行,即參考标準的診斷不能借助預測模型中的預測因子信息,以避免診斷評估偏倚(diagnostic review bias)。評估患者對治療反應屬于幹預性研究範疇,同樣需要合理選擇研究對象,控制非試驗因素的幹擾;預後模型研究中,預測因子與結局是縱向關系,且研究者通常希望獲得自然狀态下疾病的轉歸,因此前瞻性隊列研究是預後模型最佳的研究設計類型,而回顧性隊列研究更常見,主要原因是回顧性數據集獲取更便利。
(二)設計與實施方案制訂,數據收集與質控
良好的研究設計與實施方案是必需的,首先需要通過文獻調查以确定拟構建預測模型數量:
(1)目前有關某一特定臨床問題沒有預測模型,構建一個新的模型,一般需要訓練集建模,驗證集驗證模型的預測能力。
(2)目前已有某一特定臨床問題預測模型,再構建全新的模型,訓練集構建新預測模型,同一驗證集分别驗證已有模型與新模型的預測能力。
(3)對已有模型進行更新,在同一驗證數據集中對兩個模型的預測能力進行驗證。
關于訓練數據集與驗證數據集的産生,可以前瞻性收集數據也可回顧性收集數據,前瞻性收集的數據集質量更高。對于建模人群,我們希望樣本量盡量大。若為前瞻性臨床研究,則應從研究方案、研究者操作手冊、病例報告表、倫理批件等相關文件的準備開始,并進行數據收集的質控與管理;若為回顧性收集數據,也應對數據質量進行評估,對異常值進行識别,對缺失值進行适當的處理,比如填補或者删除等。最後根據實際情況确定用于建模的訓練數據集,用于驗證模型的驗證數據集。有時,囿于各種現實情況,我們僅能在同一個數據集中進行建模、驗證,這也是允許的,但模型的外部适用性會受到一定程度影響。
(三)臨床預測模型建立與評價
建立預測模型前,應明确已知的、既往文獻報道的預測變量,确定篩選預測變量的原則及方法,确定選用數學模型的類型。通常為Logistic回歸模型或Cox回歸模型等參數或半參數模型。有時也會用到機器學習的一些算法用于建立模型,這類機器學習模型算法構建的模型多半是非參數的,因為沒有類似回歸系數一樣的參數(注:有專家提出,機器學習算法可以有參數模型),所以這類非參數模型的臨床解釋較困難。然後拟合模型、估算模型參數。需事先确定預測模型的呈現形式,目前比較常用的預測模型的形式有4種。
(1)公式:直接使用數學公式作為預測模型工具。
(2)列線圖Nomogram:把回歸模型的回歸系數經過合适的數學運算轉化變為分值,并繪制為列線圖作為預測模型工具。
(3)網頁計算器:本質也是把回歸模型的回歸系數經過合适的數學運算轉變為分值,并制作成網頁形式,在線使用。
(4)評分系統:把回歸模型的回歸系數經過合适的數學運算轉化為可量化的評分系統。
第一種形式主要是針對線性回歸這種确定型回歸的,後幾種形式均是基于參數或者半參數模型的,其統計學本質都是模型參數的直觀呈現,研究者可根據實際情況作出選擇。模型構建完成後,如何評估模型的優劣?模型的評價與驗證體現更高的統計分析技術含量。比如,對預測模型的區分度(discrimination)、校準度(calibration)、臨床效用等指标進行評估,判斷預測模型的性能。
(四)臨床預測模型驗證
預測模型的效果很有可能因場景、人群的改變而變化。因此,完整的預測模型研究應包括模型的驗證。驗證的内容包括模型的内部效度和外部效度。内部效度體現模型的可重複性(reproducibility),利用研究項目本身的數據通過交叉驗證(cross-validation)、bootstrap等驗證方法來回答;外部效度體現模型的普遍性(generalizability),需利用研究項目本身以外的數據,從時間上、地理上獨立或者完全獨立的數據集來回答。
模型内驗證與外驗證是判斷模型的穩定性與适用性的必需步驟。内驗證數據集與外驗證數據集既要有異質性,又不能達到一定程度。一般用本單位數據作為訓練集建模或者随機選擇一部分内部數據集作為内驗證,選擇外單位的數據集作為外部驗證數據集。當然最好是做外部數據集驗證。下面給大家介紹幾個内部效度驗證的方法。
(1)半分法:把現有的數據随機分成兩部分,一部分用于建立模型,另外一部分用來驗證模型。通過半分法把數據分成兩部分,進行“内驗證”,但由于隻有一半的數據用來建立模型,模型相對不穩定。對于樣本量較小的研究不适合使用。
(2)交叉驗證法:這種方法是半分法的進一步演化,常見的有半折交叉驗證法和十折交叉驗證法。半折交叉驗證法即将原數據分為兩部分,兩部分數據相互依次作為建立模型和驗證模型的數據,互相驗證。十折交叉驗證法即把數據分成10部分,用其中9部分數據構建模型,另外1部分做驗證,這樣依次做10次模型構建和驗證,可得到相對穩定的模型參數。
(3)Bootstrap法:常規的Bootstrap内部效度分析的做法是在原數據集中随機可放回抽樣一定的病例用于建立模型,再使用原數據集進行模型的驗證;如此做500~1000次随機抽樣、建立模型、驗證模型的工作,可以得到500~1000個模型,總結模型的參數分布情況,确定最終的模型參數值。Bootstrap法是近年來發展較快的一種方法,該方法在計算機計算量提升的背景下出現。有研究證明,該方法得到模型穩定性高于前面兩種方法,可以推廣應用到預測模型的内部效度分析中。當然如果條件具備,我們還是盡可能對所有的預測模型做外部驗證,以提高模型應用的外部适用性。
(五)評估臨床預測模型的臨床效用
臨床預測模型的最終目的在于應用臨床預測模型是否改變了患者的行為、改善了患者的結局或者成本效應,這也是臨床預測模型的臨床效應研究。從方法學角度,一般會根據預測模型對訓練集與驗證集按照新的模型進行劃分。比如,對于預測二分類結局,要看預測模型是否具有較好的敏感度與特異度;對于預測生存結局,一般會看是否可以根據預測模型把患者劃分為預後良好和預後不良,比如通過Nomogram計算每一個研究對象的得分,按照某個截斷值把患者劃分為預後良好和預後不良,然後繪制Kaplan-Meier生存曲線。決策曲線分析法(decision curve analysis,DCA)也是目前用于預測模型臨床效用評估的一種常用方法。從預測模型構建的最終目的與試驗設計角度講,最好的臨床效用評估需要設計随機對照試驗,且通常為整群随機對照試驗來評估使用或者不使用預測模型是否可以改善患者預後,降低醫療成本等終極評價指标。
(六)臨床預測模型的更新
即便是經過良好驗證的臨床預測模型,由于疾病危險因素、未測量的危險因素、治療措施以及治療背景等随時間變化,模型性能也會因此下降,即校準度漂移(calibration drift)。因此,臨床預測模型需要不斷進化、動态更新。比如最常使用的惡性腫瘤TNM分期系統需要經常更新,就是這個緣故。
五、從臨床醫生的角度看目前的臨床預測模型類研究分類
(1)運用傳統的臨床特征、病理學特征、物理檢查結果、實驗室檢查結果等構建預測模型,這一類模型中的預測變量均是臨床獲得較為方便的特征,可行度大。
(2)随着影像組學相關研究方法的成熟,越來越多的研究者意識到,影像學的某些表現或者參數代表着某種特定的生物學特點。利用這些海量的影像學參數,不管是彩超或是CT或是MR或是PET的參數聯合臨床特征構建預測模型往往能進一步提高預測模型的準确度。這一類的方法的特點是需要在篩選影像組學特征的基礎上建模,前期工作量較第一種方法大很多,需要影像科與臨床科室密切配合。
(3)随着基因組學,蛋白組學等高通量生物技術的廣泛應用,臨床研究者試圖從這些海量的生物信息裡挖掘用于構建預測模型的特征生物标志物。這類預測模型,是基礎醫學向臨床醫學轉化的一個很好的切入點,但這類研究需要較好的财力物力支撐,但科研的投入與産出是成正比的。舍得投入财力做組學分析的研究如果很好地轉化于臨床,一般發表的文章影響因子都很高。此外,必須獲得生物樣本,否則這類研究就是“無本之木,無源之水”。
六、從臨床醫生角度看臨床預測模型類研究開展的必要條件
(1)數據庫構建是核心競争力。構建單病種的随訪數據庫,盡可能完備收集患者信息,包括但不局限于人口學特征、既往史、家族史、個人史等;疾病相關的信息,如治療前重要的物理與實驗室檢查結果,疾病嚴重程度,臨床分期,病理分期,組織學分級等;疾病治療相關信息,比如手術方式,放化療方案,劑量與強度等;患者治療的轉歸,對于腫瘤患者來講,臨床轉歸是需要随訪獲得的,而且需要持之以恒的随訪,這是一項極其艱巨和複雜的工作;其他信息,如果有也應該納入數據庫,比如基因檢測信息等。
(2)獲得必要的數據集。從既往發表的預測模型文章看,大部分基于回顧性數據集,少部分基于前瞻性數據集。這類研究相較于RCT容易開展,屬于現在談論得比較多的真實世界研究範疇。真實世界研究與RCT研究,二者應該是臨床研究王冠上的兩顆明珠,交相輝映。以前過分強調RCT的重要性,忽視了真實世界數據的巨大價值。RCT數據質量無疑是最高的,但這是經過嚴格篩選的數據,證據外推受到限制;而真實世界數據來自日常的臨床實踐,更能全面反映臨床幹預的療效,證據具有更好的外部适用性。但真實世界研究最大的問題是數據質量參差不齊,混雜因素多,而且不易識别,因此需要使用較為複雜的統計方法從紛繁複雜的混雜因素中尋找真相。披沙揀金不易,深厚的統計學功底猶如披沙揀金的篩子。我們需要明白,混雜因素是客觀存在的,因為任何臨床結局的發生不可能是單因素作用的結果。校正混雜因素有兩個層面:一是在試驗設計階段校正,這是頂層的校正方法,比如通過對足夠的樣本量随機分組就能實現組間混雜因素的均衡,這也是為什麼RCT大行其道的原因,隻要樣本量足夠,随機化正确,後面一勞永逸;二是通過統計方法後效校正,這是後效的方法,顯然不如RCT校正得徹底,但第二種情況更接近臨床實踐的真實情況。
(3)樣本量。正是由于這種真實研究的混雜因素較多,需要有一定的樣本量才能達到足夠的統計學效能去甄别混雜因素對結局的影響。通過多因素分析篩選變量,一個簡便而可行的原則是,如果在多因素分析中考量一個變量,那應該有20個發生終點事件的樣本,所謂1:20原則。
(4)臨床科研洞察力。臨床預測模型構建是用來解決臨床問題的,所以能夠發現有價值的臨床問題,這是一種廣泛閱讀文獻并在臨床實踐過程中慢慢積累的洞察力。
七、臨床預測模型開發目前面臨的問題
(1)臨床應用轉化率低。預測模型的臨床應用需要在兩個方面做出平衡:模型的準确度與模型的簡便性。大家試想一下,如果現在有一個模型和TNM分期一樣運用簡便,但比TNM分期預測更準确,大家會做出怎樣的選擇?
(2)大部分臨床預測模型基于回顧性數據集構建與驗證,未在前瞻性數據中開展驗證工作,模型預測結果的穩定性較差。
(3)大部分臨床預測模型的驗證基于内部數據驗證,多數文章隻有一個數據集,或者即便兩個數據集,一個建模一個驗證,但這兩個數據集往往來自研究中心内部。如果能把預測模型的驗證工作進一步延伸到外單位的數據集,那模型的應用價值将得到大大拓展。這項工作的難度很大,需要多中心合作。而且國内絕大部分中心沒有完善的數據庫可供驗證,這又回到前面讨論的有關“數據庫重要性”的話題。
八、讨論與總結
臨床預測模型的初衷是借助少量的、易收集的、檢測成本低廉的預測因子來預測疾病的狀态和預後。因此,大多數預測模型都是短小精煉型的。這在信息技術不發達,數據收集、存儲、分析成本高的時代是科學而理性的。但随着經濟的發展,技術的進步,數據的收集、存儲成本大大降低,數據分析技術日益提高,臨床預測模型也應突破固有的觀念,采用更大量豐富的數據(大數據),複雜的模型和算法(機器學習、人工智能),以更精準的結果服務于醫生、患者以及醫療決策者。
此外,從一個臨床醫生開展臨床科研的角度講,開展臨床預測模型類研究應該把握以下4點原則:
(1)構建更好用的臨床預測模型也是精準醫學的内在要求。
(2)如何獲得高質量數據,數據庫構建才是核心競争力,預測模型隻是技術手段。
(3)RCT與真實世界研究同等重要,都是提供可靠臨床證據的方式。
(4)模型的驗證需要臨床研究中心内部、外部加強合作。因此,要強化中心内部科研合作,提高多中心科研合作意識。
參考文獻
[1] Chow N,Gallo L,Busse JW. Evidence-based medicine and precision medicine: Complementary approaches to clinical decision-making[J]. Precision Clinical Medicine, 2018,1(2):60-64. [2] Ranstam J,Cook JA,Collins GS. Clinical prediction models[J]. Br J Surg,2016, 103(13):1886. [3] Collins GS,Reitsma JB,Altman DG,et al. Transparent reporting of a multivariable prediction model for individual prognosis or diagnosis (TRIPOD):the TRIPOD statement. The TRIPOD Group[J]. Circulation,2015,131(2):211-219. [4] Adams ST,Leveson SH. Clinical prediction rules [J]. BMJ,2012,344:d8312. [5] Moons KG,Royston P,Vergouwe Y,et al. Prognosis and prognostic research:what,why, and how?[J]. BMJ,2009,338:b375. [6] Kannel WB,McGee D,Gordon T. A general cardiovascular risk profile:the Framingham Study[J]. 1976,38(1):46-51. [7] Steyerberg EW,Vergouwe Y. Towards better clinical prediction models:seven steps for development and an ABCD for validation[J]. Eur Heart J,2014,35(29):1925-1931. [8] Lee YH,Bang H,Kim DJ. How to Establish Clinical Prediction Models[J]. Endocrinol Metab (Seoul),2016,31(1):38-44. [9] Han K,Song K,Choi B W. How to Develop,Validate,and Compare Clinical Prediction Models Involving Radiological Parameters:Study Design and Statistical Methods[J]. Korean J Radiol,2016,17(3):339-350. [10] Su TL,Jaki T,Hickey GL,et al. A review of statistical updating methods for clinical prediction models[ J]. Stat Methods Med Res,2018,27(1):185-197. [11] Woodward M,Tunstall-Pedoe H,Peters SA. Graphics and statistics for cardiology:clinical prediction rules[J]. Heart,2017,103(7):538-545.
有話要說...