首選我們要明确具體的臨床問題決定研究類型的選擇。臨床預測模型可以回答疾病的病因、診斷、患者對治療的反應和預後等問題。不同的問題需要設計不同的研究類型。
例如,在病因學研究方面,隊列研究可以用來根據潛在的原因來預測疾病是否發生。關于診斷準确性的臨床問題,适合采用橫斷面研究設計,因為預測因子和結果可能同時發生或在短時間内發生。
為了預測患者對治療的反應,可以采用隊列研究或随機對照試驗(RCT)。對于預測類臨床問題,設計隊列研究是适用的,因為預測因子和結局有縱向的時間邏輯關系。評估病因的隊列研究需要選擇合理的研究對象和控制混雜因素。
在診斷模型的研究中,需要一個“金标準”或參考标準來獨立診斷疾病,參考标準的診斷應該在“盲法”狀态下進行。也就是說,參考标準診斷不能依賴于預測模型中預測因子的信息,以避免出現診斷評估偏差。
評估患者對治療的反應是幹預性研究的一種類型。需要選擇合理的研究對象、控制非測試因素的幹擾。在預後模型中,預測因子與結局之間存在縱向關系,研究者通常期望得到疾病在自然狀态下的結局,因此前瞻性隊列研究是最常見的預後模型,也是最佳的研究設計類型。
構建模型的數量:首先需要回顧文獻來确定我們要構建的預測模型的數量:
(一)針對具體臨床問題目前還沒有預測模型。為了構建一個新的模型,通常需要一個訓練集來構建模型,并需要一個驗證集來驗證模型的預測能力。
(二)目前已有預測模型。為了構建新的模型,使用驗證集來構建新模型,并使用相同的訓練數據集來分别驗證現有模型和新模型的預測能力。
(三)為了更新現有模型,使用相同的驗證數據集來評估這兩個模型的預測能力。
關于訓練數據集和驗證數據集的生成,可以前瞻性地或回顧性地收集數據,其中前瞻性收集的數據具有更高的質量。對于建模人群,樣本量應盡可能大。
如果數據是回顧性收集的,還應該評估數據質量,識别離群值,并對缺失值進行适當處理,如填充或删除。
最後,根據實際情況确定用于建模的訓練數據集和用于驗證的驗證數據集。由于現實原因,有時隻能在同一數據集中建模和驗證,這是允許的,但模型的外部适用性會受到一定程度的影響。
模型的建立與呈現:在建立預測模型之前,有必要了解以往文獻報道中的預測因子,确定選擇預測因子的原則和方法,并選擇所需應用的模型類型,如logistic回歸模型或Cox回歸模型。目前,預測模型常用有四種呈現形式:
(一)公式。直接使用數學公式作為預測模型工具。
(二)列線圖Nomogram。通過适當的數學變換将回歸模型中的回歸系數轉換為分數,并将其繪制為諾模圖作為預測模型工具。
(三)網絡計算器。其本質也是通過适當的數學運算将回歸模型中的回歸系數轉換成分數,并将其制作成網站供在線使用。
(四)評分系統。通過适當的數學運算,将回歸模型的回歸系數轉化為一個可量化的評分系統。
臨床預測模型的驗證:預測模型的效果會随着應用場景和人群的變化而變化。因此,對預測模型的完整研究應該包括模型的驗證。驗證的内容包括模型的内部有效性和外部有效性。内部有效性反映了模型的可重複性,可以用本身的研究數據通過交叉驗證和Bootstrap方法來進行驗證。外部有效性反映了模型的普遍性,需要使用不是來自研究本身的數據集進行驗證,這些數據集在時間或地理上是相互獨立的。
模型的内部驗證和外部驗證是評估模型穩定性和适用性的必要步驟。用于内部驗證和外部驗證的數據集應該是完全異質的,不能僅僅在一定程度上不同。一般情況下,使用原機構的數據作為訓練集來建立模型,并随機抽取一部分内部數據進行内部驗證。選擇來自其他機構的數據作為外部驗證數據集。當然,最好是進行外部數據集驗證。下面介紹幾種驗證内部有效性的方法。
(一)随機拆分法。将現有數據随機分成兩部分,一部分用于構建模型,另一部分用于驗證模型。采用該方法将數據分為兩部分進行“内部驗證”。由于隻有一部分的數據用于構建模型,因此模型相對不穩定。樣本量較小的研究通常不适合這種方法。
(二)交叉驗證方法。這種方法是對随機拆分法的的進一步延伸。常用的有半折交叉驗證和十折交叉驗證。半折交叉驗證法是将原始數據分成兩部分,一部分用于建立模型,另一部分用于驗證模型。然後調換兩部分的數據并相互驗證。十折交叉驗證法是将數據分成十部分,其中九部分用于建模,另一部分用于模型驗證。用這種方法建立和驗證模型十次,就可以構建一個相對穩定的模型。
(三)Bootstrap方法。傳統的Bootstrap内部有效性驗證方法是在原始數據集中有放回的随機抽取一定數量的樣本建立模型,然後使用原始數據集對模型進行驗證。通過500-1000次的随機抽樣、建立和驗證,可以得到500-1000個模型,并可以總結出模型的參數分布。因此,可以确定模型的最終參數值。實踐證明,該方法得到的模型比前兩種方法具有更高的穩定性。可以推測,Bootstrap方法将越來越多地應用于驗證模型的内部有效性分析。當然,在具備條件的情況下,應盡量對預測模型進行外部驗證,提高模型的外部适用性。
目前臨床預測模型的研究從臨床醫生的角度大緻可分為三大類:1.預測模型是根據傳統的臨床特征、病理特征、體檢結果、實驗室檢查結果等構建起來的,這類模型中的預測變量更加便于從臨床上獲取。
2.随着影像組學研究方法的成熟,越來越多的學者意識到影像學的某些表現或參數代表了特定的生物學特征。使用彩色多普勒超聲、CT、MR以及PET的大量成像參數結合臨床特征來構建預測模型,往往可以進一步提高預測模型的準确性。此類建模基于影像組學數據。此類建模的前期工作量比第一種方法大得多,并且需要臨床和影像部門之間的緊密合作。
3.随着基因組學和蛋白質組學等高通量生物技術的廣泛應用,臨床研究人員正試圖從這些海量的生物信息中尋找某種特征生物标記物來構建預測模型。這些預測模型是将基礎醫學轉化為臨床醫學的一個很好的切入點,但由于需要對臨床标本進行各種組學測試,這類研究往往需要強有力的資金支持。一旦願意投入資金進行組學分析的研究,可以很好地轉化為臨床研究,一般可以産出高分文章。此外,還必須要有生物樣本的支持。
從臨床醫生的角度構建臨床預測模型的所需條件:1.建立單一疾病的随訪數據庫,盡可能完整地收集患者信息,包括但不限于:人口統計學特征、既往病史、家族史、個人病史;與疾病相關的信息,如治療前重要的生理和實驗室檢查結果、疾病的嚴重程度、臨床分期、病理分期、組織學分級;治療信息:如手術方法、放化療方案、劑量和強度;患者的預後:對于癌症患者,需要持續的随訪才能獲得其結果,這是一項極其困難和複雜的任務。
2.從以往發表的預測模型文章來看,大部分都是基于回顧性的數據,也有一小部分是基于前瞻性的數據。與随機對照研究相比,這樣的研究更容易進行,而且它們屬于我們現在提議的現實世界研究領域。在過去,我們過分強調了随機對照研究的重要性,而忽視了現實世界數據的巨大價值。随機對照研究的數據無疑是質量最高的,但數據經過了嚴格的篩選,因此證據的外推是有限的。真實數據來源于我們的日常臨床實踐,更全面地反映了臨床幹預的有效性,證據具有較好的外部适用性。然而,現實世界研究的最大問題是數據的質量參差不齊,有太多難以識别的混雜因素。因此,有必要用更複雜的統計方法從複雜的混雜因素中找出真相。
在這裡,我們需要理解混雜因素是客觀存在的,因為任何臨床結果的發生都不是單一因素的結果。對于混雜因素有兩個級别的校正。一種是實驗設計階段的校正,即頂層校正,即通過随機化和足夠的樣本量來均衡組間的混雜因素。這也是随機對照研究流行的原因:隻要樣本量足夠,随機化正确,就能一勞永逸地解決混雜因素問題。第二種情況是通過統計方法進行後期校正,顯然沒有随機對照研究校正的那麼徹底,但第二種情況更接近我們臨床實踐的真實情況。
3.樣本大小。由于現實研究中混雜因素較多,需要一定的樣本量才能達到足夠的統計效能,才能辨别混雜因素對結果的影響。多變量分析篩選變量的一個簡單可行的原則是,如果多變量分析中包含一個變量,則有效樣本量應為20個,稱為“1:20原則”。例如,我們在做COX回歸分析時,如果收集了8個與預後相關的變量,那麼至少應該有160個患者發生了我們定義的終點事件,如死亡。注意是至少160個死亡患者,而不是160個患者,未出現終點事件的樣本我們一般不能稱其為有效樣本。
4.臨床研究洞察力。建立臨床預測模型是為了解決臨床問題。要發現有價值的臨床問題,就需要進行廣泛閱讀和臨床實踐。
預測模型研究目前所面臨的問題:1.臨床應用率低。主要原因是預測模型的臨床應用需要在模型的準确性和簡便性之間取得平衡。如果有一個模型,它與TNM分期一樣易于使用,但比TNM分期更準确,您會做出什麼選擇?
2.大多數臨床預測模型都是基于回顧性數據集來構建和驗證的,很少在前瞻性數據中進行驗證。因此,模型預測的穩定性相對較差。
3.大多數臨床預測模型的驗證都是基于内部數據。大多數文章隻有一個數據集。即使有兩個數據集,一個要構建,另一個要驗證,但這兩個數據集往往來自同一個研究中心。如果該預測模型的有效性能夠進一步擴展到另一個研究中心的數據集,那麼該模型的應用價值将會大大提高。
參考文獻Zhou ZR, Wang WW, Li Y, et al. In-depth mining of clinical data: the construction of clinical prediction model with R.Ann Transl Med. 2019;7(23):796. doi:10.21037/atm.2019.08.63
有話要說...