本篇文章是一項臨床大樣本的回顧性研究,這篇文章是2021年發表在Frontiers in medicine(IF=5.091)上的文章《Application of Machine Learning Algorithms to Predict Central Lymph Node Metastasis in T1-T2, Non-invasive, and Clinically Node Negative Papillary Thyroid Carcinoma》,研究了利用機器學習模型來預測乳頭狀甲狀腺癌(PTC)患者中心淋巴結轉移(CLNM)的風險,下面就來看看這篇文章到底是怎麼分析的。
(大家可以在公衆号号中的“論文助手”->“IF查與投”中查詢期刊的詳細信息)
摘要
目的:本研究旨在開發和驗證基于機器學習算法預測這些患者中央淋巴結轉移(CLNM)風險的模型。
方法:應用了六種機器學習算法,包括LR、GBM、XGBoost、RF、DT和NNET,結合術前臨床特征和術中信息開發了CLNM的預測模型。在所有樣本中,随機選擇70%來訓練模型,而剩餘的30%用于驗證。計算了AUC、靈敏度、特異性和準确性等指标,以測試模型的性能。
結果:在多因素Logistic回歸分析中,性别、腫瘤大小和位置、多竈性、年齡和DLN都是CLNM的獨立預測因素。在預測CLNM方面,6個ML算法的AUR在0.70-0.75之間,其中XGBoost模型表現突出,達到0.75。
結論:綜合考慮術前和術中的危險因素,ML算法的比較表明,XGBoost模型具有最佳性能。作者還進一步建立了一個在線計算器,可以幫助确定PTC患者的最佳手術治療範圍。
材料和方法
01數據來源
文章回顧性檢索了2016年12月至2018年12月在重慶醫科大學第一附屬醫院内分泌與乳腺外科接受甲狀腺手術的住院患者的資料。納入的臨床樣本是接受手術的1,271例T1-T2期,無創性和臨床淋巴結陰性(cN0)PTC患者。
02 基線資料分析
首先,總結這些患者的臨床病理特征,分析基線資料。作者将數據集随機分為兩組,即用于ML模型開發的訓練集(70%)和用于性能評估的驗證集(30%),然後重複此随機分裂,直到患者數據分為兩組,可以得到基線表如下表。
02單因素多因素邏輯回歸模型構建
作者根據CLNM分組,進行單因素和多因素邏輯回歸分析。在單因素分析中,腫瘤大小、性别、年齡、多竈性、雙側病變和DLN定位均與整個人群中CLNM的發生顯著相關(P < 0.001),而CLNM陽性患者和CLNM陰性患者在腫瘤位置或CLT狀态方面沒有顯著差異。
在多因素分析中,所有參數(年齡、性别、CLT、DLN、多竈性、雙側病變和腫瘤大小和位置)都包括在内。結果顯示,男性(OR,1.534[95%CI,1.158–2.030])、較大腫瘤大小(OR,1.080[95%CI,1.053–1.107])、多樣性(OR,1.583[95%CI,1.172–2.139])、DLN定位(OR,6.454[95%CI,4.246–9.651])。通過多因素分析排除雙側病變和CLT的差異,結果如下圖所示。
03分類多模型綜合分析
作者用了六種ML算法來對數據建模:邏輯回歸(LR),梯度提升機(GBM),極限梯度提升(XGBoost),随機森林(RF),決策樹(DT)和神經網絡(NNET) 。
作者在驗證集中評估了具有相同超參數的每個ML分類器的預測能力,結果表明,XGBoost模型在預測CLNM方面表現出最高的性能,在驗證集中,其AUC為0.750,靈敏度為0.667,特異性為0.674,準确性為0.670。因此,我們選擇了XGBoost模型作為最終的預測模型,結果如下圖所示。
04影響因子重要度分析
作者比較了變量在機器學習算法中的相對重要性。我們可以看到一個明顯的總體趨勢:雖然這些ML算法中變量的重要性略有差異,但包括Delphian淋巴結轉移,腫瘤大小,年齡,性别,多竈性在在内的因素無疑排名前五。
相反,像雙側病變、腫瘤在中央或峽部中部的位置和CLT等變量對CLNM的預測貢獻很小。XGBoost模型中高級變量的重要性按降序排列如下:Delphian德爾淋巴結轉移,腫瘤大小,年齡,性别,多竈性和腫瘤位置。
總結
在這項研究中,文章開發并驗證了多種流行的機器學習算法來預測T1-T2期、無創性、臨床淋巴結陰性(cN0)PTC患者的CLNM風險。ML算法的比較表明,XGBoost模型提供了最好的性能。
為了使這一模型的應用變得可行,還進一步建立了一個在線計算器,用于估計這些PTC患者發生CLNM的個體概率。這種基于最大似然法的模型有可能指導術中決策。
有話要說...