今天要給大家分享的這篇文章是今年9月底發表在Aging-US(IF=4.831)上的一篇純生信分析文章(“Glioblastoma cell differentiation trajectory predicts theimmunotherapy response and overall survival of patients”),該文章基于GEO的單細胞測序數據發現了具有不同分化特征的膠質母細胞瘤(GBM)細胞,繼而進行差異表達分析找到分化相關的基因(GDRG),最後根據這些基因分别構建了分子分型與預後預測模型。
研究背景介紹
GBM是最常見同時也是死亡率最高的顱内原發腫瘤,5年生存率僅5-6.8%,綜合治療手段,諸如手術、放療、化療、免疫治療等都未能有效延長患者生存時間。腫瘤微環境中的多種因素會影響腫瘤細胞與腫瘤幹細胞(CSC)的分化,從而導緻細胞分化狀态的異質性,而單細胞轉錄組學分析為我們提供了一個強大的方法,用于研究整個腫瘤樣品的基因組本質,繼而提供了定義和明确細胞狀态及其分化狀态的機會。
圖1
結果
1.基于單細胞測序數據确定細胞亞群
從GSE84456獲取了來源于4個GBM标本的3589個細胞測序結果,僅有2343個來源于腫瘤核心部位的細胞被納入進一步研究。Seurat R包被應用于單細胞數據分析。經過質控及标準化數據,194個低質量細胞被排除(圖2A-B)。總共納入19752個基因,方差分析顯示了1500個高度變異的基因(圖2C)。主成分分析PCA未見GBM細胞顯著分離趨勢,我們最終選了20個主成分行進一步分析(圖2D-E)。之後,tSNE分析将GBM細胞分為13個亞群,差異表達分析從所有13個亞群中鑒定出總共8025個标記基因(圖2F-G)。根據标記基因的表達量,我們使用singleR和CellMarker對各個亞群進行注釋(圖3A)。
圖2
2.腫瘤分化軌迹分析并确定GBM分化相關基因(GDRG)
使用Monocle 2算法進行時序及軌迹分析,發現腫瘤幹細胞主要位于樹根部(root),而2個樹枝(branch)分布有不同的GBM細胞,branch I包含了434個GBM細胞,而branch II包含了444個細胞(圖3B)。差異表達分析得到265個I型GDRG和193個II型GDRG。基因集富集分析(GSEA)發現I型GDRG與免疫反應調控相關通路顯著負相關,而II型GDRG與代謝相關通路顯著正相關(圖3C-D)。
圖3
3.TCGA中GDRG的分析
為探索能否在TCGA轉錄組測序結果中找到具有不同分化特征的GBM亞群,相關性分析表明我們可以通過傳統轉錄組測序數據中GDRG表達來鑒定I型和II型GBM細胞(圖4A-C),因為這些高度相關的基因可能表明共同的細胞起源。為了确定來自不同GBM細胞亞群的基因是否在功能上相關,我們利用metagene來代表相應基因的整體表達模式,即I型和II型的metagene分别由I型和II型GDRG組成。圖4D-F顯示I型和II型的metagene在單細胞及傳統轉錄組數據中高度相關,表明I型和II型GDRG在功能上是高度相互關聯的。此外,90.8%的GDRG出現了體細胞突變。
圖4
4.基于GDRG的分子分型
通過非監督一緻性聚類分析,将TCGA患者分為2組,MC1和MC2(圖5A-C)。K-M生存曲線顯示MC1的OS顯著差于MC2(圖5D)。MC1的I型metagene表達量顯著高于MC2,而MC1的II型metagene表達量顯著低于MC2。此外,MC1患者的年齡顯著低于MC2患者,而其他臨床指标在2組間未見顯著差異。同樣的結論在CGGA驗證集中得到驗證。
圖5
5.免疫檢查點分子(ICM)及免疫治療反應性分析
PD1、PDL1、PDL2在I型GBM細胞亞群(單細胞測序數據)和MC1患者(傳統轉錄組測序)中相對高表達,而CTLA4、CD80、CD86在II型GBM細胞亞群和MC2患者中相對高表達(圖6A-C)。根據TIDE算法,MC2患者對免疫治療的反應性優于MC1。此外,SubMap分析發現MC1對PD1抑制劑反應性更好,而MC2對CTLA4抑制劑反應性更好(圖6D-E)。
圖6
6.構建基于GDRG的預後風險評分模型
套路化的單因素COX回歸,再接着LASSO、多因素COX回歸,繼而構建一個四基因風險評分模型。分析評分計算公式如下:
根據風險評分的中位數,将所有患者被分為2組,即高危組和低危組,K-M生存曲線提示高危組患者OS顯著差于低危組。ROC曲線及C指數均提示較好的預測價值。同樣的結論在CGGA驗證集中得到驗證。
圖7
7.構建預後相關的列線圖Nomogram
套路化的單因素+多因素COX回歸,繼而構建Nomogram,C指數、ROC曲線、校正曲線均提示較好的預後預測價值。同樣的結論在CGGA驗證集中得到驗證。
圖8
總結
該文章首先挖掘GEO數據庫裡的單細胞數據,通過分化軌迹分析找到了與分化相關的基因,繼而通過TCGA數據庫以這些基因為基礎分别構建了分子分型以及預後預測模型。該文章思路新穎,可謂生信分析中的一股清流,令編輯和審稿人耳目一新(僅用1個月即接收),大家不妨按照相似的套路模仿一下,想必不難發表高分文章。
總結來看,這篇文章主要分為兩個闆塊,單細胞測序分析+模型構建。對于這兩個闆塊,近期我們就分别有針對性的課程,歡迎參 加!
[10.17-18 上海班] 單細胞數據挖掘實戰班2020
[10月31-11月1日 在線直播]手把手全流程5分+多組學生信數據挖掘速成
有話要說...