半年前我就系統性的介紹過:TCGA的pan-caner資料大全(以後挖掘TCGA數據庫就用它) 還專門指出了癌症的somatic突變的maf文件問題:TCGA數據庫maf突變資料官方大全
但是最近收到學員反應,TCGA的maf文件開始控制下載了,下面是提問詳情:
非常久之前,整個TCGA數據庫的全部數據都是提供下載的,包括fastq,bam,vcf, 但是呢,後來因為保護病人隐私,就隻開放maf格式的somatic突變數據下載。學員在下載全部TCGA數據庫的maf的時候,突然間發現,受限制了:
我仔細查看了其更新說明:/Data/Release_Notes/Data_Release_Notes/
MAFs are not yet available for query or search in the GDC Data Portal or API.
You may download these files using the following manifests, which can be passed directly to the Data Transfer Tool. Links for the open-access TCGA MAFs are provided below for downloading individual files.
Open-access MAFs manifest
Controlled-access MAFs manifest
雖然官網裝模作樣的提供了一個公開版的maf下載,事實上我并沒有下載成功,不知道為什麼。
回答分割線癌症的somatic突變概念需要自行搜索學習,如果你還不了解maf格式,請看:/Data/File_Formats/MAF_Format/
#TCGAmutations包整合了TCGA中全部樣本的maf文件
#devtools::install_github(repo="PoisonAlien/TCGAmutations")
library(TCGAmutations)
tmp=as.data.frame(tcga_available())
有趣的是,這些信息是基于hg19參考基因組的.
數據量如下:
首先是全景圖哦,比如 READ癌症的:
也可以是批量計算MATH值(代表腫瘤病人内部異質性的指标),可以看到不同癌症的MATH值分布不一樣的。
還可以是生存分析,因為下載maf的時候,也順便把臨床信息下載過來了,比如 LIHC病人的男性和女性生存就有差異哦。
也就是說回答了昨天的問題:https://mp.weixin.qq.com/s/rTSf8vDWnDbmosBA1hXiGw
生存分析時間點問題
當然啦,這麼多數據肯定還有更多更好玩的哈,後續主要是看大家的想法,有想法,寫代碼都好說,直接查看生信技能樹的全部GitHub代碼即可。
因為這個學員問題比較簡單,沒有資格列入我的TCGA 28篇教程,所以大家就随意看看哈!
TCGA的28篇教程-使用R語言的cgdsr包獲取TCGA數據(cBioPortal)
TCGA的28篇教程-使用R語言的RTCGA包獲取TCGA數據(離線打包版本)
TCGA的28篇教程-使用R語言的RTCGAToolbox包獲取TCGA數據(FireBrowse portal)
TCGA的28篇教程-批量下載TCGA所有數據( UCSC的 XENA)
TCGA的28篇教程-數據下載就到此為止吧
TCGA的28篇教程-指定癌症查看感興趣基因的表達量
TCGA的28篇教程-對TCGA數據庫的任意癌症中任意基因做生存分析
TCGA的28篇教程-整理GDC下載的xml格式的臨床資料
TCGA的28篇教程-風險因子關聯圖-一個價值1000但是遲到的答案
TCGA的28篇教程-數據挖掘三闆斧之ceRNA
TCGA的28篇教程-所有癌症的突變全景圖
TCGA的28篇教程-早期泛癌研究
TCGA的28篇教程-CNV全攻略
TCGA的28篇教程-GTEx數據庫-TCGA數據挖掘的好幫手
TCGA的28篇教程-所有癌症的突變全景圖
有話要說...