歡迎來到醫科研,這裡是白介素2的讀書筆記,跟我一起聊臨床與科研的故事, 生物醫學數據挖掘,R語言,TCGA、GEO數據挖掘。
背景摘要美國國家癌症研究所(National Cancer Institute)的SEER數據庫收集了大約30%的美國人口的癌症診斷,治療和生存數據。為了反映研究和腫瘤學實踐的進步,癌症控制的方法正在不斷發展,從簡單地按人群中器官部位枚舉癌症的發展到包括通過組織病理學和分子亞型(由驅動程序突變和其他改變)來監測癌症的發生。SEER是一個重要的基于人群的資源,可用于研究跨人口統計學特征,地理區域和時間的病理診斷含義,已成為美國腫瘤學實踐的獨特研究資源(注意是美國的數據)。它提供了不同組織病理學癌症亞型的發病率,生存率和死亡率數據,并且分子分型的數據也在擴展。該數據庫正在進一步開發,以捕獲其他生物标志物數據,特殊人群的結果,并擴大生物樣本庫,以支持能夠改善腫瘤學實踐的前沿癌症研究。
由于分子生物學的進步,包含組織病理學數據與分子表達譜數據都用以定義腫瘤分型,其中著名的TCGA數據庫是一個代表性的數據庫,成為臨床腫瘤研究與流行中的重要組成部分。将分子數據與傳統組織病理數據整合起來用于重新定義腫瘤分型正在重新定義腫瘤實踐。
SEER計劃SEER計劃由總統理查德·尼克松(Richard Nixon)于1973年1月1日發起,是《國家癌症法》的一部分。SEER收集有關在代表性地理區域和亞人群中診斷出的所有癌症的人口統計,臨床和結果信息。納入的區域是根據其操作和維護高質量的基于人群的癌症報告系統或癌症注冊系統的能力來選擇的。最初,包括具有流行病學意義上重要的種族和少數族裔亞組的7個SEER注冊中心,現在已逐步擴展到當前的18個(SEER)癌症注冊中心。
SEER目前每年捕獲400,000個癌症病例,并存儲大約30%的美國人口的癌症數據。病理報告是提取SEER數據的重要來源,在大約80%的病例中,病理報告是從大約360個實驗室以電子方式實時獲得的。
将提取的病理數據與其他來源的數據合并到最終病例記錄中。這些來源包括患者病曆,從獨立的診斷影像和化療診所收集的報告以及死亡證明。傳統癌症注冊工作人員提取标準數據項,然後将相應的文本手動輸入到數據收集模闆中,近80%的實驗室使用電子病理報告功能有潛力啟用自然語言處理(NLP)軟件來自動編碼數據字段。然後這些摘要記錄由注冊工作人員進行審查,将檢查、編輯所有數據并将其合并到年度登記數據庫中,并以身份不明的形式将其提交給美國國家癌症研究所(NCI)。SEER提交的數據将在每年的11進行質量控制和完整性檢查,這些數據将在來年的4月份開放使用。
值得注意的是,SEER不會收集有關整個美國人口的數據。但是,它确實與北美中央癌症登記處協會(NAACCR)和NPCR進行了協調,以收集美國總人口的癌症數據。聯邦癌症統計數據的年度報告發布為“美國癌症統計數據:發病率和死亡率報告”,涵蓋了來自45個州的96%的美國人口。
[參考文獻]https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5106320/
有話要說...