前幾年,全基因組關聯分析(GWAS)研究非常火熱,全世界範圍内發起了許許多多的GWAS課題。其研究的複雜性狀也覆蓋甚廣,包括常見疾病,疾病風險因素,基因表達量和DNA甲基化,腦影像學表型,社會及行為學特征。文章發表在, , Cell, , 等等國際頂級雜志上。GWAS利用SNP芯片掃描樣本獲得的數據,基于常用權威軟件如.9()和.07(#),通過統計分析的方法(如: 和 ),在全基因組範圍内,尋找差異的SNP位點的等位基因或基因型,同時也可以結合連鎖不平衡( , LD)關系,推測可能的疾病易感基因。
首先,我們必須清楚認識到GWAS隻是一個技術方法,所以依靠它來進行發現表型或者疾病的易感基因,也受到多種因素的影響。主要如下:
1)實驗的樣本量,這個因素直接關系到我們的實驗能否有效能發現潛在的易感突變位點。
2)所研究的表型(性狀或者疾病)是否存在異質性,是否容易定義等等,這一點和該表型的生物學特性及診斷或評價的精确度有關,而效應量又是未知的。
3)用于GWAS分析的平台,能夠檢測到多少SNP位點。4)表型(性狀或者疾病)與多少遺傳位點相關。
5)這些遺傳位點的等位基因頻率和它們效應量的聯合分布情況。相關的基本原理和影響因素很多,如:
A. 複雜性狀的差異到底由多少遺傳位點或基因決定?
B. 具有顯著效應的位點以怎樣的方式調控表型?
C. 如何研究低頻變異?
D. 從GWAS能否到性狀預測?
這裡就不多說了。想多了解一點的話,可以參考我們之前的推文:GWAS還能走多遠?——十年的思考。還可以參考最新發表在《The of Human 》上的大綜述: et al. (2017). 10 Years of GWAS : , , and .
今天和大家分享一下,我們如何得到GWAS數據,包括原始數據和GWAS 數據。首先要感想先驅們的共享精神,願意分享他們的數據到公共數據庫中,供全世界範圍内的科研人員再利用。數據共享在如今的GWAS成果中發揮着重要的作用,是基因研究領域的一大特色。數據共享不僅使研究者能夠更方便地獲得更多的研究素材,同時也衍生出許多新的統計學算法,這些新的算法又反過來催生了更多新的發現,簡直是量變到質變的飛躍。目前,基于GWAS原始數據及數據的軟件和方法已經很多了。如, FORGE,MRPEA,GSA-SNP,MAGMA,,Set test , , DGAT,等等,它們各有自己的優勢和缺陷。大家可以根據自己的需要自行選擇合适的。我們在之前的推文中詳細的介紹了MAGMA軟件在GWAS數據中的應用和案例實操;詳見推文:MAGMA很好的GWAS數據通路富集方法|别樣的公共數據庫挖掘(内有練習資料)
基于不同的目的,我們需要不同的數據内容:
1)如果需要精細研究,如看不同樣本的突變位點的基因型,等位基因變化情況,研究SNP-基因表達的關系(cis-eQTL ),SNP-甲基化之間的關系(cis-meQTL ),我們可能需要下載GWAS原始數據,可以從dbGaP 數據庫中下載:(值得注意的是這個數據庫有部分數據是公開的,但大部分都得申請)。
2)如果隻需要知道突變位點的作用大小、P值等統計信息,進行整合分析,我們可以下載GWAS 數據即可:。
如下圖所示,相關的GWAS 數據庫。
下面以PGC( )精神類疾病的GWAS數據庫為例,給大家展示一下如何下載GWAS 數據進行再分析。首先,上圖中的鍊接:,網頁打開後如下圖所示:
接下來,我們就可以點擊相關GWAS數據,進行下載,使用,再分析等等。目前來看,二次或者多次利用已發表的GWAS數據,也可以發現很好結果,發表在高質量的雜志上面。如:在2015年發表在 上(PMID: ): -wide study , and . and of . Nat . 2015 Feb;18(2):199-209. (這次先寫到這裡,下期進一步向大家介紹已有GWAS數據的再利用)
有話要說...