當前位置:首頁 > 科技 > 正文

生物信息分析中的reads是什麼

由于受目前測序水平的限制,基因組測序時需要先将基因組打斷成DNA片段,然後再建庫測序。reads(讀長)指的是測序儀單次測序所得到的堿基序列,也就是一連串的ATCGGGTA之類的,它不是基因組中的組成。不同的測序儀器,reads長度不一樣。對整個基因組進行測序,就會産生成百上千萬的reads。



測序得到的原始圖像數據經 base calling 轉化為序列數據,我們稱之為 raw data 或 raw reads ,結果以 fastq 文件格式存儲, fastq 文件為用戶得到的最原始文件,裡面存儲 reads 的序列以及 reads 的測序質量。在 fastq 格式文件中每個 read 由四行描述:
     
 
  • @read ID

  • TGGCGGAGGGATTTGAACCC

  • +

  • bbbbbbbbabbbbbbbbbbb

  • Single-end(SE)測序:1個fastq文件

  • Pair-end(PE)測序:2個fastq文件分别存放read1和read2的數據

每個序列共有4行,第1行和第3行是序列名稱(有的 fq 文件為了節省存儲空間會省略第三行“+”後面的序列名稱);第2行是序列;第4行是序列的測序質量,每個字符對應第2行每個堿基,第4行每個字符對應的 ASCII 值減去64,即為該堿基的測序質量值,比如 h 對應的 ASCII 值為104,那麼其對應的堿基質量值是40。
堿基質量值範圍為0到40。下表為 Solexa 測序錯誤率與測序質量值簡明對應關系,具體計算公式如下:

Q = -10 log10P

Solexa測序錯誤率與測序質量值簡明對應關系:

高通量測序時,在芯片上的每個反應,會讀出一條序列,是比較短的,叫read,它們是原始數據;

有很多reads通過片段重疊,能夠組裝成一個更大的片段,稱為contig;

多個contigs通過片段重疊,組成一個更長的scaffold;

一個contig被組成出來之後,鑒定發現它是編碼蛋白質的基因,就叫singleton;
多個contigs組裝成scaffold之後,鑒定發現它編碼蛋白質的基因,叫unigene.

你可能想看:

有話要說...

取消
掃碼支持 支付碼