由于受目前測序水平的限制,基因組測序時需要先将基因組打斷成DNA片段,然後再建庫測序。reads(讀長)指的是測序儀單次測序所得到的堿基序列,也就是一連串的ATCGGGTA之類的,它不是基因組中的組成。不同的測序儀器,reads長度不一樣。對整個基因組進行測序,就會産生成百上千萬的reads。
@read ID
TGGCGGAGGGATTTGAACCC
+
bbbbbbbbabbbbbbbbbbb
Single-end(SE)測序:1個fastq文件
Pair-end(PE)測序:2個fastq文件分别存放read1和read2的數據
每個序列共有4行,第1行和第3行是序列名稱(有的 fq 文件為了節省存儲空間會省略第三行“+”後面的序列名稱);第2行是序列;第4行是序列的測序質量,每個字符對應第2行每個堿基,第4行每個字符對應的 ASCII 值減去64,即為該堿基的測序質量值,比如 h 對應的 ASCII 值為104,那麼其對應的堿基質量值是40。
堿基質量值範圍為0到40。下表為 Solexa 測序錯誤率與測序質量值簡明對應關系,具體計算公式如下:
Q = -10 log10P
Solexa測序錯誤率與測序質量值簡明對應關系:
高通量測序時,在芯片上的每個反應,會讀出一條序列,是比較短的,叫read,它們是原始數據;
有很多reads通過片段重疊,能夠組裝成一個更大的片段,稱為contig;多個contigs通過片段重疊,組成一個更長的scaffold;
一個contig被組成出來之後,鑒定發現它是編碼蛋白質的基因,就叫singleton;
有話要說...