FASTQ格式

FASTQ格式是一種儲存生物序列(通常為核酸序列)及其定序品質得分資訊的文字格式。序列與品質得分皆由單個ASCII字元表示。

該格式最初由維爾康姆基金會桑格研究所開發,旨在將FASTA格式序列及其品質資料整合在一起。而目前,FASTQ格式已經成為了儲存高通量定序結果的事實標準。[1]

格式

FASTQ檔案中,一個序列通常由四行組成:

  • 第一行以@開頭,之後為序列的識別碼以及描述資訊(與FASTA格式的描述行類似)
  • 第二行為序列資訊
  • 第三行以+開頭,之後可以再次加上序列的標識及描述資訊(可選)
  • 第四行為品質得分資訊,與第二行的序列相對應,長度必須與第二行相同

以下為一個包含單個序列的FASTQ檔案範例:

@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

其中!為最低品質、~則為最高品質。以下字元從左到右代表從低到高的品質得分的:

 !"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~

字元與對應的ASCII碼如下:

十進制 圖形
33 !
34 "
35 #
36 $
37 %
38 &
39 '
40 (
41 )
42 *
43 +
44 ,
45 -
46 .
47 /
48 0
十進制 圖形
49 1
50 2
51 3
52 4
53 5
54 6
55 7
56 8
57 9
58 :
59 ;
60 <
61 =
62 >
63 ?
64 @
十進制 圖形
65 A
66 B
67 C
68 D
69 E
70 F
71 G
72 H
73 I
74 J
75 K
76 L
77 M
78 N
79 O
80 P
十進制 圖形
81 Q
82 R
83 S
84 T
85 U
86 V
87 W
88 X
89 Y
90 Z
91 [
92 \
93 ]
94 ^
95 _
96 `
十進制 圖形
97 a
98 b
99 c
100 d
101 e
102 f
103 g
104 h
105 i
106 j
107 k
108 l
109 m
110 n
111 o
112 p
十進制 圖形
113 q
114 r
115 s
116 t
117 u
118 v
119 w
120 x
121 y
122 z
123 {
124 |
125 }
126 ~


最初桑格研究所的FASTQ格式允許序列與品質資訊分成多行儲存。但一般不推薦採用這種方式,因為第一、第三行開頭的@與+符號同樣也可能出現在品質資訊中,可能會造成資訊提取的困難。

參見

參考文獻

  1. ^ Cock, P. J. A.; Fields, C. J.; Goto, N.; Heuer, M. L.; Rice, P. M. The Sanger FASTQ file format for sequences with quality scores, and the Solexa/Illumina FASTQ variants. Nucleic Acids Research. 2009, 38 (6): 1767–1771. PMC 2847217 . PMID 20015970. doi:10.1093/nar/gkp1137.