FASTQ格式
FASTQ格式是一種保存生物序列(通常為核酸序列)及其測序質量得分信息的文本格式。序列與質量得分皆由單個ASCII字符表示。
該格式最初由維爾康姆基金會桑格研究所開發,旨在將FASTA格式序列及其質量數據整合在一起。而目前,FASTQ格式已經成為了保存高通量測序結果的事實標準。[1]
格式
FASTQ文件中,一個序列通常由四行組成:
- 第一行以@開頭,之後為序列的標識符以及描述信息(與FASTA格式的描述行類似)
- 第二行為序列信息
- 第三行以+開頭,之後可以再次加上序列的標識及描述信息(可選)
- 第四行為質量得分信息,與第二行的序列相對應,長度必須與第二行相同
以下為一個包含單個序列的FASTQ文件示例:
@SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT + !''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65
其中!為最低質量、~則為最高質量。以下字符從左到右代表從低到高的質量得分的:
!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~
字符與對應的ASCII碼如下:
十進制 | 圖形 |
---|---|
33 | ! |
34 | " |
35 | # |
36 | $ |
37 | % |
38 | & |
39 | ' |
40 | ( |
41 | ) |
42 | * |
43 | + |
44 | , |
45 | - |
46 | . |
47 | / |
48 | 0 |
十進制 | 圖形 |
---|---|
49 | 1 |
50 | 2 |
51 | 3 |
52 | 4 |
53 | 5 |
54 | 6 |
55 | 7 |
56 | 8 |
57 | 9 |
58 | : |
59 | ; |
60 | < |
61 | = |
62 | > |
63 | ? |
64 | @ |
十進制 | 圖形 |
---|---|
65 | A |
66 | B |
67 | C |
68 | D |
69 | E |
70 | F |
71 | G |
72 | H |
73 | I |
74 | J |
75 | K |
76 | L |
77 | M |
78 | N |
79 | O |
80 | P |
十進制 | 圖形 |
---|---|
81 | Q |
82 | R |
83 | S |
84 | T |
85 | U |
86 | V |
87 | W |
88 | X |
89 | Y |
90 | Z |
91 | [ |
92 | \ |
93 | ] |
94 | ^ |
95 | _ |
96 | ` |
十進制 | 圖形 |
---|---|
97 | a |
98 | b |
99 | c |
100 | d |
101 | e |
102 | f |
103 | g |
104 | h |
105 | i |
106 | j |
107 | k |
108 | l |
109 | m |
110 | n |
111 | o |
112 | p |
十進制 | 圖形 |
---|---|
113 | q |
114 | r |
115 | s |
116 | t |
117 | u |
118 | v |
119 | w |
120 | x |
121 | y |
122 | z |
123 | { |
124 | | |
125 | } |
126 | ~ |
最初桑格研究所的FASTQ格式允許序列與質量信息分成多行保存。但一般不推薦採用這種方式,因為第一、第三行開頭的@與+符號同樣也可能出現在質量信息中,可能會造成信息提取的困難。
參見
參考文獻
- ^ Cock, P. J. A.; Fields, C. J.; Goto, N.; Heuer, M. L.; Rice, P. M. The Sanger FASTQ file format for sequences with quality scores, and the Solexa/Illumina FASTQ variants. Nucleic Acids Research. 2009, 38 (6): 1767–1771. PMC 2847217 . PMID 20015970. doi:10.1093/nar/gkp1137.