文字檔案
此條目沒有列出任何參考或來源。 (2014年12月26日) |
文字檔案(text file,textfile,flatfile)一般指只有字元原生編碼構成的二進制電腦檔案,與富文字相比,其不包含字樣樣式的控制元素,能夠被最簡單的文字編輯器直接讀取。
副檔名 |
.txt |
---|---|
網路媒體型式 |
text/plain |
類型代碼 | TEXT |
統一類型標識 | public.plain-text |
UTI結構 | public.text |
格式類型 | 檔案檔案格式、視訊檔格式 |
資料儲存
由於結構簡單,文字檔案被廣泛用於記錄資訊,它能夠避免其它檔案格式遇到的一些問題。此外,當文字檔案中的部分資訊出現錯誤時,往往能夠比較容易的從錯誤中恢復出來,並繼續處理其餘的內容。文字檔案的一個缺點是熵值較低,也就是說,其實本可以用更小的儲存空間記錄這些資訊。
格式
ASCII
ASCII標準使得只含有ASCII字元的文字檔案可以在Unix、Macintosh、Microsoft Windows、DOS和其它作業系統之間自由互動,而其它格式的檔案是很難做到這一點的。但是,在這些作業系統中,換行符並不相同,處理非ASCII字元的方式也不一致。
MIME
文字檔案在MIME標準中的類型為"text/plain",此外,它通常還附加編碼的資訊。在Mac OS X出現前,當資源分叉(resource fork)指定某一個檔案的類型為「TEXT」時,Mac OS就認為這個檔案是文字檔案。在Windows中,當一個檔案的副檔名為「txt」時,系統就認為它是一個文字檔案。此外,處於特殊的目的,有些文字檔案使用其它的副檔名。例如,電腦的原始碼也是文字檔案,它們的字尾是用來指明它的程式語言的。
.txt
.txt是包含極少格式資訊的文字檔案的副檔名。.txt格式並沒有明確的定義,它通常是指那些能夠被系統終端或者簡單的文字編輯器接受的格式。任何能讀取文字的程式都能讀取帶有.txt副檔名的檔案,因此,通常認為這種檔案是通用的、跨平台的。
在英文文字檔案中,ASCII字元集是最為常見的格式,而且在許多場合,它也是預設的格式。對於帶重音符號的和其它的非ASCII字元,必須選擇一種字元編碼。在很多系統中,字元編碼是由電腦的區域設定決定的。常見的字元編碼包括支援許多歐洲語言的ISO 8859-1。
由於許多編碼只能表達有限的字元,通常它們只能用於表達幾種語言。Unicode制定了一種試圖能夠表達所有已知語言的標準,Unicode字元集非常大,它囊括了大多數已知的字元集。Unicode有多種字元編碼,其中最常見的是UTF-8,這種編碼能夠向下相容ASCII,相同內容的ASCII文字檔案和UTF-8文字檔案完全一致。
Windows的.txt檔案
微軟的MS-DOS和Windows採用了相同的文字檔案格式,它們都使用CR和LF兩個字元作為換行符,這兩個字元對應的ASCII碼分別為13和10。通常,最後一行文字並不以換行符(CR-LF標誌)結尾,包括記事本在內的很多文字編輯器也不在檔案的最後添加換行符。
大多數Windows文字檔案使用ANSI、OEM或者Unicode編碼。Windows所指的ANSI編碼通常是1位元組的ISO-8859編碼,不過對於像中文、日文、朝鮮文這樣的環境,需要使用2位元組字元集。在過渡至Unicode前,Windows一直用ANSI作為系統預設的編碼。而OEM編碼,也是通常所說的MS-DOS頁碼,是IBM為早期IBM個人電腦的文字模式顯示系統定義的。在全螢幕的MS-DOS程式中同時使用了圖形的和按行繪製的字元。新版本的Windows可以使用UTF-16LE和UTF-8之類的Unicode編碼。
展現
用文字編輯器打開一個文字檔案後,使用者可以看到可讀的純文字內容。控制字元有時被編輯器當做文字指令,有時被當做像純文字那樣可編輯的跳脫字元。儘管文字檔案裡面有純文字資訊,但是通過特殊方法,檔案內的控制字元(尤其是檔案結束字元)可以讓純文字不可見。