语料库
信息技术名词,大批量电子化自然语言样本所构成的集合
语料库一詞在語言學上意指大量的文本,通常經過整理,具有既定格式與標記。
根据语料库的特征,可以分为单语语料库、双语语料库、平行语料库等,根据语料的来源,可以分为书面语语料库、口语语料库、作文语料库、学习者语料库、古文书语料库等。[1]
語料庫列表
多語
- 点通多语言语音語料庫
- 賓州大學語料庫(页面存档备份,存于互联网档案馆)
- Wikipedia XML 語料庫
- 绍兴文理学院--中国汉英平行语料大世界 (页面存档备份,存于互联网档案馆) 中英平行文本双语语料库
英语
- https://www.english-corpora.org (页面存档备份,存于互联网档案馆)
- The Collins Corpus (页面存档备份,存于互联网档案馆)
- Collin's Cobuild Project - 成果:Collin's當代英語辭典、及當代英語文法。
- Corpus of Political Speeches (页面存档备份,存于互联网档案馆)(香港浸會大學圖書館 (页面存档备份,存于互联网档案馆)提供)
汉语
- LIVAC漢語共時語料庫 (页面存档备份,存于互联网档案馆)
- 兰开斯特大学汉语平衡语料库 (页面存档备份,存于互联网档案馆)
- 兰开斯特-洛杉矶汉语口语语料库 (页面存档备份,存于互联网档案馆)
- 政治人物演講語料庫 (页面存档备份,存于互联网档案馆)(香港浸會大學圖書館 (页面存档备份,存于互联网档案馆)提供)
繁體中文
簡體中文
日语
- 现代日语书面语均衡语料库BCCWJ (页面存档备份,存于互联网档案馆)
- 日语口语词汇语料库CSJ (页面存档备份,存于互联网档案馆)
- 筑波网络语料库TWC (页面存档备份,存于互联网档案馆)
研究机构
等
外部連結
- Free, web-based corpora (45-425 million words each): American (COCA, COHA, TIME), British (BNC), Spanish, Portuguese(页面存档备份,存于互联网档案馆)
- 开放目录项目中的“Computational Linguistics”
- ACL SIGLEX Resource Links: Text Corpora
- The Leipzig Glossing Rules(页面存档备份,存于互联网档案馆): Conventions for interlinear morpheme-by-morpheme glosses
- Developing Linguistic Corpora: a Guide to Good PracticeArchive.is的存檔,存档日期2012-12-22
- An interface for querying automatically-constructed virtual corpora[失效連結].
- TEP: Tehran English-Persian Parallel Corpus.
- [1] Building synchronous parallel corpora of the languages taught at the Faculty of Arts of Charles University.
- TS Corpus - A Turkish Corpus freely available for academic research.(页面存档备份,存于互联网档案馆)
- Turkish National Corpus - A general-purpose corpus for contemporary Turkish(页面存档备份,存于互联网档案馆)
- Free web-based English corpus to download (3 billion words)(页面存档备份,存于互联网档案馆)