神經機器翻譯

神經機器翻譯(英語:Neural machine translation,縮寫:NMT)是一種直接使用人工神經網絡以端到端方式進行翻譯建模的機器翻譯方法。[1]

2014年出現了第一篇關於在機器翻譯中使用神經網絡的科學論文,隨後幾年神經機器翻譯又取得了一些進展[2]

性質

神經機器翻譯所需的記憶體比傳統統計機器翻譯(SMT)模型少了許多,此外,神經翻譯模型的各個部分都是聯合訓練的(端到端),以充分利用翻譯效能。[3][4][5]

歷史

深度學習應用首次出現在1990年代的語音辨識領域。2014年,第一篇關於以神經網路進行機器翻譯的科學論文問世。同年,Bahdanau等人[R 1]和Sutskever等人[R 2]提出了端到端的神經網路翻譯模型,正式使用了「神經機器翻譯」一詞。2015年,百度推出了第一個大規模的NMT系統,隔年Google亦推出其NMT系統,其他公司隨後也陸續跟進[6]。該領域在接下來幾年取得許多進展,如大詞表NMT、影像字幕應用、子詞-NMT、多語種NMT、多源NMT、字元解碼NMT、零資源NMT、全字元-NMT和零樣本NMT(Zero-Shot NMT)等。2015年,NMT系統第一次出現在公開機器翻譯比賽(OpenMT'15),WMT'15也開始有NMT系統參賽,次年,該比賽已經有90%的獲獎者屬於NMT系統[2]

歐洲專利局從2017年以來持續使用神經機器翻譯技術,讓世界各地的專利系統的資訊得以即時理解[7] 。該系統是與Google合作開發的,有31種語言配對,該系統截至2018年已翻譯超過900萬個文件。[7]

原理

神經機器翻譯(NMT)與個別改造次成份(subcomponents)的統計式片語翻譯模型不同。[8]神經機器翻譯的原理並未大幅突破傳統的統計機器翻譯,它們之間的主要區別在於,神經機器翻譯對詞彙和內部狀態使用了向量表徵(「嵌入」、「連續空間表徵」)。NMT的模型結構比基於片語的模型更為簡單,不是用分開的語言模型、翻譯模型和重新排序模型,而是僅使用一次只預測一個詞的單一序列(Sequence)模型,這個序列預測是根據整段的源語言句子和已產生的目標語言序列來產生。NMT模型使用了深度學習表徵學習

詞序列的建模起初通常是以遞迴神經網路(RNN)來完成。一個雙向RNN(稱為編碼器)使用神經網路對第二個 RNN(稱為解碼器)的源句子進行編碼,解碼器則被用來預測目標語言中的詞彙。[9]RNN在將長輸入編碼為單一向量時會碰到困難,這點可以透過注意力機制來彌補[10] 。注意力機制允許解碼器在產生輸出的每個詞彙時特別關注輸入的不同部分。此外還有多種覆蓋模型(Coverage Model)用於解決這種注意力機制所處理的問題,比如忽略過去的對齊資訊所造成的過度翻譯(over-translation)和翻譯不足(under-translation)[11]

卷積神經網路(CNN)原則上對處理長的連續序列有一定的好處,但仍存在一些劣勢以致於最初未被採用,這些劣勢在2017年時成功以「注意力機制」解決[12]

Transformer[13]是一個基於注意力的模型,目前仍然是幾個語言對的主導架構。[14]Transformer模型的自注意力層( self-attention layer)透過檢查配對序列中所有詞彙之間的依存關係,直接對這些關係進行建模,藉此學習序列中詞彙之間的依存關係。這是一種比RNN採用的門控機制更簡單的方法。Transformer簡單易用,使研究人員即使是在語言資源匱乏(low-resource )的條件下,也能夠用Transformer模型開發高品質的翻譯模型。[15]

備注

  1. ^ Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate. In: Proceedings of the 3rd International Conference on Learning Representations; 2015 May 7–9; San Diego, USA; 2015.
  2. ^ Sutskever I, Vinyals O, Le QV. Sequence to sequence learning with neural networks. In: Proceedings of the 27th International Conference on Neural Information Processing Systems; 2014 Dec 8–13; Montreal, QC, Canada; 2014.

參考文獻

  1. ^ CIPS青工委学术专栏第9期 神经机器翻译. [2022-10-26]. (原始內容存檔於2022-05-26). 
  2. ^ 2.0 2.1 Bojar, Ondrej; Chatterjee, Rajen; Federmann, Christian; Graham, Yvette; Haddow, Barry; Huck, Matthias; Yepes, Antonio Jimeno; Koehn, Philipp; Logacheva, Varvara; Monz, Christof; Negri, Matteo; Névéol, Aurélie; Neves, Mariana; Popel, Martin; Post, Matt; Rubino, Raphael; Scarton, Carolina; Specia, Lucia; Turchi, Marco; Verspoor, Karin; Zampieri, Marcos. Findings of the 2016 Conference on Machine Translation (PDF). ACL 2016 First Conference on Machine Translation (WMT16) (The Association for Computational Linguistics). 2016: 131–198 [2018-01-27]. (原始內容 (PDF)存檔於2018-01-27). 
  3. ^ Kalchbrenner, Nal; Blunsom, Philip. Recurrent Continuous Translation Models. Proceedings of the Association for Computational Linguistics. 2013: 1700–1709 [2023-03-11]. (原始內容存檔於2019-11-23). 
  4. ^ Sutskever, Ilya; Vinyals, Oriol; Le, Quoc Viet. Sequence to sequence learning with neural networks. 2014. arXiv:1409.3215  [cs.CL]. 
  5. ^ Kyunghyun Cho; Bart van Merrienboer; Dzmitry Bahdanau; Yoshua Bengio. On the Properties of Neural Machine Translation: Encoder–Decoder Approaches. 3 September 2014. arXiv:1409.1259  [cs.CL]. 
  6. ^ Haifeng Wang, Hua Wu, Zhongjun He, Liang Huang, Kenneth Ward Church Progress in Machine Translation // Engineering (2021), doi: https://doi.org/10.1016/j.eng.2021.03.023
  7. ^ 7.0 7.1 Neural Machine Translation. European Patent Office. 16 July 2018 [14 June 2021]. (原始內容存檔於2023-06-06). 
  8. ^ Wołk, Krzysztof; Marasek, Krzysztof. Neural-based Machine Translation for Medical Text Domain. Based on European Medicines Agency Leaflet Texts. Procedia Computer Science. 2015, 64 (64): 2–9. Bibcode:2015arXiv150908644W. S2CID 15218663. arXiv:1509.08644 . doi:10.1016/j.procs.2015.08.456. 
  9. ^ Dzmitry Bahdanau; Cho Kyunghyun; Yoshua Bengio. Neural Machine Translation by Jointly Learning to Align and Translate. 2014. arXiv:1409.0473  [cs.CL]. 
  10. ^ Bahdanau, Dzmitry; Cho, Kyunghyun; Bengio, Yoshua. Neural Machine Translation by Jointly Learning to Align and Translate. 2014-09-01. arXiv:1409.0473  [cs.CL]. 
  11. ^ Tu, Zhaopeng; Lu, Zhengdong; Liu, Yang; Liu, Xiaohua; Li, Hang. Modeling Coverage for Neural Machine Translation. 2016. arXiv:1601.04811  [cs.CL]. 
  12. ^ Coldewey, Devin. DeepL schools other online translators with clever machine learning. TechCrunch. 2017-08-29 [2018-01-27]. (原始內容存檔於2018-02-20). 
  13. ^ Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N.; Kaiser, Lukasz; Polosukhin, Illia. Attention Is All You Need. 2017-12-05. arXiv:1706.03762  [cs.CL]. ,
  14. ^ Barrault, Loïc; Bojar, Ondřej; Costa-jussà, Marta R.; Federmann, Christian; Fishel, Mark; Graham, Yvette; Haddow, Barry; Huck, Matthias; Koehn, Philipp; Malmasi, Shervin; Monz, Christof. Findings of the 2019 Conference on Machine Translation (WMT19). Proceedings of the Fourth Conference on Machine Translation (Volume 2: Shared Task Papers, Day 1) (Florence, Italy: Association for Computational Linguistics). August 2019: 1–61. doi:10.18653/v1/W19-5301 . 
  15. ^ Wdowiak, Eryk. Sicilian Translator: A Recipe for Low-Resource NMT. 2021-09-27. arXiv:2110.01938  [cs.CL].