中英文機器翻譯模型(Machine Translation)

1 引言

機器翻譯是(Translation)自然語言處理的一項重要任務,迄今為止雖然取得了很大進步,但仍任有許多不確定因素,導致翻譯出來的結果啼笑皆非。百度翻譯,谷歌翻譯,微軟翻譯是機器翻譯界的主要開發者。機器翻譯也是雙語教學方法改進的其中一個目標。在過去,我使用的一個非常簡單的方法是直接調用Google的API來實現實時翻譯,但由于這種方法受到許多條件限制,極大地影響了翻譯效果。近年來,機器翻譯的研究主要集中在Seq2Seq和BERT上。Transformers目前有兩個支持多語言的模型: XML和BERT。不過這兩個都不是專門應用于機器翻譯的模型。本筆記測試了Transformers專門的機器翻譯數據集Helsinki-NLP。


2 Helsinki-NLP

測試虛擬環境為tfs4,具體參數見《生成摘要(Summarization)的新方法》。2020年5月,赫爾辛基大學(University of Helsinki)的語言技術研究小組(Helsinki-NLP)向Transformers庫發布了一套大的翻譯模型數據集。這些模型使用MarianNMT框架和開放平行語料庫(OPUS)數據集進行了訓練。該模型集包括超過1000個語言對,以及169個源語言或語系對英語的翻譯,當然其中包括中英文的互譯。每個模型的權重和標記器文件約為310MB)。

中英文機器翻譯模型(Machine Translation)的圖1

3 中文->英文

測試代碼: translation-zh-to-en.py. 測試目的是把中文翻譯成英文。測試使用的句子為: "智利北部的丘基卡馬塔礦是世界上最大的露天礦之一,長約4公里,寬3公里,深1公里。" 翻譯出來的結果為"The Chuquicamata mine in northern Chile is one of the largest open-air mines in the world, some 4 km long, 3 km wide and 1 km deep."

這個句子基本上表達出原中文的意思,但把“露天礦(open pits mine)”翻譯錯了,此外這個句子也存在著明顯的語法錯誤,some前面缺少動詞引導語,沒有翻譯出“約(about, approximately)這個詞的真實含義 ”。下面比較了四個主流翻譯系統給出的結果:

(1) 微軟翻譯: "The Chukicamata mine in northern Chile is one of the largest open pit mines in the world, about 4 km long, 3 km wide and 1 km deep."

(2) 百度翻譯: "Chuquicamata mine in northern Chile is one of the largest open-pit mines in the world, about 4km long, 3km wide and 1km deep."

(3) 谷歌翻譯: "The Chuquicamata mine in northern Chile is one of the largest open-pit mines in the world, about 4 kilometers long, 3 kilometers wide and 1 kilometer deep."

(4) DeepL翻譯:"The Chuquicamata mine in northern Chile is one of the largest open-pit mines in the world, measuring approximately 4 km long, 3 km wide and 1 km deep."

僅就這個句子的翻譯質量而言,DeepL>Google>Baidu>Bing.


4 英文->中文

測試代碼: translation-en-to-zh.py. 測試目的是把英文翻譯成中文。測試使用的句子為: "Recent research indicates that brittle fracture and step-path failure are important considerations in both natural high-mountain and engineered rock slopes. Newly developed techniques for field survey and numerical modeling of brittle fracture and step-path failure are presented in this research in an attempt to overcome many of the limitations of traditional approaches." 這是一個專業性非常強的句子,已經預計到訓練模型不會產生出太好的結果。翻譯結果如下: "最近的研究表明,易碎裂和繼體失靈是自然高山坡和工程巖坡的重要考慮因素。這項研究介紹了新開發的實地勘察技術和易碎裂和繼體失靈數字模型模型,試圖克服傳統方法的許多局限性。"可以看出,盡管翻譯出句子的整體結構,但一些關鍵詞翻譯質量非常差。下面比較了四個主流翻譯系統給出的結果:

(1) 微軟翻譯: "最近的研究表明,脆性斷裂和步道故障是天然高山和工程巖坡的重要考慮因素。本研究介紹了新開發的脆性骨折和步道故障的實地勘察和數值建模技術,試圖克服傳統方法的許多局限性。"

(2) 百度翻譯: "最近的研究表明,脆性斷裂和臺階路徑破壞是天然高山和工程巖石邊坡的重要考慮因素。為了克服傳統方法的許多局限性,本研究提出了脆性斷裂和臺階路徑破壞的現場調查和數值模擬的新技術。"

(3) 谷歌翻譯: "最近的研究表明,脆性斷裂和階梯路徑破壞是天然高山和工程巖石邊坡的重要考慮因素。本研究介紹了用于現場勘測和數值模擬的新開發技術,旨在克服傳統方法的許多局限性。"

(4) DeepL翻譯:"最近的研究表明,脆性斷裂和階梯式破壞是自然高山和工程巖坡的重要考慮因素。本研究提出了新開發的現場調查和脆性斷裂和階梯式破壞的數字模型技術,試圖克服傳統方法的許多限制。"

僅就這個句子的翻譯質量而言,Baidu>Google>DeepL>Bing.


5 結束語

本文測試了Helsinki-NLP機器翻譯模型。通過測試發現:一方面這個模型可以很好地實現中英文互譯,另一方面,對于專業性過強的術語,這個模型不能給出正確的翻譯。通過改進GeotechSet數據集的質量,能夠進一步改進機器翻譯在巖土工程領域的應用。此外,一個非故意得出的結論:無論是英譯中還是中譯英,Bing的翻譯質量最差。

登錄后免費查看全文
立即登錄
App下載
技術鄰APP
工程師必備
  • 項目客服
  • 培訓客服
  • 平臺客服

TOP