機器翻譯進化史
發布者:上海翻譯公司 發布時間:2018-6-19
機器翻譯(MT)并不是什麽新鮮事(shì),第一次現場演示是在20世紀50年代完成(chéng)的。但是,正如谷歌翻譯和類似的産品所證明的那樣,MT輸出已經變得可用并可供任何人使用可靠的互聯網連接。這種技術(通常是企業級機器翻譯引擎)在翻譯行業廣泛用于某些類型的内容 - 通常創意性較低的文本 - 以應對成(chéng)本和期限方面(miàn)的壓力。互聯網的可訪問性以及内容驅動的市場營銷已經導緻内容出版物的大幅度增長,與越來越全球化的經濟相結合,這導緻企業需要更大量的翻譯。然而,預算壓力導緻MT的發展,後期編輯對許多公司來說是一個真正的選擇:以這種方式生成(chéng)的翻譯與人類後編輯一起(qǐ)可以(在正确的情況下)以比人類更低的速率産生人類質量。現在,最新一代 - 神經機器翻譯的發布正在使MT成(chéng)爲翻譯界最熱門的流行語之一。
MT如何開始?
第一個MT引擎是基于規則的(稱爲'RBMT')。他們研究語言的單個詞和語法規則 - 文本的每個部分代表什麽,外語中的等同物是什麽?RBMT將(jiāng)語言A中的每個單詞或語法功能(néng)替換爲語言B中的等同單詞或語法功能(néng)。但這并不完全正常。任何知道(dào)一種以上語言的人都(dōu)會告訴你,找到一個簡單的逐字翻譯并不總是容易的。想象一下,你想把“跑道(dào)”這個詞翻譯成(chéng)法文,西班牙文和荷蘭文。這聽起(qǐ)來很簡單:法語滑雪道(dào),西班牙語滑行道(dào)。對于荷蘭人?不簡單。飛機是起(qǐ)飛還是著(zhe)陸?如果它起(qǐ)飛了,說startbaan ; 當它降落時,它是一個降落傘。這隻是一種語言的一個例子; 每種語言都(dōu)有自己的偏心,這使得MT很難。
接下來是什麽?
RBMT之後,統計機器翻譯(SMT)出現了,并且看到了稍大的單位。不僅僅是話語,而是少于句子。在找到最可能(néng)的翻譯之前,它會對現有翻譯的大量數據庫運行的短語。聽起(qǐ)來更好(hǎo)?嗯,是。但仍然不是很棒。譯員不會翻譯句子的部分并將(jiāng)它們粘合在一起(qǐ)。SMT提供比RBMT更好(hǎo)的結果,但錯誤仍然很多,并且僅适用于某些内容。對于一般文檔(通信,評論等)來說,輸出效果更好(hǎo),但對于營銷等更具創意的内容的輸出通常是不可用的。
現在…?
翻譯技術領域當前的熱門話題是神經機器翻譯(NMT),它可以查看更大的語言單位 - 整個句子。而不隻是看句子,而是從中學習。而不是MT開發者決定MT引擎在訓練數據時應該關注哪些語言特征,NMT研究現有翻譯(如SMT)的數據庫并自行學習和決定。它著(zhe)眼于單詞以及它們的重要性,以及它們在更大範圍内如何相互關聯(并且所有翻譯人員都(dōu)會告訴你語境的重要性),并將(jiāng)這些發現應用到新的翻譯文本中。
那麽,NMT之後呢?
在過去的十年間,SMT主導了圍繞水冷卻器的MT極客之間的聊天,NMT無疑是翻譯行業2017年的口号。但是,MT開發人員已經在讨論下一步:Deep NMT。全新的編碼層結合客戶認可的詞彙表和其他資源,Deep NMT將(jiāng)産生更好(hǎo)的翻譯。創建Deep NMT引擎所涉及的工作比“淺”NMT涉及更多,但收獲的獎勵預計會更大。
有了這些發展,SMT現在已經過時了嗎?
NMT和Deep NMT的發展令人興奮,但它不是所有MT問題的解決方案。NMT可以産生一些很棒的翻譯,并且更流利地表達SMT。對于更具創意的文本(比如說,對于市場營銷),如果引擎是使用非常具體的内容的現有數據庫構建的,比如對于用戶手冊或其他技術文檔,它可以比SMT更好(hǎo)。但是如果你想翻譯一般内容,那麽至少目前來說,SMT是表現不佳的NMT。
那麽,有了這些進步,我們現在可以摒棄人類翻譯嗎?
最簡潔的答案是不。NMT和Deep NMT是非常有希望的開始,NMT輸出比SMT翻譯更流利,但是我們距離Post-Human譯者時代的預告還有很長的路要走,因爲一些MT輸出仍然很難,甚至不可能(néng),理解并仍然存在包含許多錯誤。翻譯人員的作用仍然至關重要:MT的輸出效果很好(hǎo),并在一年之後逐漸好(hǎo)轉,但MT仍然需要由翻譯人員,具有源語言和目标語言知識的人員,當然還有主題領域進行後期編輯。最終,MT不是要消除人工翻譯,而是幫助他們。這是翻譯人員提高生産力的另一個箭頭,它提供了即時編輯翻譯,以不斷提高的質量提供質量。
上一篇:
爲什麽創譯對國際企業至關重要
下一篇:
歐盟的DG CONNECT宣布向(xiàng)英語翻譯服務投标350萬歐元