機器翻譯的概念已經存在了幾個世紀,但直到20世紀50年代初才開始成(chéng)爲現實。從那以後,機器翻譯已經取得了巨大的進步,盡管它仍然無法與人類思維可以應用于翻譯文檔的技巧和技巧競争。
①機器翻譯的誕生 1949年,洛克菲勒基金會的沃倫·韋弗(Warren Weaver)提出了一系列關于如何將(jiāng)機器翻譯理念變爲現實的建議。他融合了信息理論,打破了第二次世界大戰期間學到的經驗教訓和自然語言原則,爲機器翻譯一種語言鋪平了道(dào)路。最早的機器翻譯成(chéng)功之一是Georgetown-IBM實驗。1954年,IBM在其紐約辦事(shì)處展示了一台可以將(jiāng)俄語句子翻譯成(chéng)英語的機器。雖然這台機器隻能(néng)翻譯250個單詞(49個句子),但這個想法讓世界很高興。對全球機器翻譯的興趣使得資金湧入這個新的計算機科學領域。喬治敦大學的實驗研究人員充滿信心地表達了他們最初成(chéng)功的信心,預測機器翻譯將(jiāng)在三到五年内掌握。
②Georgetown IBM實驗
盡管早期有信心,機器翻譯比當時的研究人員認爲要困難得多。60多年後,它仍然沒有真正掌握,這證明了這一點。雙語詞典,生成(chéng)語言學和轉換語法被(bèi)用于增強喬治城實驗背後的技術。然而,語義歧義很快被(bèi)确定爲一個問題。如果一個單詞可能(néng)意味著(zhe)不止一件事(shì),那麽計算機翻譯它將(jiāng)如何知道(dào)原始語言中的含義是什麽,從而將(jiāng)其翻譯成(chéng)哪個詞?
雖然早期的機器翻譯質量足以使翻譯能(néng)夠提供對原始文檔的基本理解,但它們距離完美還有很長的路要走。征服機器翻譯的競賽(主要是在美國和蘇聯之間)比預期的要長得多。1964年,美國自動語言處理咨詢委員會(ALPAC)通過報告機器翻譯基本上不值得花錢和費用來打擊美國的努力。它建議資源專注于自動化工具(如詞典),以支持人工翻譯。
③翻譯世界各地
盡管美國對機器翻譯的興趣日益減少(除了一兩家著(zhe)名的私營企業),但其他國家仍在繼續努力。到20世紀70年代,加拿大開發了METEO系統,用于將(jiāng)天氣報告從英語翻譯成(chéng)法語。該系統每天翻譯約80,000個單詞,質量足夠好(hǎo),從1977年到2001年使用,然後再使用新系統進行更新。
在其他領域,全球化正在以前所未有的方式推動對機器翻譯的需求。法國,德國,蘇聯和英國都(dōu)在努力破解機器翻譯。如果能(néng)夠完善使用計算機翻譯的藝術,那麽翻譯文檔所節省的成(chéng)本和時間就(jiù)會令人難以置信。這些知識促使許多政府和私營公司繼續努力,但仍然沒有完美的機器翻譯系統。特别是日本希望在20世紀80年代和90年代初期引領這一指控,到20世紀90年代末,不斷增長的可用性(和電力)或計算機意味著(zhe)機器翻譯工作的成(chéng)本大幅降低。
④谷歌翻譯技術
2000年代,世界上一些最大的技術公司專注于機器翻譯,更加熱情。除了日本的努力之外,美國的谷歌和微軟在統計機器翻譯方面(miàn)投入了大量資金。這些努力後來包括將(jiāng)統計系統與句法和形态學知識相結合以尋求更好(hǎo)的結果。
⑤神經網絡和機器翻譯
最近,大型玩家(Google,Facebook及其同類)已經被(bèi)神經網絡和深度學習用于完善機器翻譯所吸引。神經網絡在人腦功能(néng)的方式上被(bèi)松散地建模,人工神經元在被(bèi)激活時向(xiàng)其他神經元發送信号。語音識别和計算機視覺都(dōu)因神經網絡而取得了重大飛躍。機器翻譯也受益匪淺。谷歌在2016年報告稱,它在機器翻譯方面(miàn)邁出了重要一步。谷歌翻譯已經運營了十年,但轉向(xiàng)神經網絡标志著(zhe)從經常笨拙的翻譯到更令人印象深刻的結果的一個步驟變化。這要歸功于Google神經機器翻譯(NMT)系統。簡而言之,谷歌的NMT翻譯整個句子而不是單個單詞或一小組單詞。它的工作原理是使用編碼器來分解句子。然後,系統將(jiāng)這些句子的組成(chéng)部分的含義表示爲向(xiàng)量。正如The Register所說的那樣簡潔地解釋:“系統解釋整個句子,解碼器開始通過查看編碼矢量的加權分布來翻譯每個單詞,并將(jiāng)它們與目标語言中最相關的單詞進行匹配。”