開源神經機器翻譯競賽
發布者:上海翻譯公司 發布時間:2018-5-31
2018年5月17日,在SlatorCon活動期間,神經機器翻譯(NMT)通常占據顯著(zhe)位置,而SlatorCon London在倫敦Shoreditch的Nobu酒店舉行也不例外。在事(shì)件發布會上,事(shì)件合作夥伴Systran全球首席技術官Jean Senellart讨論了NMT的一個方面(miàn),他同時發現了令人興奮和可怕的一面(miàn):開源競賽。Senellart簡要介紹了50年曆史的機器翻譯公司Systran,這家公司經曆并直接涉及所有MT技術的生産級部署 - 從規則型MT到統計型MT到NMT。他還談到Open NMT的成(chéng)功,開放源代碼NMT框架Systran和哈佛大學攜手合作,向(xiàng)觀衆介紹法國公司Ubiqus加入他們合資企業的最新情況。自2017年初發布以來,OpenNMT已發展成(chéng)爲第二大開放源代碼NMT項目,包含18個主要版本,3300個星号和1020個Github分支,以及6個完整的代碼重構。這就(jiù)是Senellart談到他演講核心的地方:“我們正在談論五千行代碼。我們在同一時間讨論的東西很大,而且很小。“
NMT更改MT曆史
當塞内拉特說他在談論巨大的事(shì)情時,他通常指的是NMT如何徹底改變MT的曆史。在他的演講中,Senellart表明,基于規則的MT在1968年投入生産,直到2007年保持統治地位,當時統計MT已經足夠生産了。然後在2016年,基本上兩年前的技術將(jiāng)很快接管。“SMT是在90年代由IBM創建的。花了15年的時間才能(néng)進入工業級生産,“Senellart說。“NMT是由學術界在2014年推出的,花了兩年的時間才被(bèi)行業采用。”除了發展速度和行業采用的巨大差異之外,Senellart還注意到每項技術在被(bèi)認爲是其主要資産方面(miàn)的差異。在基于規則的MT中,資産是代碼并累積了語言資源。對于統計噸,資産是數據。Senellart說:“你擁有更好(hǎo)的數據的數據越多,方程就(jiù)越簡單。” “使數據翻倍,你又得到了一個BLEU [雙語評估研究]的觀點。”他還指出,MT統計系統化的第一次嘗試是在統計學MT統治期間開始的。最後,NMT沖進了現場,并伴随著(zhe)另一項資産轉移:“我們不再談論大數據了; 我們正在談論良好(hǎo)的數據,“塞内拉特說。
開源的好(hǎo)壞
除了數據資産思維方式的改變之外,Senellart強調NMT的開源方面(miàn)也很重要。“如果你看看過去兩年,每個月都(dōu)會有兩個關于NMT的新的開源項目,所以它是不可思議的,”他說。雖然這看起(qǐ)來很令人鼓舞,但塞内拉特指出,他們中的很多人“正在死亡”,即新項目沒有得到維護。即使谷歌也會啓動一個新的開源項目,隻是放棄維護而轉向(xiàng)新技術或開發,這反映了NMT技術發展的速度。Senellart還提醒人們注意,盡管大多數開源項目來自學術界,但活動最多的項目來自行業參與者。例如,Google處理活動最多的最大的開源項目,然後是Systran自己的Open NMT。列表中的第三個是Facebook。
上一篇:
在未來同聲傳譯員能(néng)夠獲得實時幫助
下一篇:
新聞翻譯對全球新聞傳播的影響