如何評價Google神經(jīng)機器翻譯（GNMT）系統(tǒng)？

發(fā)表時間:2017/07/28 00:00:00 瀏覽次數(shù):2229

字體大小: 【小】【中】【大】

翻譯有純?nèi)斯しg，還有借助電腦的機器輔助翻譯（CAT，computer assisted/aided translation），還有傳統(tǒng)的機器翻譯（MT，machine translation）。
傳統(tǒng)的機器翻譯據(jù)說源于上世紀五六十年代的美國，為了破解蘇聯(lián)的大量俄語文件而研制。它的原理是詞匯間的一一對應，可以想見，產(chǎn)出的譯文肯定是不通的，或許只能大體看出原文在探討的主題。這樣的翻譯模式或者思路，在翻譯天氣預報這種語匯固定的文本上有一定用處。據(jù)說加拿大魁北克地區(qū)曾用這種方式播報雙語天氣預報。
機器輔助翻譯是指利用Trados或者wordfast這種工具，它的核心原理在于translation memory，即翻譯記憶語料庫。軟件工具把之前翻譯過的或者集中導入的雙語語料儲存起來，遇到相似程度高的原文時，自動調(diào)出之前的譯文，譯者在其基礎上修改，完成最終的譯文。其翻譯單位為句子。
以上介紹的基于語匯一一對應的機器翻譯和基于翻譯記憶數(shù)據(jù)庫的CAT，其實代表了實現(xiàn)人工智能的兩個思路。我自己只是搞翻譯的，對于人工智能不太懂，但機器/電腦翻譯屬于人工智能的范疇。人工智能的關(guān)鍵在于教會機器你想讓它認知的東西，對于如何教，有兩個思路。
舉一個我在TED演講中聽過的一個例子。
演講者從事的是圖像識別軟件的開發(fā)。一開始采取的套路是通過描述畫面來教會機器識別事物。比如給“貓”設置“圓臉、尖耳朵、長尾巴”等參數(shù)，但是效果很差，機器識別了站立著的貓，就識別不了坐著的貓。
后來研發(fā)者換了一個思路，模擬人類孩童是如何認識貓的——見的多了，就知道這樣的是貓了（孩子并不會去分析原來圓臉、尖耳朵、長尾巴的才是貓）。于是將大量貓咪的圖片存入機器，并告訴它這是“貓”，后來機器遇到類似的圖片，就能識別出是貓。已有數(shù)據(jù)庫越大，機器識別得就越準確。
個人認為質(zhì)量較高的機器/電腦翻譯的實現(xiàn)，也要采取這后一種思路，即基于大量雙語語料的記憶和學習——讓機器記住什么樣的話是什么意思，而不是將語句分解為單個詞匯再去找它們在另一個語言中的對應。
根源還是語言的復雜性，無論是哪兩種語言之間，都不像二進制和十進制之間那樣可以實現(xiàn)一一對應，所以第一種思路的發(fā)展前途已經(jīng)很局限。而第二個思路或許就是以后的方向，互聯(lián)網(wǎng)實現(xiàn)的大量語料共享也為它的發(fā)展提供了可能。
------------------------------------
關(guān)于如何看待機器/線上翻譯的進步：

雖然我自己是個翻譯匠，而且厭惡把線上翻譯隨便改改交差的譯員，但是對機器/電腦/線上翻譯本身心存親切——它畢竟不是人，不要笑話它。
它對于譯者也有用處，對于某些語匯（不是整句整段），它給的譯文由于基于大量現(xiàn)有語料，往往確實是業(yè)內(nèi)人士用的比較多的說法。
所以大家不要看到機器翻譯產(chǎn)生可笑譯文就拿來調(diào)侃，該被調(diào)侃的是那些敢用這些譯文的人。

而且，沒有必要恐慌自己會被取代（前提是你的水平遠高于機器）；機器差的還比較遠——如果你知道語言可以美到、精到、妙到什么程度，如果你明白很多時候它就是人的靈光一現(xiàn)的、獨一無二的、偶然的產(chǎn)物，就不會懷疑這一點。

上一篇：看外國文學時，怎樣選擇好的譯本？

下一篇：看美劇、英劇學英語有什么有效的方法嗎？

如何評價Google神經(jīng)機器翻譯（GNMT）系統(tǒng)？

如何評價Google神經(jīng)機器翻譯（GNMT）系統(tǒng)？