- 001-汽車技術行業(yè)語料
- 002-機械加工行業(yè)語料
- 003-金融財經行業(yè)語料
- 004-通訊技術行業(yè)語料
- 005-化工技術行業(yè)語料
- 006-石油鉆井行業(yè)語料
- 007-建筑工程行業(yè)語料
- 008-生物工程行業(yè)語料
- 009-環(huán)境工程行業(yè)語料
- 010-航空航天行業(yè)語料
- 011-醫(yī)療器械行業(yè)語料
- 012-煤炭能源行業(yè)語料
- 013-服飾服裝行業(yè)語料
- 014-品牌廣告行業(yè)語料
- 015-商業(yè)營銷行業(yè)語料
- 016-旅行旅游行業(yè)語料
- 017-高新科技行業(yè)語料
- 018-電子產品行業(yè)語料
- 019-食品飲料行業(yè)語料
- 020-個人護理相關語料
- 021-企業(yè)管理相關語料
- 022-房地產商行業(yè)語料
- 023-移動通訊行業(yè)語料
- 024-銀行業(yè)務行業(yè)語料
- 025-法律相關行業(yè)語料
- 026-財務會計相關語料
- 027-醫(yī)學醫(yī)療行業(yè)語料
- 028-計算機的行業(yè)語料
- 029-化學醫(yī)藥行業(yè)語料
- 030-合同協(xié)議常用語料
- 031-媒體相關行業(yè)語料
- 032-軟件技術行業(yè)語料
- 033-檢驗檢測行業(yè)語料
- 034-貿易運輸行業(yè)語料
- 035-國際經濟行業(yè)語料
- 036-紡織產品行業(yè)語料
- 037-物流專業(yè)行業(yè)語料
- 038-平面設計行業(yè)語料
- 039-法語水電承包語料
- 040-法語承包工程語料
- 041-春節(jié)的特輯語料庫
- 042-醫(yī)學詞匯日語語料
- 043-石油管路俄語語料
- 044-電機專業(yè)行業(yè)語料
- 045-工業(yè)貿易行業(yè)語料
- 046-建筑工程法語語料
- 047-核電工程行業(yè)語料
- 048-工廠專業(yè)日語語料
- 049-疏浚工程行業(yè)語料
- 050-環(huán)境英語行業(yè)語料
- 051-地鐵常用詞典語料
- 052-常用公告詞典語料
- 英文專業(yè)翻譯
- 法語母語翻譯
- 德語母語翻譯
- 西班牙母語翻譯
- 意大利母語翻譯
- 拉丁語專業(yè)翻譯
- 葡萄牙母語翻譯
- 丹麥母語翻譯
- 波蘭母語翻譯
- 希臘母語翻譯
- 芬蘭母語翻譯
- 匈牙利母語翻譯
- 俄語母語翻譯
- 克羅地亞翻譯
- 阿爾巴尼亞翻譯
- 挪威母語翻譯
- 荷蘭母語翻譯
- 保加利亞翻譯
如何評價Google神經機器翻譯(GNMT)系統(tǒng)?
翻譯有純人工翻譯,還有借助電腦的機器輔助翻譯(CAT,computer assisted/aided translation),還有傳統(tǒng)的機器翻譯(MT,machine translation)。
傳統(tǒng)的機器翻譯據說源于上世紀五六十年代的美國,為了破解蘇聯(lián)的大量俄語文件而研制。它的原理是詞匯間的一一對應,可以想見,產出的譯文肯定是不通的,或許只能大體看出原文在探討的主題。這樣的翻譯模式或者思路,在翻譯天氣預報這種語匯固定的文本上有一定用處。據說加拿大魁北克地區(qū)曾用這種方式播報雙語天氣預報。
機器輔助翻譯是指利用Trados或者wordfast這種工具,它的核心原理在于translation memory,即翻譯記憶語料庫。軟件工具把之前翻譯過的或者集中導入的雙語語料儲存起來,遇到相似程度高的原文時,自動調出之前的譯文,譯者在其基礎上修改,完成最終的譯文。其翻譯單位為句子。
以上介紹的基于語匯一一對應的機器翻譯和基于翻譯記憶數(shù)據庫的CAT,其實代表了實現(xiàn)人工智能的兩個思路。我自己只是搞翻譯的,對于人工智能不太懂,但機器/電腦翻譯屬于人工智能的范疇。人工智能的關鍵在于教會機器你想讓它認知的東西,對于如何教,有兩個思路。
舉一個我在TED演講中聽過的一個例子。
演講者從事的是圖像識別軟件的開發(fā)。一開始采取的套路是通過描述畫面來教會機器識別事物。比如給“貓”設置“圓臉、尖耳朵、長尾巴”等參數(shù),但是效果很差,機器識別了站立著的貓,就識別不了坐著的貓。
后來研發(fā)者換了一個思路,模擬人類孩童是如何認識貓的——見的多了,就知道這樣的是貓了(孩子并不會去分析原來圓臉、尖耳朵、長尾巴的才是貓)。于是將大量貓咪的圖片存入機器,并告訴它這是“貓”,后來機器遇到類似的圖片,就能識別出是貓。已有數(shù)據庫越大,機器識別得就越準確。
個人認為質量較高的機器/電腦翻譯的實現(xiàn),也要采取這后一種思路,即基于大量雙語語料的記憶和學習——讓機器記住什么樣的話是什么意思,而不是將語句分解為單個詞匯再去找它們在另一個語言中的對應。
根源還是語言的復雜性,無論是哪兩種語言之間,都不像二進制和十進制之間那樣可以實現(xiàn)一一對應,所以第一種思路的發(fā)展前途已經很局限。而第二個思路或許就是以后的方向,互聯(lián)網實現(xiàn)的大量語料共享也為它的發(fā)展提供了可能。
------------------------------------
關于如何看待機器/線上翻譯的進步:
雖然我自己是個翻譯匠,而且厭惡把線上翻譯隨便改改交差的譯員,但是對機器/電腦/線上翻譯本身心存親切——它畢竟不是人,不要笑話它。
它對于譯者也有用處,對于某些語匯(不是整句整段),它給的譯文由于基于大量現(xiàn)有語料,往往確實是業(yè)內人士用的比較多的說法。
所以大家不要看到機器翻譯產生可笑譯文就拿來調侃,該被調侃的是那些敢用這些譯文的人。
而且,沒有必要恐慌自己會被取代(前提是你的水平遠高于機器);機器差的還比較遠——如果你知道語言可以美到、精到、妙到什么程度,如果你明白很多時候它就是人的靈光一現(xiàn)的、獨一無二的、偶然的產物,就不會懷疑這一點。