放大圖片
■科大計算機科學及工程學系副教授吳德愷與他的研究團隊。 彭子文 攝
——為Google網譯Siri奠基 吳德愷膺ACL首屆院士
香港文匯報訊(記者 劉景熙)全球一體化,要打破世界各地的文化隔膜,以高科技結合翻譯的技術是其中一座重要的橋樑。致力研究人工智能的香港科技大學計算機科學及工程學系副教授吳德愷,憑其於翻譯計算理論的革命性貢獻,早前更成為「國際計算語言協會(ACL)」首屆院士,其成就被譽為媲美獲「電腦語言科技界的諾貝爾獎」。他針對翻譯時需要注意的語法特性,成功結合電腦運算模式,創出「倒置轉移文法」理論,將翻譯所需時間大大減少。以16組字詞的中英對譯為例,其工作令電腦翻譯速度提高達5,400倍,為近代先進系統如Google網上翻譯、iPhone人工智能程式Siri等背後的運算理論奠下重要基礎。
近年網上翻譯系統的使用十分方便快速,很多熱門的搜尋網站大都附設翻譯程式,能整篇文章作對譯。吳德愷在接受本報訪問時解釋,這些可算是「次世代」的翻譯系統。由於不同語言的文法大不相同,翻譯系統不只需要掌握單字含義,如何能通順地譯出語句,是當中的大挑戰。
首代用字生硬 二代自然流暢
他說,早在上世紀七八十年代起,科學家一致認為要向電腦輸入大量文法規則和詞語意思,之後讓電腦「按本子辦事」即可,這被視為「第一代」人工智能系統。不過,該類系統翻譯時既欠精確組句且用字生硬,於是學界開始透過實際中的大量生活語例,輔以統計學的概率理論,使譯句更自然流暢,被視作「第二代」人工智能翻譯系統。
合併字詞單元 翻譯加速
吳德愷早年在美國攻博士時已是「概率理論」學派出身,他在上述「第二代」的基礎上,提出「倒置轉移文法(Inversion Transduction Grammar,ITG)」理論模型,大幅強化翻譯效率。他以香港歷年立法局及立法會的中英翻譯語例為基礎,按概率理論,把中或英的字詞單元合併成經常出現而內容有機會倒置的詞組,從而大幅減少電腦運算時所須處理的單位(unit)數目,令翻譯速度明顯提高,譯文也更自然貼近原意,而非機械式直譯。
他解釋,如句子涉及4個字詞,翻譯時共有24個排序組合,而當應用ITG後,組合會減少至22個,效果雖不明顯。但由於排序組合數量會隨字詞的增加以幾何級數上升,當詞句越長組合量便會大增,6個字詞翻譯組合有720個,但ITG可將之減少近半至少於400個;如果要翻譯16個字的句子,組合數量便達驚人的約21萬億個,往往需要超級電腦才能有效處理;而ITG則可把運算的「單位」刪減至39億個,讓翻譯速度快上5,400倍(原理見說明圖)。吳德愷笑言:「16個字還只是一句很短的句子呢。」
事實上,以ITG為基礎,近代電腦翻譯理論出現劃時代的轉變:電腦要處理的數據量大幅度降低,不但提升演算效率,亦使一般家用電腦,同樣有條件應付日常的文章翻譯,大力促進互聯網時代知識的流通。亦因有關貢獻,吳德愷早前獲選為國際權威的ACL首批17名院士之一,也是當中唯一來自大中華地區的學者。
|