logo 首頁 > 文匯報 > 百搭通識 > 正文

【琱j譯站】視像鏡頭一看 即譯西夏文

2020-01-13
■「西夏文字翻譯器」介面。 作者供圖■「西夏文字翻譯器」介面。 作者供圖

翻譯科技日新月異,人工智能深度學習技術(deep learning)的出現,進一步提高電腦自動翻譯的準確度和效率。有關技術除可應用於翻譯不同種類的現代語言文本,如招股書和政府公文,更有助古典文字的釋譯,包括筆畫複雜的西夏文。

西夏(1038-1227),又稱「大白高國」,是党項族於11世紀中國西北地區建立的王國。西夏文由開國君主李元昊(1003-1048)及朝臣野利仁榮(?-1042)編制,《宋史》記載:「元昊自製番書,命野利仁榮演繹之,成十二卷,字形體方整類八分,而畫頗重複。」文字編成以後,成為國家官方文字,西夏十代君主在位期間,很多官方檔案、法律文獻、宗教經書、漢傳典籍均以其文書寫,西夏文流行一時,及至元、明。

二十世紀初,俄國科茲洛夫(1863-1935)探險隊於黑水城發現大批西夏文書,中外學者隨即展開研究,形成「西夏學」的文史新領域。其中一個重要研究方向是西夏文釋譯,翻為現代語言,以鼓勵各地學術人士藉虓s見文獻考究,向世界重現西夏古國的歷史文明,揭示古代東亞的多元文化交流情況。現今相關的重要研究成果不少,例子有李範文的夏、漢、英三語字典,西田龍雄(1928-2012)的西夏文《華嚴經》研究,魏安(Andrew C. West)開發的夏、英雙語語料庫。

譯十數字已需數日

今存出土西夏文獻豐富,散藏中外,亟待深究。可是,現時釋譯文書的方法,主要依靠研究者個人的西夏語理解能力。筆者嘗譯西夏文《心經》殘片,一片僅有十數字的文書,可能需要花費數小時,甚或數天時間解讀和翻譯。為了加快文字破譯速度,筆者現正開發「西夏文字翻譯器」(介面見附圖),該系統利用深度學習技術,將現在已知的西夏文字組成人工神經網絡(artificial neural network),使用者只要利用視像鏡頭,掃描文書上的西夏單字,翻譯器便能即時辨析字體,標示推測準確度,提供中、英翻譯。

研發西夏文字翻譯器有兩大意義,一是協助處理大量尚待考究的西夏文獻,在人機協作的模式下,提高翻譯和研究成效;二是推動西夏語的學習,以培育新一代西夏文化研究人員。換言之,人工智能可以應用於出土文獻的翻譯,除了西夏文,以上系統將來更可用於分析古埃及聖書體、蘇美爾楔形文字等古代西方文字,促進二十一世紀人文學科的探究。■蕭世友博士 香港琤秅j學翻譯學院助理教授

讀文匯報PDF版面

新聞排行
圖集
視頻