logo 首頁 > 文匯報 > 教育 > 正文

中大高效測錯字軟件擬任用

2017-06-12
■左:馮沛璋,右:黃錦輝。 香港文匯報記者柴婧  攝■左:馮沛璋,右:黃錦輝。 香港文匯報記者柴婧 攝

香港文匯報訊(記者 柴婧)學界近年正為如何提升學生中文水平而頭痛,中大系統工程與工程管理學系黃錦輝團隊積極研發全港唯一為學生量身打造並首加粵語元素的「錯字和粵語檢測系統」,系統可檢測錯別字、粵語用法、簡體字、倒裝用法,並提供修改建議;幾百到一千字的文章,數秒便可完成分析,準確率逾80%。系統更會加入人工智能和深度學習元素,以適應文字不斷演變。團隊計劃今年把系統轉化為辦公室軟件插件,開放予公眾使用。

隨着社交網絡和即時通訊軟件興起,年輕人習慣以各式各樣口語、縮寫、諧音或中英夾雜的文字溝通,令部分學生書面表達能力下降。黃錦輝指,團隊花了兩年時間,透過大量粵語數據挖掘、深入計算和分類技術,研發出自動化「錯字和粵語檢測系統」,希望學生通過系統改善中文水平。

系統主要分為錯字檢測和粵語檢測兩部分,可檢測錯別字、粵語用法、簡體字、倒裝用法,並提供修改建議。使用者輸入中文句子或篇章後,系統會首先運用「錯字檢測模組」為句子進行分詞(Segmentation)與詞性標註(Part-of-speech tagging),以檢測句子中不能與前文後理組成通順句子的字。

準確率逾80% 勝同類產品

由於現有演算法存在局限,容易誤判,中大系統工程與工程管理學系研究員馮沛璋補充指,團隊研發的新系統以大數據(Big Data)與深度學習(Deep Learning)為基礎,配合獨特智慧演變算法,能有效減少誤判情況,成功識別句子不恰當口語與倒裝用法,準確度優於市面上同類產品,準確率逾80%。

至於系統獨有「粵語檢測模組」,可檢測字句是否有粵語口語用法。

模組配置一個構造規則庫系統,參考多份文獻後,以粵語語言規則和詞性標註構造了多條規則,適用於基本粵語句子結構。系統還能檢測量詞用法是否正確、是否輸入了簡體字,以及倒裝用法。系統有一個包含了60,000多個中文字的混淆集,通過評分機制,從而提議最合適的替換字詞。

馮沛璋表示,系統人工智能、深度學習等元素,能根據使用者選詞造句的要求及語文教師的設定等,不斷自我改進和更新相關的詞語和語法規則,令系統中文檢錯功能進一步完善。

讀文匯報PDF版面

新聞排行