教大語料庫更新 查字兼睇電影片段
香港文匯報訊(記者 詹漢基)粵語是香港人的日常用語,其靈巧多變的助語詞「謘v、「啦」、「N」等,令語言變得活潑有趣。不過,對外地人而言,不單是語氣助詞,粵語多變的字詞結構,也是難以跨越的大山。香港教育大學的研究團隊建立了全港首個「香港二十世紀中期粵語語料庫」,讓有興趣的公眾利用經典粵語長片,學習日常用語,甚至從中了解粵語的流變。
在粵語中,簡單如「食飯」一詞,已有很多姿態:食晚飯、食冷飯、食便飯,甚至是食拖鞋飯。
為了讓非華語人士掌握粵語的字詞結構,教大語言學及現代語言系副教授錢志安及研究小組,自2012年至今,獲得研資局及校內撥款合共100萬港元,建立全港首個「香港二十世紀中期粵語語料庫」。
該項目自2012年展開,最新的版本將於本月下旬推出,用戶只需輸入漢字或粵語拼音,語料庫即能列出與該字相關的詞語、俚語,甚至是電影對話。
用戶如輸入「食」字,系統除了能顯示「食飯」等詞語,更能搜出「阿馬先生今晚鬺]度食晚飯」等電影對白及其出處。
錢志安表示,最新的語料庫有別於之前的版本,用戶甚至可以重播該對話的電影片段。「學習粵語,不能只在意人物講了什麼,更重要的是怎麼講。」當中的語氣及表情均是學習語言時的關鍵之處。
收錄《十月芥菜》等
雖然語料庫收錄的均為上世紀50年代至70年代的粵語長片,例如1967年的《彩鳳引金龍》、1952年的《十月芥菜》等,但錢志安指出,那年代的粵語長片題材寫實,演員對白地道,不僅是研究粵語的珍貴文獻,更是大眾學習粵語的途徑。
現時語料庫收錄了70套粵語片,種類主要涵蓋倫理劇、恐怖劇及笑片,約有三百名演員對話,庫藏約達一百萬字。
語料庫同時列舉字詞出現的頻率,一般人只需掌握48個高頻詞,「即可覆蓋、聽懂一半語料的內容;若掌握916個詞,更可以覆蓋達9成的內容。」
缺系統教學 外國人愁「問人」
其中一名研究成員、來自澳洲的Alistair Tweed,來港已經7年,能操流利的粵語。Alistair參與研究計劃,正好可以用外國用家身份,按學習習慣改良語料庫。來港前,他曾利用教科書自學粵語,但教科書內容以情境為主,句法難免生硬,實用性不高。
若學習粵語的話,除了缺乏有系統的教學材料,「最難的就是『問唔到人』」,粵語的句子結構、聲調變化,大部分以粵語為母語的人都說不出所以然來。
Alistair以「怕咩隉v一句為例,「『隉z字拉長、變短均表達了不同意思。」句末助詞「啦」、「喎」等,都讓不少外地人覺得粵語難以掌握。
港產片的字幕一般以現代標準漢語為主,Alistair表示,這對學習粵語的幫助其實不大,該語料庫正好可以讓用戶逐句重播,看蚍L型和字幕學習粵語。
錢志安表示,建設語料庫的技術日漸成熟,未來計劃將進一步擴大研究範疇至不同文本,以及加入粵普詞彙對照的功能,用家使用該資料庫時,選取適當的資料,長遠可以幫助非華語人士學習中文。