對於AI發展來說,機器學習(machine learning)毫無疑問是重大技術突破,只要透過大量的數據供電腦「學習」,便能讓其建立「智能」模型,就相關情況自動運作分析。
不過楊強直言,機器學習的缺點亦非常明顯,因為其中必須依賴大數據,大大限制其應用的普及性。為此科學家參考人類智能,開發「遷移學習(transfer learning)」技術,希望讓電腦於一個數據不多的新領域,也可以從已有大量數據的相似領域,將學習模型「遷移」過來,令成效大大提高。
「遷移學習」聽起來像是一個艱深新概念,但楊強表示,類似情況於人類生活其實俯拾皆是,「例如人類先學會踏單車,學會了再去學開電單車,就容易好多,這是因為在學電單車時,人可以將踏單車的model搬過來;又或者如果打羽毛球打得很好,學網球可以學得很快,這是因為很多動作都是類似的,這就是人的能力。」
再闊一點的話,就像俗語所說的「一理通,百理明」;然而在「一理通」之後,為何或如何可以做到「百理明」,才是科學家最重要的研究目標。楊強提到,在上世紀50年代美國著名心理學家Harry Harlow,便曾發現如向猴子教授類似的東西,其學習速度會愈來愈快,說明猴子同樣具備「遷移學習」能力;而在教育專業範疇,也有存在了超過100年的「學習遷移(transfer of learning)」理論,「要怎麼看一個老師教得好不好?不是考試,而是學生學下一門課時,學得有多容易,你就教得有多好。」即是以另外一門課衡量這一門課的教學表現,當中的「遷移」有多成功。
研機器辨「源領域」間相似度
「遷移學習」理論背景深厚,要讓機器亦能做到,便需要透過電腦語言、算法及模型等落實。楊強解釋指,當中會涉及一個已有很多數據、學到了很多知識的「源領域」,比方說系統已學會了法語;之後則有一個新的「目標領域」,例如說是英語,雖然數據及練習量都很少,但因為法語和英語於語法、詞和意思都有很多類似模式可以「遷移」過來,讓系統很快地學會。而當中的實現方法,可以包括樣本遷移、特徵遷移、關係遷移等。
楊強表示,現時「遷移學習」的理論研究重點,在於怎樣能夠識別兩個領域是相似的,此亦是當中重大挑戰,「就是說任意給你兩個領域,告訴我是像或是不像;但這即使對人來說都是很難的,我們希望機器能自動識別這一點。」 ■記者 任智鵬