對於人工智能(Artificial Intelligence, AI)來說,數據和算法,哪一樣較為重要呢?這個問題目前還沒有清楚明確的答案。這數年來,有關的專家,甚至是「非專家」一直為這個疑問在爭辯,而答案取決於許多細節。
這個問題或會令人馬上聯想到機器學習(Machine Learning, ML),然而,人工智能和機器學習其實是兩回事。事實上,機器學習只是人工智能的一個子領域,需要專門的數據來訓練算法。人工智能確實包含了其他基於邏輯或規則的方法,並且不一定要像機器學習一樣需要那麼多的數據。
大多數人可能不太在乎機器學習與人工智能之間的分別,並會將兩者混合使用。而事實上,現時有很多人將人工智能用作深度學習的同義詞,它本身就是一種特殊的機器學習方法。所以筆者認為,亦可以從深度學習的角度去思考人們爭辯了數年的問題,即是:
在現代深度學習方法中,數據是否比算法更重要?
筆者的回應為亦是亦非。的確,深度學習需要非常龐大的數據,它的算法有許多參數需要調整,因此需要大量數據,以想出一些可以概括的模型。因此,從這個意義上講,大量數據是良好深度學習的關鍵。事實上,有些人曾經解釋過,像Imagenet這樣的大型公共圖像數據集的出現,與最近AI於圖像辨識的研究進展之間,正正有直接關係。
不過值得注意的是,公共數據集的存在,讓一般人亦能擁有大量數據,因而減低了數據的競爭優勢。另外,在一些算法或運算方式之中,有趣的地方是,它們有時可以被擁有數據集的人或團體「預先培訓」,然後應用至大量的使用者。在這些個案裡,人工智能往往變得不太需要數據。
以下的比喻或者會讓讀者更易明白:如果你要訓練一個將英文翻譯成西班牙語的模型,你需要做的就是收集一個龐大的數據集,並訓練模型一次,該模型本身已帶有所有訊息,因此任何能夠獲得該模型的人都不再需要原始數據;亦可以說,這些特別的算法已經包含數據的「精華」在其中。 ■洪文正
簡介:本會培育科普人才, 提高各界對科技創意應用的認識,為香港青年人提供更多機會參與國際性及大中華地區的科技創意活動 ,詳情可瀏覽www.hknetea.org。
隔星期三見報