中大「深度學習」AI醒「目」 準確率超越人類肉眼
視覺及聽覺是人類最重要的認知渠道,而對於電腦來說,單純接收影像及聲音並不困難,但要進而辨別及判斷視聽訊息,做到真正「觀看」及「聆聽」,卻是相當大的挑戰。
本港大學及科技產業研究人員,正致力突破人工智能(AI)的視聽層面,並成功開發出相關的監察及教學應用。其中中文大學研究團隊以先進的「深度學習」技術,讓電腦系統「帶眼識人」,其準確率已超越人類,一度登上全球之冠;團隊更讓系統學會通過鏡頭辨認人群動向,監察活動安全性,支援防止罪案以至反恐,成為保障公共安全的得力助手。香港文匯報記者 鄭伊莎
中大電子工程學系副教授王曉剛與團隊,透過模擬大腦行為建構人工神經網絡的「深度學習(deep learning)」方式,研發能自動識別人面的AI系統,讓電腦「帶眼識人」。他表示,系統集合了逾五百個人工神經元,分別代表茪H面不同的屬性,可描述出具不同特徵的人面,例如有沒有戴眼鏡。
團隊又把神經元格式化,讓部分神經元能判斷人的性別或年齡,當神經元的反應由強變弱時,即其所見的人面亦由男變女,或由老年人變成年輕人。
為讓系統變得「聰明」,研究團隊收集了逾萬張名人相片,不斷訓練它識別容貌。王曉剛補充指,每次給一種人面特徵讓神經網絡去分辨,當它算錯了,就給反饋信號,告訴它算錯了,再糾正網絡中的參數,「讓它學會識別這些人面特徵的表達,所以之後也能辨識出沒有見過的人。」
若神經元增加將有何優勢?「它的識別能力會更強,當你要識別上千萬的人,就需要更複雜的網絡了。」
準確率達99.53% 一萬視頻訓練
在約兩年前,中大的人面識別系統「認人」準確率突破99%,首次超越人類肉眼準確度並登上世界第一,現時準確率更進一步提高至99.53%。研究團隊去年再成功提升系統的智能,讓其單靠「觀看」影片畫面便推算出人群密度,同時監察人群活動安全性。因其應用層面廣泛,在反恐、執法等領域均可發揮極大作用。
王曉剛解釋指,由於人與人之間會互相遮擋,要令系統學會分析人的行為頗有難度,於是他們建立了全球首個有一萬條視頻的數據庫,去訓練系統的智能,「裡面有逾八千個場景,人群可以分為94個屬性,例如發生在什麼地方、有什麼人、在做什麼事,這些屬性可完整地描述人群行為。」
「通過監控鏡頭,系統可以辨認人群的活動、檢測其密度,以及跟蹤和監測相關運動的方向,若發現有異常情況,即可能涉及危險或恐怖活動,系統可以立即作出警報或報警。」
他續說,系統已應用在北京、成都、深圳等地的安全部門及交通部門、地鐵及廣場等,協助監察公共安全。
續研系統手機化 料數年內完成
在技術層面而言,中大AI視覺系統經過極龐大的數據庫訓練,其智能大為提升,能分析逾千萬甚至近億的數據。那麼研究是否可止步了?王曉剛搖頭說:「現在我們在探討如何讓人面識別系統應用在手機上,所以要把神經網絡及有關參數變小,令它變得很快;而在參數變小時對數據的描述及分辨能力卻要夠高,這是很大的技術難題。」不過,現時AI技術發展迅速,他有信心數年內會完成。
除了人面外,王曉剛與團隊亦正以深度學習訓練AI系統檢測及辨認死物,現時準確率已由3年前的20%進步至60%,能檢測逾二百種物體,包括車輛的去向等。