【AI新時代之視聽無雙】電腦帶「眼」識人監察人流助反恐

2016-12-27

■王曉剛與團隊透過「深度學習」方式，輔以大型數據庫，研發能自動識別人面的AI系統。劉國權攝

中大「深度學習」AI醒「目」準確率超越人類肉眼

視覺及聽覺是人類最重要的認知渠道，而對於電腦來說，單純接收影像及聲音並不困難，但要進而辨別及判斷視聽訊息，做到真正「觀看」及「聆聽」，卻是相當大的挑戰。

本港大學及科技產業研究人員，正致力突破人工智能（AI）的視聽層面，並成功開發出相關的監察及教學應用。其中中文大學研究團隊以先進的「深度學習」技術，讓電腦系統「帶眼識人」，其準確率已超越人類，一度登上全球之冠；團隊更讓系統學會通過鏡頭辨認人群動向，監察活動安全性，支援防止罪案以至反恐，成為保障公共安全的得力助手。￭香港文匯報記者鄭伊莎

中大電子工程學系副教授王曉剛與團隊，透過模擬大腦行為建構人工神經網絡的「深度學習（deep learning）」方式，研發能自動識別人面的AI系統，讓電腦「帶眼識人」。他表示，系統集合了逾五百個人工神經元，分別代表着人面不同的屬性，可描述出具不同特徵的人面，例如有沒有戴眼鏡。

團隊又把神經元格式化，讓部分神經元能判斷人的性別或年齡，當神經元的反應由強變弱時，即其所見的人面亦由男變女，或由老年人變成年輕人。

為讓系統變得「聰明」，研究團隊收集了逾萬張名人相片，不斷訓練它識別容貌。王曉剛補充指，每次給一種人面特徵讓神經網絡去分辨，當它算錯了，就給反饋信號，告訴它算錯了，再糾正網絡中的參數，「讓它學會識別這些人面特徵的表達，所以之後也能辨識出沒有見過的人。」

若神經元增加將有何優勢？「它的識別能力會更強，當你要識別上千萬的人，就需要更複雜的網絡了。」

準確率達99.53% 一萬視頻訓練

在約兩年前，中大的人面識別系統「認人」準確率突破99%，首次超越人類肉眼準確度並登上世界第一，現時準確率更進一步提高至99.53%。研究團隊去年再成功提升系統的智能，讓其單靠「觀看」影片畫面便推算出人群密度，同時監察人群活動安全性。因其應用層面廣泛，在反恐、執法等領域均可發揮極大作用。

王曉剛解釋指，由於人與人之間會互相遮擋，要令系統學會分析人的行為頗有難度，於是他們建立了全球首個有一萬條視頻的數據庫，去訓練系統的智能，「裡面有逾八千個場景，人群可以分為94個屬性，例如發生在什麼地方、有什麼人、在做什麼事，這些屬性可完整地描述人群行為。」

「通過監控鏡頭，系統可以辨認人群的活動、檢測其密度，以及跟蹤和監測相關運動的方向，若發現有異常情況，即可能涉及危險或恐怖活動，系統可以立即作出警報或報警。」

他續說，系統已應用在北京、成都、深圳等地的安全部門及交通部門、地鐵及廣場等，協助監察公共安全。

續研系統手機化料數年內完成

在技術層面而言，中大AI視覺系統經過極龐大的數據庫訓練，其智能大為提升，能分析逾千萬甚至近億的數據。那麼研究是否可止步了？王曉剛搖頭說：「現在我們在探討如何讓人面識別系統應用在手機上，所以要把神經網絡及有關參數變小，令它變得很快；而在參數變小時對數據的描述及分辨能力卻要夠高，這是很大的技術難題。」不過，現時AI技術發展迅速，他有信心數年內會完成。

除了人面外，王曉剛與團隊亦正以深度學習訓練AI系統檢測及辨認死物，現時準確率已由3年前的20%進步至60%，能檢測逾二百種物體，包括車輛的去向等。

讀文匯報PDF版面