自拍美圖、人臉識別、無人駕駛……很難說計(jì)算機(jī)視覺還高冷地?zé)o人知曉,其實(shí)它早已潛入日常生活中。40年前,這項(xiàng)與機(jī)器人本為一家的技術(shù),一度因識別精準(zhǔn)率過低被嫌棄,緊追猛趕后,如今終于回到與機(jī)器人并駕齊驅(qū)的高尖水平。
最新的計(jì)算機(jī)視覺進(jìn)展到什么程度?
2015年12月13日,烏鎮(zhèn)世界互聯(lián)網(wǎng)大會舉辦前夕,第14屆國際計(jì)算機(jī)視覺大會(ICCV)在南美智利舉辦,這場2年一屆的頂尖盛會,展示了這一領(lǐng)域的最近突破。本屆ICCV被微軟亞洲研究院搶走了頭條。他們的視覺計(jì)算組研發(fā)出全新深度學(xué)習(xí)方法,具備152層類神經(jīng)網(wǎng)絡(luò),比原先多出132層,即用同樣的百萬比資料就可以訓(xùn)練出深層的類神經(jīng)網(wǎng)絡(luò)。這些最先進(jìn)的深度學(xué)習(xí)類神經(jīng)網(wǎng)路,能將照片中的車、房、人、物……等等一千類物件精準(zhǔn)地識別出來,平均錯(cuò)誤率從幾年前的動(dòng)輒50%,到今年已經(jīng)降到3%,已可接入實(shí)際應(yīng)用。
華人自古以來的圖像情節(jié)
ICCV頭條中的“亞洲”字眼非常醒目,實(shí)際上微軟這項(xiàng)里程碑式成果的發(fā)明者全是中國人。如果這還無法證明計(jì)算機(jī)視覺的世界版圖正向亞洲遷移,來看下一項(xiàng)證據(jù)。
ICCV通常在北美、歐洲等技術(shù)發(fā)達(dá)的國家舉行,今年的大會贊助商名單中竟出現(xiàn)了不少中國企業(yè)身影,商湯科技、百度、Viscovery創(chuàng)意引晴,漢字在贊助榜上快占據(jù)半壁江山。除了在世界頂尖國際會議上越發(fā)活躍之外,中國的計(jì)算機(jī)視覺學(xué)者也藉由區(qū)域型會議如ACCV,以及國內(nèi)計(jì)算視覺大會CCCV、RACV,凝聚了大量的政、商、媒體、學(xué)界的焦點(diǎn)與資源。
過去十年,中國人在計(jì)算機(jī)領(lǐng)域的分量和影響力逐年增加,相關(guān)學(xué)者越來越多,我在美國讀博士班的時(shí)候,教授就很好奇,“為什么你們?nèi)A人對計(jì)算機(jī)視覺特別感興趣?”我回答說,“因?yàn)槲覀兊奈淖志褪菑南笮挝淖珠_始,本身從圖像引申來的,看文字就像在看圖像一樣。”
中國很多面孔雖沒有去國外念過博士,但卻在這個(gè)領(lǐng)域越來越有影響力。微軟亞洲研究院的首席研究員孫劍博士,正是此類人物。近年來藉由“阿里云”的“天池”平臺舉辦的各項(xiàng)競賽,包括剛剛舉辦完的“淘寶穿衣搭配算法競賽”與“阿里大規(guī)模圖像搜索大賽”,也都幫助中國在圖像識別研究走在于世界的最前面。
五年前,中國計(jì)算機(jī)視覺的市場還小于美國,現(xiàn)在,兩國做計(jì)算機(jī)視覺的新創(chuàng)公司數(shù)量已旗鼓相當(dāng)。如果碰上合適的具體市場應(yīng)用,過幾年很有可能超越美國,且成為贏家通吃的局面,就像以色列的MobileEye獨(dú)占全球的“車輛撞擊預(yù)警系統(tǒng)”一樣。
中國獨(dú)特的市場需求:視頻+廣告
計(jì)算機(jī)視覺雖未迎來里程碑式的巨大風(fēng)口,但一個(gè)接一個(gè)的小風(fēng)口從未斷過。90年代人臉偵測成熟之后,現(xiàn)在所有的相機(jī)都可以框出人臉。下一項(xiàng)成熟的技術(shù),人臉識別,還可以精準(zhǔn)識別誰是誰。現(xiàn)在從臉書上傳照片,會自動(dòng)匹配好所有好友的標(biāo)簽,非常方便。在安防領(lǐng)域方面,全球有幾十家數(shù)得上的智能監(jiān)視系統(tǒng)廠商,可以輕松監(jiān)測畫面中的人物移動(dòng)。
目前大家搶著要解決的,是如何提升影像中物件識別的準(zhǔn)確度。一旦可以輕易知道畫面中存在的人物、物件、場景,就能用增強(qiáng)現(xiàn)實(shí)做游戲(AR)、監(jiān)測自動(dòng)駕駛的環(huán)境等等。中國的巨頭BAT都在做計(jì)算機(jī)視覺應(yīng)用。阿里舉辦商品識別大賽,第一年就推出了一百萬商品做識別,但像同款女裝識別還比較困難,受材質(zhì)、穿著者身材影響,沒法直接商品化應(yīng)用。騰訊有自己的視頻服務(wù),有自建團(tuán)隊(duì)做視頻中商品識別、廣告關(guān)聯(lián),從頭吃到尾。百度有無人駕駛、云平臺、圖像搜索等。
眾多可商業(yè)化應(yīng)用中,“視頻內(nèi)容關(guān)聯(lián)廣告”是中國獨(dú)創(chuàng)于世界的特色市場。這塊技術(shù)比YouTube早跑了兩年,不同于YouTube一家獨(dú)大,中國至少有十家企業(yè)競爭,都是賠錢在搶市場。阿里和優(yōu)酷、騰訊、愛奇藝、搜狐等視頻大佬,都開始鉆研基于視頻內(nèi)容識別的關(guān)聯(lián)廣告,即邊看邊購物體驗(yàn)。
現(xiàn)在看視頻時(shí)接觸的各類明星同款商品推送,已經(jīng)是深淺不一的機(jī)器視覺技術(shù)。觀賞綜藝節(jié)目時(shí),隱藏在屏幕背后的機(jī)器腦“看到”你喜愛的明星和商品,在網(wǎng)絡(luò)海洋中幫你挖出他的八卦,同款鞋子、手機(jī)。這就是智能化的視頻內(nèi)容辨識,用機(jī)器取代人眼、人腦,識別甚至肉眼無法認(rèn)知的物件紋路、形狀、商標(biāo),用大數(shù)據(jù)技術(shù)做到更相關(guān)的商品、知識信息匹配推送。雖然各公司還在摸著石頭過河,但這塊應(yīng)用做好則用戶與商家皆大歡喜。
機(jī)器視覺的未來
計(jì)算機(jī)視覺的未來何去何從?這塊領(lǐng)域的大佬、加州伯克利大學(xué)的Jitendra Malik教授,十年前就斗膽預(yù)測了未來十年計(jì)算機(jī)視覺的重要發(fā)展,如今驗(yàn)證了他的大部分預(yù)測都是對的。在今年的ICCV大會上,Malik教授又做了十大方向的預(yù)測,結(jié)合場景的語義分析就是其中重要一塊。未來物件識別還會持續(xù)推進(jìn),朝畫面中所帶訊息、不同場景下的情感和意義的識別發(fā)展。也許未來,機(jī)器視覺就成讀心專家,準(zhǔn)備好迎接這位朋友了嗎?