《最強(qiáng)大腦》昨日進(jìn)行了首次人機(jī)大戰(zhàn),在人臉圖像識(shí)別領(lǐng)域,承載了“百度大腦”的小度機(jī)器人擊敗了以記憶著稱的最強(qiáng)大腦選手王峰。圖像識(shí)別和機(jī)器視覺(jué)始終是機(jī)器學(xué)習(xí)領(lǐng)域的重要方向,與AlphaGo之類重在神經(jīng)網(wǎng)絡(luò)研發(fā)方向不同,百度將人工智能技術(shù)研發(fā)直接押寶到應(yīng)用端,無(wú)論是無(wú)人車,還是圖像識(shí)別、自然語(yǔ)言處理等,都是更接近直接應(yīng)用的技術(shù)。
不過(guò),為何選擇通過(guò)電視節(jié)目《最強(qiáng)大腦》的參賽,去讓百度大腦與人類選手PK,百度方面的具體考量標(biāo)準(zhǔn)是什么?百度深度學(xué)習(xí)實(shí)驗(yàn)室主任林元慶在接受媒體采訪時(shí),談到了人臉識(shí)別背后的技術(shù)難點(diǎn),以及百度本次赴戰(zhàn)背后的想法。
百度深度學(xué)習(xí)實(shí)驗(yàn)室主任林元慶
以下為百度深度學(xué)習(xí)實(shí)驗(yàn)室主任林元慶演講實(shí)錄:
大家下午好!我是百度深度學(xué)習(xí)實(shí)驗(yàn)室的林元慶,今天也非常高興代表百度的人工智能給大家分享一下我們參加這個(gè)比賽的一些心得。百度在人工智能起步的時(shí)候非常早,搜索里面用到非常多人工智能的技術(shù),百度人工智能最核心的就是百度大腦,經(jīng)過(guò)非常多年的積累,現(xiàn)在百度大腦擁有世界上最大規(guī)模的神經(jīng)網(wǎng)絡(luò),萬(wàn)億級(jí)別的參數(shù),千億的訓(xùn)練數(shù)據(jù),億級(jí)別的特征,這個(gè)是非常強(qiáng)大的人工智能系統(tǒng)。在最近開的世界互聯(lián)網(wǎng)大會(huì)上,百度大腦也是唯一一個(gè)國(guó)內(nèi)獲獎(jiǎng)的世界領(lǐng)先成果獎(jiǎng)。
我們最近也獲得了人工智能四大巨頭之一的稱號(hào),我們自己覺(jué)得這應(yīng)該是代表了國(guó)內(nèi)最高的人工智能的水平。這次參加比賽的主要是以深度學(xué)習(xí)實(shí)驗(yàn)室為主,主要是在計(jì)算機(jī)視覺(jué)和深度學(xué)習(xí)的平臺(tái)、深度學(xué)習(xí)的平臺(tái)在座的各位聽說(shuō)過(guò),和谷歌的類似,只不過(guò)百度有百度的優(yōu)勢(shì),在一些方面比它們做的更好。
剛才我們看到的人臉識(shí)別,其實(shí)就是計(jì)算機(jī)視覺(jué)。這是我們深度學(xué)習(xí)實(shí)驗(yàn)室現(xiàn)在做的方向,人臉識(shí)別是其中的一個(gè)方向,這里面還有兩個(gè)方向沒(méi)有列,一個(gè)是智能駕駛,一個(gè)是增強(qiáng)現(xiàn)實(shí)。智能駕駛是2015年從深度學(xué)習(xí)實(shí)驗(yàn)室孵化出去的項(xiàng)目,專門成立了獨(dú)立的事業(yè)部做智能駕駛。兩個(gè)禮拜之前增強(qiáng)現(xiàn)實(shí)也獨(dú)立出去,成立增強(qiáng)現(xiàn)實(shí)實(shí)驗(yàn)室,這兩個(gè)都是深度學(xué)習(xí)實(shí)驗(yàn)室孵化出來(lái)的項(xiàng)目。因?yàn)檫@兩個(gè)項(xiàng)目都已經(jīng)做的非常好,我們覺(jué)得應(yīng)該給它更多的空間發(fā)展,從實(shí)驗(yàn)室走到現(xiàn)實(shí)當(dāng)中。
這次《最強(qiáng)大腦》比拼的是人臉識(shí)別,蔣昌建老師也提到了,我們一直保持的是世界第一。2016年最看重的是一些營(yíng)運(yùn),今年我們投入了非常大的力量,希望能夠把人臉識(shí)別做成一個(gè)非常實(shí)用的技術(shù)。人臉識(shí)別在2016年有一些性能的提升,這是在我們內(nèi)部非常難的測(cè)試集上,實(shí)際上從實(shí)際的應(yīng)用里面來(lái),我們把一些非常容易的去掉了,過(guò)去的這幾年,2015年年底在這個(gè)測(cè)試集上最好的精度是8%的錯(cuò)誤率。經(jīng)過(guò)2016年的改進(jìn),9月份錯(cuò)誤率降低到2.3%,這是非常大的降低。最后,我們希望能夠把錯(cuò)誤率降到1%以下,大家看到基本上有將近10倍左右的降低,這個(gè)是非常大的。我們平常說(shuō)這個(gè)技術(shù)做的好,我們提高了20%、30%,這個(gè)是錯(cuò)誤率降低了10倍,是非常棒的。
我們今年選擇參加《最強(qiáng)大腦》,在這里我解釋一下圖象識(shí)別這一塊,人臉和人腦的識(shí)別不一樣,比如說(shuō)貓,就算是3歲的小孩,貓擺出不同的姿勢(shì),各種各樣的貓都能夠很好的識(shí)別。機(jī)器如果精確的識(shí)別,后面需要非常海量的數(shù)據(jù)訓(xùn)練,可能是成千上萬(wàn)的數(shù)據(jù)。訓(xùn)練的結(jié)果還不一定正確,下一次碰到姿勢(shì)不一樣的貓,有可能識(shí)別錯(cuò)。雖然我們人工智能技術(shù)過(guò)去幾年取得了長(zhǎng)足的進(jìn)步,但是識(shí)別還是一個(gè)非常難的事情。
《最強(qiáng)大腦》挑戰(zhàn)的是比識(shí)別貓更難的,歷史上有許多次的人機(jī)大戰(zhàn),比如說(shuō)最近幾天大家討論的Master,之前的AlphaGo、深藍(lán)等等。比如說(shuō)針對(duì)下棋,空間還是有限的。識(shí)別需要一些模糊推理的能力,其實(shí)這里面還不是傳統(tǒng)的計(jì)算器很擅長(zhǎng)的。甚至我自己也把我的高中畢業(yè)照給一些同事看過(guò),基本上是很難識(shí)別出來(lái)的。最后有同事識(shí)別出來(lái),我說(shuō)你們?cè)趺醋R(shí)別?看氣質(zhì)。看氣質(zhì)的東西我說(shuō)計(jì)算機(jī)怎么搞?這次和《最強(qiáng)大腦》做的幾期節(jié)目,這些任務(wù),比如說(shuō)跨年齡的,第三期的遮擋,戴著口罩和大墨鏡、帽子從上往下照,看到鼻子以下的部位,這些任務(wù)是大家公認(rèn)沒(méi)有解決好的問(wèn)題,這些事情還是蠻難的,不是說(shuō)大家都能做的很好的。
這次百度也希望從綜合的方面和人類比一下,最后能不能做的非常好。我們經(jīng)過(guò)了很多年的研發(fā),最后看一看我們和這些人類比,到底我們的水平在哪里。特別是我們這次的比賽,大家看王峰最后的題目做出來(lái)的時(shí)候,特別是非常強(qiáng)大的,我切身的體會(huì)到他們和普通人真的不一樣,他們的能力非常強(qiáng),這些題目確實(shí)是非常難的,不是很傳統(tǒng)的識(shí)別,我們的對(duì)手還是非常強(qiáng)勁,比如說(shuō)王峰。
《最強(qiáng)大腦》今年早些時(shí)候找到我們的時(shí)候,也不知道這個(gè)節(jié)目能不能做好,因?yàn)檫@是前所未有的,沒(méi)有一家公司在這方面專門做過(guò)這些內(nèi)容,他們也不知道,在國(guó)內(nèi)找了很多家公司看一看誰(shuí)能做的比較好。這個(gè)是他們當(dāng)時(shí)給我們的測(cè)試,當(dāng)時(shí)基本上是《最強(qiáng)大腦》坐一排,百度的坐一排,把這些數(shù)據(jù)給我們,看一看你能做對(duì)多少個(gè)。但是在這上面,總共八個(gè),我們只錯(cuò)了一個(gè),難度還是蠻大的。從《最強(qiáng)大腦》的節(jié)目組來(lái)講,看完了我們做的以后被我們震住了,選擇百度和他們做這一檔節(jié)目。這里面還看了語(yǔ)音的能力,綜合來(lái)說(shuō)百度在這方面非常強(qiáng),最后他們選擇和百度做這一期節(jié)目。
過(guò)去兩個(gè)多月的時(shí)間備戰(zhàn),準(zhǔn)備上這個(gè)節(jié)目。我大概給大家一個(gè)概念,這里面到底做了哪些特別棒的事情。最后的人臉系統(tǒng)分兩步訓(xùn)練的,第一步訓(xùn)練的是通用的人臉識(shí)別系統(tǒng),不是專門針對(duì)跨年齡的,這次成功最關(guān)鍵的是這一塊,訓(xùn)練了一個(gè)非常強(qiáng)大的人臉識(shí)別系統(tǒng)。我們的數(shù)據(jù)里面是兩百萬(wàn)人,每個(gè)人有一百?gòu)堈掌覀冇靡粋€(gè)非常大的數(shù)據(jù)訓(xùn)練我們的人臉識(shí)別系統(tǒng),這是百度很多年積累起來(lái)的數(shù)據(jù),這個(gè)過(guò)程的迭代是數(shù)據(jù)和算法一起迭代,這里面非常難的事情是你要有非常好的算法,充分利用這些數(shù)據(jù)。利用這些數(shù)據(jù),你能設(shè)計(jì)出非常好的算法符合這些數(shù)據(jù)。
這里給大家一個(gè)感性的認(rèn)識(shí),大家經(jīng)常聽到ImageNet一千類,150萬(wàn)張照片,我們大概是兩百萬(wàn)類,類別我們是它的兩千倍。如果按圖片的數(shù)量來(lái)算,他們是150萬(wàn),我們是兩億,基本上是一百多倍。如果把這些數(shù)據(jù)放在一起,看的是這樣的內(nèi)容。因此,在量級(jí)上差別還是非常大的。如果大家要訓(xùn)練的話,業(yè)界也得五天到七天,如果訓(xùn)練到這么大的數(shù)據(jù),如果是一百倍的話得訓(xùn)練一年多,這里面有非常好的算法設(shè)計(jì),包括很好的計(jì)算等等各個(gè)方面,我們能把這個(gè)模型訓(xùn)練起來(lái)。
這是我們準(zhǔn)備當(dāng)中的花絮,要做成一件事情是很難的,特別和《最強(qiáng)大腦》比賽,這個(gè)過(guò)程很忐忑,也很興奮。忐忑的是事情能搞定嗎?興奮的是終于有一個(gè)機(jī)會(huì)去看一看我們的人工智能技術(shù)做了這么多年,跟人還有多大的差距,或者是已經(jīng)到達(dá)了什么樣的水平。我個(gè)人從國(guó)慶開始就沒(méi)有放假,一直到節(jié)目做完,基本上中間一天都沒(méi)有放假,兩三點(diǎn)這都是正常的,我的團(tuán)隊(duì)經(jīng)常是三點(diǎn)、四點(diǎn)以至于到第二天,這個(gè)很正常。我覺(jué)得要做成一件事情,這是最基本的。比如說(shuō)我們的同學(xué)在封閉的會(huì)議室里過(guò)生日,我加入百度大概一周年,大家一起慶祝。為了節(jié)目我們把人工智能的能力植入到小度身上,代表百度參加比賽,我們自己在這個(gè)過(guò)程中,覺(jué)得小度特別猛。
大家可能也有疑問(wèn),百度做了這么多技術(shù),亮點(diǎn)在哪里。現(xiàn)在我們做的人臉識(shí)別的門禁技術(shù),在百度的大廈里已經(jīng)落地了,百度整個(gè)公司有30條左右的閘機(jī)已經(jīng)用了人臉識(shí)別系統(tǒng),人走在那里稍微站一下直接就往里走,一秒到兩秒的時(shí)間,不用卡了。這個(gè)技術(shù)是1比N的人臉識(shí)別,我們能做到非常高的精度,業(yè)界也是首創(chuàng)。之前市場(chǎng)上的系統(tǒng)是1比1的,比如說(shuō)銀行的應(yīng)用里面,你要提交身份證和人臉的信息,系統(tǒng)會(huì)拿身份證照片比對(duì)一下是不是同一個(gè)人,一張比一張,一比一的比對(duì),市場(chǎng)上基本是這個(gè)系統(tǒng)。公安抓逃犯的系統(tǒng)是1比N,精度不會(huì)做的特別高,用機(jī)器篩一遍,還是需要人去看的,1比N很難做到非常高的精度。我們這個(gè)系統(tǒng)第一次能夠做到,百度目前的系統(tǒng)里大概是一萬(wàn)人,很精確的識(shí)別一萬(wàn)里面的一個(gè)人,或者這個(gè)人不在這個(gè)系統(tǒng)里,是外來(lái)的人,它就會(huì)拒絕掉你。我們現(xiàn)在是萬(wàn)級(jí)別,還能做到非常高的精度,這個(gè)絕對(duì)是國(guó)內(nèi)首創(chuàng),也是我們下面會(huì)重點(diǎn)來(lái)推的方向。
這是在烏鎮(zhèn)落地的項(xiàng)目,這個(gè)是它的注冊(cè)系統(tǒng),注冊(cè)完了以后就可以往里走,現(xiàn)在很多景點(diǎn)有指紋識(shí)別系統(tǒng),精度很難做的特別高,都是一比一的,過(guò)的時(shí)候出示一下身份證,小孩和老人的精度很難做。因?yàn)槔先说闹讣y都磨損了,指紋通過(guò)基本上是在10秒左右一個(gè)人,我們這個(gè)系統(tǒng)是非常革命性的,我們是用人臉做的,1比N的,不需要再出示你的身份證,基本上通過(guò)率是一到兩秒左右,非常快。在今年下半年,大家去景區(qū),很多景區(qū)應(yīng)該多會(huì)有這樣的系統(tǒng),如果你看到的話,一定是百度的系統(tǒng)。
我們也會(huì)做1比1的系統(tǒng),成功的在百度自己的產(chǎn)品上線,外部的泰康保險(xiǎn)都會(huì)用,確實(shí)在性能上比目前市場(chǎng)上的競(jìng)品好很多。一些系統(tǒng)轉(zhuǎn)過(guò)去要有一些成本,百度精度上做的非常好,原來(lái)用了別人的,現(xiàn)在轉(zhuǎn)到用百度,我相信接下來(lái)會(huì)越來(lái)越多。
當(dāng)然,我們也很容易想到其他內(nèi)容,在這方面我們也在推進(jìn),比如說(shuō)公安方面識(shí)別罪犯,1比N做的非常好,原來(lái)的精度做的不夠好。現(xiàn)在,我們希望百度這邊能夠做出非常高精度的1比N的人臉識(shí)別系統(tǒng)。甚至識(shí)別被拐賣的兒童,和打拐辦也在推進(jìn),還有安防等等,很多和人臉識(shí)別相關(guān)的應(yīng)用,后續(xù)都會(huì)大力推進(jìn)。
現(xiàn)在人工智能在接下來(lái)的五到十年里是一個(gè)非常重要的技術(shù),我們后面人類和人工智能一定是共存的,我們百度更相信最后是人工智能幫助人類,比如說(shuō)《最強(qiáng)大腦》這個(gè)節(jié)目不是宣傳打敗了人類,輸贏我們不是最看重的,最重要的是看一看百度和中國(guó)的人工智能已經(jīng)到了怎么樣的水平,這是我們特別關(guān)心的。后面的五年、十年,甚至二十年、五十年,我們一定會(huì)跟人工智能的技術(shù)共存,希望我們把這些技術(shù)用好,幫助人類解決問(wèn)題,而不是讓這些技術(shù)成為人類的對(duì)立面。如果大家想做人工智能的可以加入像百度這樣的公司,大家一起努力,把技術(shù)用到最好。
這幾期做節(jié)目的過(guò)程中也發(fā)現(xiàn)了,從旁觀者的角度來(lái)看,挺值得我們思考的。比如說(shuō)每一期的節(jié)目,如果是小度贏了,很多觀眾覺(jué)得蠻沮喪的,如果是人類贏了,大家會(huì)很歡呼。我覺(jué)得我們應(yīng)該從另外一個(gè)方面看,比如說(shuō)王昱珩說(shuō)過(guò)人類發(fā)明汽車的時(shí)候,不會(huì)因?yàn)?a href="http://www.xebio.com.cn/auto" target="_blank" class="keylink">汽車比我們跑的快我們很沮喪。我們發(fā)明的這些技術(shù)最后是為我們所用的,這些技術(shù)會(huì)是未來(lái)的技術(shù),這一次《最強(qiáng)大腦》的人機(jī)大戰(zhàn),我們也在思考怎么樣和人工技術(shù)共存,怎么樣更好的利用人工智能技術(shù),謝謝大家!