以往,我們提起AI,有一個(gè)共鳴,即它在某些方面曾經(jīng)碾壓人類,好比下圍棋;它在另外一些方面遠(yuǎn)不及人類,好比熟悉一只植物、熟悉許多只植物。緣由之一是AI自立進(jìn)修才能遠(yuǎn)不及人。
頭幾天,AlphaGo Zero橫空降生,從零開(kāi)端,閉關(guān)72小時(shí)自我棋戰(zhàn)圍棋,即100:0完勝之前用了幾個(gè)月時(shí)光生長(zhǎng)、勝了李世乭的AlphaGo。這仿佛注解,開(kāi)辟某個(gè)專項(xiàng)智能時(shí),AI算法不再像曩昔那樣動(dòng)輒須要百萬(wàn)、萬(wàn)萬(wàn)量級(jí)的有監(jiān)視年夜數(shù)據(jù),算法乃至可以從0數(shù)據(jù)開(kāi)端自立進(jìn)修,頂多只需年夜范圍無(wú)監(jiān)視數(shù)據(jù)。
因而,許多人驚呼AI自立進(jìn)修的時(shí)期到來(lái)了。仿佛很快就會(huì)有一個(gè)叫做AI Zero的學(xué)神小瑰寶橫空降生,自立狂學(xué)一個(gè)月,立時(shí)長(zhǎng)年夜成人,釀成一個(gè)智商、情商超出人類的AI 100。
但現(xiàn)實(shí)生怕并不是如斯。
我自己是做盤算機(jī)視覺(jué)研討任務(wù)的,尤以人臉辨認(rèn)方面的研討比擬多。便借AlphaGo Zero之春風(fēng),我也做了個(gè)Face Zero的夢(mèng),想了想人臉辨認(rèn)從0自立進(jìn)修的能夠性。
AlphaGo Zero自造數(shù)據(jù)的思惟很難擴(kuò)大到Face Zero
先看看AlphaGo Zero學(xué)神怎樣做的:從0開(kāi)端自造數(shù)據(jù)。對(duì)人臉來(lái)講,這個(gè)第一步就有點(diǎn)懸了,若何造人臉呢?圍棋有明白的落子規(guī)矩和勝負(fù)斷定原則,按規(guī)矩模仿棋戰(zhàn)便可造出年夜量有監(jiān)視的數(shù)據(jù)。可兒臉若何從0造?假如沒(méi)有任何的人臉樣例或常識(shí),除非天主他白叟家在,不然怕只能造一堆“鬼臉”出來(lái)——橫豎誰(shuí)也沒(méi)見(jiàn)過(guò)鬼,怎樣造都行。
假如如許,怕是這夢(mèng)只能醒了。
那,至多給一張人臉,讓算法本身“觸類旁通”,發(fā)明千萬(wàn)萬(wàn)萬(wàn)張人臉可行嗎?好比給算法一張年夜奧黛麗赫本的人臉圖象,讓算法把赫本這張人臉照片變啊變,變出1000幅赫本女神的人臉圖出來(lái),再變出不計(jì)其數(shù)不是赫本女神、但長(zhǎng)相公道的人臉。
且不說(shuō)怎樣變形的困難,這外面有兩個(gè)成績(jī)須要處理:若何包管算法“觸類旁通”變出來(lái)的人臉照樣女神的臉而不是孫悟空、豬八戒的面部照?和,若何包管算法可以“觸類旁通”變出奧巴馬、貓王等各類人的面部照?要處理這兩個(gè)成績(jī),我們須要年夜量人臉的樣例或其他常識(shí),好比人臉的3D構(gòu)造、成像的物理模子、老化模子、臉色模子、眼鏡模子等等。
這就和最后“給一張人臉”的假定抵觸了,這夢(mèng)便只能是南柯夢(mèng)了。
再退一步,即便我們有赫本女神人臉的3D構(gòu)造和成像模子等,這兩個(gè)成績(jī)依然須要處理:甚么幅度的3D形變,好比變胖或變瘦或變老,可以確保照樣赫本自己而不會(huì)釀成其別人? 甚么樣的形變可以確保變出一個(gè)公道的人臉,而不會(huì)變出一個(gè)史瑞克或豬八戒?
人臉辨認(rèn)在這里表現(xiàn)出一個(gè)和圍棋棋戰(zhàn)的較年夜差異:圍棋有明白的輸贏剖斷規(guī)矩,而人臉辨認(rèn)并沒(méi)有一個(gè)如許的“剖斷”規(guī)矩。所以,人臉辨認(rèn)算法假如也應(yīng)用對(duì)AlphaGo相當(dāng)主要的加強(qiáng)進(jìn)修辦法,借“試錯(cuò)”完成自立進(jìn)修,不太實(shí)際。這就像先生做模仿題,假如做完題不給他謎底,不給他失言在哪,甚么是對(duì)。他生怕難以提高。
應(yīng)用年夜量無(wú)監(jiān)視數(shù)據(jù)的思緒也很難擴(kuò)大到Face Zero
退一步,看看AlphaGo Zero其他處所有無(wú)值得自創(chuàng)的。據(jù)AlphaGo Zero的論文所說(shuō),其焦點(diǎn)的地方是用加強(qiáng)進(jìn)修來(lái)主動(dòng)進(jìn)修用于啟示式搜刮的評(píng)分函數(shù)(價(jià)值收集)。對(duì)人臉辨認(rèn)來(lái)講,其焦點(diǎn)現(xiàn)實(shí)上也是進(jìn)修一種評(píng)分函數(shù),即盤算兩張人臉照片的類似水平:統(tǒng)一人圖象類似度盡可能高,分歧人類似度盡可能低。
看起來(lái)有點(diǎn)機(jī)遇。既然從0或從1開(kāi)端不可,那末,能否可以給算法1億張無(wú)監(jiān)視(即沒(méi)有標(biāo)簽)的人臉照片數(shù)據(jù),然后讓Face Zero自創(chuàng)AlphaGo Zero的思緒進(jìn)修評(píng)分函數(shù)呢?
遺憾的是這也不可。由于我們應(yīng)用的是無(wú)監(jiān)視人臉圖象,我們不曉得這1億幅人臉圖象是若干人的圖象,個(gè)中哪些是統(tǒng)一人的,人臉辨認(rèn)算法又不克不及像圍棋算法一樣本身斷定對(duì)錯(cuò)親睦壞,固然就沒(méi)方法自我加強(qiáng)起來(lái)。
所以進(jìn)修這個(gè)類似度評(píng)分函數(shù)掉去了根據(jù)。
又是黃粱一夢(mèng)。
看到這里,懂生成式反抗收集(GAN)的讀者能夠會(huì)辯駁:有了年夜量人臉圖象,即便是無(wú)監(jiān)視的,我們也能夠用GAN如許的類“加強(qiáng)進(jìn)修”戰(zhàn)略來(lái)生成各類看起來(lái)相符真實(shí)人臉“散布”的人臉圖象。
如許一來(lái),給定一張赫本女神的人臉圖象,F(xiàn)ace Zero便可以生成她的各類美圖了嗎?可是,成績(jī)?cè)谟冢瑳](méi)有了那些主要的監(jiān)視信息,只能包管GAN生成的人臉圖象看起來(lái)是張臉,但沒(méi)法包管她不會(huì)變貓王或奧巴馬。
這觸類旁通的設(shè)法主意,生怕照樣不可。
AlphaGo Zero的思惟對(duì)削減人臉辨認(rèn)有監(jiān)視數(shù)據(jù)需求量的價(jià)值較小
再退一步,AlphaGo Zero的思惟能否可用于削減有監(jiān)視數(shù)據(jù)的需求量呢?例如,依照今朝的辦法論,用深度進(jìn)修做人臉辨認(rèn),起首須要搜集整頓盡可能多的人臉圖象,好比100萬(wàn)人的1億張有標(biāo)注的照片,然后讓深度進(jìn)修算法用這些圖象進(jìn)修若何提取可以辨別分歧人臉的好特點(diǎn)或許若何盤算類似度評(píng)分函數(shù)。
好比,先給人臉辨認(rèn)算法供給1萬(wàn)人的有標(biāo)注人臉圖象,讓它學(xué)會(huì)辨別1萬(wàn)人的人臉,然后讓它“舉一反百”、“舉一反千”、“舉一反萬(wàn)”,即從這1萬(wàn)天然出100萬(wàn)人、1000萬(wàn)人、1億人,乃至全球一切人的圖象。
這個(gè)設(shè)法主意假如可行,那我們對(duì)數(shù)據(jù)的需求量就削減了100倍,這意味著在搜集和標(biāo)注數(shù)據(jù)方面,年夜幅下降了本錢,從而使得深度進(jìn)修算法的易費(fèi)用“蹭蹭”的進(jìn)步。
為此,一種能夠的方法是用GAN如許的類加強(qiáng)反抗算法“發(fā)明”分歧的人臉。在“發(fā)明”第10001小我的臉部圖象時(shí),請(qǐng)求其既與之前的10000人都分歧,又要確保第10001小我的臉部圖象看起來(lái)是真實(shí)的照片,而不是卡通人像或鬼臉。
遺憾的是,依照今朝GAN的思惟,是有局限的。GAN可以“內(nèi)插式發(fā)明”,要“內(nèi)涵式發(fā)明”是有極年夜風(fēng)險(xiǎn)的,假想:假如算法能從10000個(gè)白人主動(dòng)內(nèi)涵出從沒(méi)見(jiàn)過(guò)的某個(gè)黃種人,怎樣包管不過(guò)延出綠偉人?假如算法能從10000個(gè)鵝蛋臉主動(dòng)內(nèi)涵發(fā)明出從沒(méi)見(jiàn)過(guò)的國(guó)字臉,怎樣包管不發(fā)明出被壓扁的長(zhǎng)條臉?
那末,我們把GAN的才能限制在內(nèi)插式發(fā)明。這請(qǐng)求我們?cè)谙旅嫣岬降?0000小我具有足夠的代表性。“代表人”經(jīng)由精心遴選,平均籠罩各類臉部屬性,如膚色、男女、臉型、眉形、眼型、嘴型、高下鼻梁、高下顴骨、粗細(xì)肌膚……如許一來(lái),便可之內(nèi)插發(fā)明出各類能夠的人臉了。
然則,10000人能否足夠代表全部人類的特點(diǎn)?這里觸及幾十乃至上百種臉部屬性的組合。每多一個(gè)臉部屬性,組合成果的數(shù)目便多幾倍,呈指數(shù)爆炸式增加。就算每一個(gè)屬性只要2個(gè)能夠的取值,好比男女,即便只要14種臉部屬性就有跨越10000種組合。更況且,許多屬性有許多取值,好比臉型、膚色、眼型,組合數(shù)就更多了。
假如每種組合我們須要至多一個(gè)“代表人”(現(xiàn)實(shí)能夠有些組合1個(gè)代表還不敷,也有能夠某種組歸并不存在),這意味著我們須要的“代表人”數(shù)生怕遠(yuǎn)遠(yuǎn)不止10000人…
Face Zero的夢(mèng)真要醒了嗎?
削減有監(jiān)視數(shù)據(jù)需求量的其他能夠
別急著廢棄做夢(mèng),下面的推演中并沒(méi)有斟酌人類對(duì)面貌的熟悉。以人臉辨認(rèn)為例,剖解學(xué)專家也許可以制訂出一些“規(guī)矩”,告知我們甚么樣的面部改革可以“發(fā)明”出分歧但又現(xiàn)實(shí)存在的人臉。如斯,即可應(yīng)用大批有監(jiān)視數(shù)據(jù)“發(fā)明”出或許說(shuō)“虛擬”出年夜量數(shù)據(jù),從而使得深度進(jìn)修的易用性更高。
舉個(gè)例子,假如我們有10000個(gè)“代表人”的3D頭部模子,和響應(yīng)的可以修正這些頭部模子的辦法,加上上述的“剖解學(xué)專家經(jīng)歷”,便可以像天主一樣發(fā)明出千萬(wàn)萬(wàn)萬(wàn)的人臉,且照樣現(xiàn)實(shí)存在的、公道的人臉,而非綠偉人的人臉。
如許一想,仿佛最開(kāi)端的設(shè)法主意在必定水平上成真了。但遺憾的是,這類設(shè)法主意離我們最后盼望的從0自立進(jìn)修差了十萬(wàn)八千里了:既須要浩瀚的準(zhǔn)確監(jiān)視3D人臉數(shù)據(jù),又引入了年夜量的不輕易用法式完成的“專家常識(shí)”。
總之,僅僅以人臉辨認(rèn)Face Zero為例,AlphaGo Zero的啟示是微弱的。謹(jǐn)嚴(yán)悲觀的說(shuō)有一些,但這類啟示并不是AlphaGo Zero帶來(lái)的,而是誰(shuí)人下圍棋勝過(guò)李世乭的AlphaGo,乃至之前就曾經(jīng)有的“反抗加強(qiáng)”思惟帶來(lái)的。
這使人遺憾。現(xiàn)實(shí)上不只僅對(duì)人臉辨認(rèn),對(duì)天然圖象辨認(rèn)義務(wù),對(duì)語(yǔ)音辨認(rèn)義務(wù),對(duì)醫(yī)療診斷義務(wù),對(duì)主動(dòng)駕駛義務(wù)等浩瀚成績(jī),AlphaGo Zero的算法都難以發(fā)生直接的感化。面前的基本緣由在于:與圍棋終究可以自判勝負(fù)紛歧樣,對(duì)這些義務(wù)不具有AI算法自判對(duì)錯(cuò)的才能,也就難以構(gòu)成以自我賞罰為目的的自立進(jìn)修。
注:本文的推演其實(shí)不解釋AlphaGo Zero的算法對(duì)一切AI成績(jī)都沒(méi)有價(jià)值,現(xiàn)實(shí)上,它對(duì)一年夜類AI成績(jī)的處理,特殊是棋類、游戲類、模仿練習(xí)等義務(wù),將帶來(lái)辦法論上的偉大變遷。
