|
一個(gè)人工智能系統(tǒng)可以預(yù)測一個(gè)場景將如何展開,并能想像出即將發(fā)生的畫面。 給定一張靜止的圖像,這一深度學(xué)習(xí)算法能夠生成一段迷你視頻,顯示接下來會(huì)發(fā)生什么。舉個(gè)例子來說,如果給它一張火車站的圖片,它可能會(huì)聯(lián)想出火車始離站臺(tái)的畫面。又或者,一張海灘的圖像可以激發(fā)它生成波浪涌動(dòng)的畫面。 教會(huì)AI預(yù)測未來可以幫助它更好地理解現(xiàn)在。比如看到人們?cè)跍?zhǔn)備飯菜時(shí),我們可能會(huì)想象他們接下來會(huì)吃飯,而這一點(diǎn)對(duì)于人工智能系統(tǒng)來說,是非常難以理解的。這樣的系統(tǒng)還可以讓AI助手能夠識(shí)別有一些危險(xiǎn)情況,比如無人駕駛汽車預(yù)見即將發(fā)生的事故。 麻省理工學(xué)院的卡爾·馮德里克(Carl Vondrick)帶領(lǐng)的團(tuán)隊(duì)打造了這一系統(tǒng)。他說,“所有在我們世界中運(yùn)行的機(jī)器人都需要具備一些基本的預(yù)測未來的能力。比如說,如果你想要坐下,你不會(huì)想讓機(jī)器人把你身下的椅子拉走的。” 為了開發(fā)他們的人工智能系統(tǒng),研究團(tuán)隊(duì)使用了圖像共享網(wǎng)站Flickr上的200萬部視頻對(duì)系統(tǒng)進(jìn)行訓(xùn)練,其中一些場景包括海灘,高爾夫球場,火車站和在醫(yī)院的嬰兒等等。所有這些視頻都未經(jīng)標(biāo)記,這意味著他們不含有能夠幫助AI了解視頻內(nèi)容的信息。之后,研究人員向系統(tǒng)輸入了特定的靜止圖像,人工智能系統(tǒng)隨后自動(dòng)產(chǎn)生了接下來可能會(huì)發(fā)生什么的微電影。 為了教會(huì)AI制作更為完善的視頻,該團(tuán)隊(duì)使用了一種稱為對(duì)抗網(wǎng)絡(luò)的方法。一個(gè)網(wǎng)絡(luò)生成視頻,而另一個(gè)網(wǎng)絡(luò)則判斷這段視頻看起來像不像是真的。這兩個(gè)網(wǎng)絡(luò)在競爭中相互制約:視頻制作器嘗試制作最好的能夠欺騙其他網(wǎng)絡(luò)的視頻,而另一個(gè)網(wǎng)絡(luò)則具有區(qū)分識(shí)別視頻真?zhèn)蔚哪芰Α?/p> 目前,生成的視頻為32幀的低分辨率視頻,持續(xù)時(shí)間略大于1秒。但總體上來看,這些視頻圖像是銳利的,并且可以顯示場景之中正確的運(yùn)動(dòng):例如火車在直線軌道上前進(jìn),又或者是嬰兒在揉捏他們的臉。而在其他一些預(yù)測視頻場景的嘗試之中,例如紐約大學(xué)和Facebook研究人員合作開發(fā)的系統(tǒng),需要多個(gè)輸入圖像,而且產(chǎn)生的少量畫面通常十分模糊。 不過從人類角度看,得到的視頻看起來仍然有些怪異,AI還要再多學(xué)習(xí)一些。例如,它沒有意識(shí)到離開車站的火車最終也應(yīng)該離開畫面。這主要是因?yàn)樗鼪]有關(guān)于世界規(guī)則的先驗(yàn)知識(shí),即它缺乏我們所謂的常識(shí)。這200萬部視頻,總共時(shí)長大約兩年的鏡頭,是這個(gè)人工系統(tǒng)能用來了解世界是如何工作的所有數(shù)據(jù)。馮德里克說,“相比于一個(gè)10歲的孩子,或者是人類進(jìn)化幅度而言,這其實(shí)并不是那么多。” 劍橋計(jì)算機(jī)實(shí)驗(yàn)室大學(xué)的約翰·道格曼說,即使這樣,這項(xiàng)工作還是表明了當(dāng)計(jì)算機(jī)視覺與機(jī)器學(xué)習(xí)相結(jié)合起來的時(shí)候,可以實(shí)現(xiàn)什么。 他說,一個(gè)關(guān)鍵的方面是能夠識(shí)別出隨時(shí)間發(fā)生的事情的因果關(guān)系。“物理學(xué)的定律和事物的本質(zhì)意味著,不是所有一切都會(huì)發(fā)生,”他說道。“作者已經(jīng)表明人工智能系統(tǒng)可以學(xué)會(huì)這些限制。” 馮德里克現(xiàn)在正在擴(kuò)大系統(tǒng),用于制作更大,更長的視頻。他說,雖然它可能永遠(yuǎn)無法準(zhǔn)確預(yù)測將發(fā)生什么,但是它可以向我們展示另一個(gè)未來。“我認(rèn)為我們可以開發(fā)出一個(gè)能夠幻想出合理、可信的未來圖像與視頻的系統(tǒng)。” |
免責(zé)聲明:本網(wǎng)站內(nèi)容由網(wǎng)友自行在頁面發(fā)布,上傳者應(yīng)自行負(fù)責(zé)所上傳內(nèi)容涉及的法律責(zé)任,本網(wǎng)站對(duì)內(nèi)容真實(shí)性、版權(quán)等概不負(fù)責(zé),亦不承擔(dān)任何法律責(zé)任。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。本站不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系我們,本站將會(huì)在24小時(shí)內(nèi)處理完畢。