科技快報(bào)網(wǎng) › 首頁 ›數(shù)碼› 智能設(shè)備 › 查看內(nèi)容

看了200萬部視頻后，人工智能學(xué)會(huì)了預(yù)測未來

2016-12-05 23:07:13 來自: 搜狐科技麻省理工科技評(píng)論

一個(gè)人工智能系統(tǒng)可以預(yù)測一個(gè)場景將如何展開，并能想像出即將發(fā)生的畫面。

給定一張靜止的圖像，這一深度學(xué)習(xí)算法能夠生成一段迷你視頻，顯示接下來會(huì)發(fā)生什么。舉個(gè)例子來說，如果給它一張火車站的圖片，它可能會(huì)聯(lián)想出火車始離站臺(tái)的畫面。又或者，一張海灘的圖像可以激發(fā)它生成波浪涌動(dòng)的畫面。

教會(huì)AI預(yù)測未來可以幫助它更好地理解現(xiàn)在。比如看到人們?cè)跍?zhǔn)備飯菜時(shí)，我們可能會(huì)想象他們接下來會(huì)吃飯，而這一點(diǎn)對(duì)于人工智能系統(tǒng)來說，是非常難以理解的。這樣的系統(tǒng)還可以讓AI助手能夠識(shí)別有一些危險(xiǎn)情況，比如無人駕駛汽車預(yù)見即將發(fā)生的事故。

麻省理工學(xué)院的卡爾·馮德里克（Carl Vondrick）帶領(lǐng)的團(tuán)隊(duì)打造了這一系統(tǒng)。他說，“所有在我們世界中運(yùn)行的機(jī)器人都需要具備一些基本的預(yù)測未來的能力。比如說，如果你想要坐下，你不會(huì)想讓機(jī)器人把你身下的椅子拉走的。”

為了開發(fā)他們的人工智能系統(tǒng)，研究團(tuán)隊(duì)使用了圖像共享網(wǎng)站Flickr上的200萬部視頻對(duì)系統(tǒng)進(jìn)行訓(xùn)練，其中一些場景包括海灘，高爾夫球場，火車站和在醫(yī)院的嬰兒等等。所有這些視頻都未經(jīng)標(biāo)記，這意味著他們不含有能夠幫助AI了解視頻內(nèi)容的信息。之后，研究人員向系統(tǒng)輸入了特定的靜止圖像，人工智能系統(tǒng)隨后自動(dòng)產(chǎn)生了接下來可能會(huì)發(fā)生什么的微電影。

為了教會(huì)AI制作更為完善的視頻，該團(tuán)隊(duì)使用了一種稱為對(duì)抗網(wǎng)絡(luò)的方法。一個(gè)網(wǎng)絡(luò)生成視頻，而另一個(gè)網(wǎng)絡(luò)則判斷這段視頻看起來像不像是真的。這兩個(gè)網(wǎng)絡(luò)在競爭中相互制約：視頻制作器嘗試制作最好的能夠欺騙其他網(wǎng)絡(luò)的視頻，而另一個(gè)網(wǎng)絡(luò)則具有區(qū)分識(shí)別視頻真?zhèn)蔚哪芰Α?/p>

目前，生成的視頻為32幀的低分辨率視頻，持續(xù)時(shí)間略大于1秒。但總體上來看，這些視頻圖像是銳利的，并且可以顯示場景之中正確的運(yùn)動(dòng)：例如火車在直線軌道上前進(jìn)，又或者是嬰兒在揉捏他們的臉。而在其他一些預(yù)測視頻場景的嘗試之中，例如紐約大學(xué)和Facebook研究人員合作開發(fā)的系統(tǒng)，需要多個(gè)輸入圖像，而且產(chǎn)生的少量畫面通常十分模糊。

不過從人類角度看，得到的視頻看起來仍然有些怪異，AI還要再多學(xué)習(xí)一些。例如，它沒有意識(shí)到離開車站的火車最終也應(yīng)該離開畫面。這主要是因?yàn)樗鼪]有關(guān)于世界規(guī)則的先驗(yàn)知識(shí)，即它缺乏我們所謂的常識(shí)。這200萬部視頻，總共時(shí)長大約兩年的鏡頭，是這個(gè)人工系統(tǒng)能用來了解世界是如何工作的所有數(shù)據(jù)。馮德里克說，“相比于一個(gè)10歲的孩子，或者是人類進(jìn)化幅度而言，這其實(shí)并不是那么多。”

劍橋計(jì)算機(jī)實(shí)驗(yàn)室大學(xué)的約翰·道格曼說，即使這樣，這項(xiàng)工作還是表明了當(dāng)計(jì)算機(jī)視覺與機(jī)器學(xué)習(xí)相結(jié)合起來的時(shí)候，可以實(shí)現(xiàn)什么。

他說，一個(gè)關(guān)鍵的方面是能夠識(shí)別出隨時(shí)間發(fā)生的事情的因果關(guān)系。“物理學(xué)的定律和事物的本質(zhì)意味著，不是所有一切都會(huì)發(fā)生，”他說道。“作者已經(jīng)表明人工智能系統(tǒng)可以學(xué)會(huì)這些限制。”

馮德里克現(xiàn)在正在擴(kuò)大系統(tǒng)，用于制作更大，更長的視頻。他說，雖然它可能永遠(yuǎn)無法準(zhǔn)確預(yù)測將發(fā)生什么，但是它可以向我們展示另一個(gè)未來。“我認(rèn)為我們可以開發(fā)出一個(gè)能夠幻想出合理、可信的未來圖像與視頻的系統(tǒng)。”

　　免責(zé)聲明：本網(wǎng)站內(nèi)容由網(wǎng)友自行在頁面發(fā)布，上傳者應(yīng)自行負(fù)責(zé)所上傳內(nèi)容涉及的法律責(zé)任，本網(wǎng)站對(duì)內(nèi)容真實(shí)性、版權(quán)等概不負(fù)責(zé)，亦不承擔(dān)任何法律責(zé)任。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí)，對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾，并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。本站不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請(qǐng)及時(shí)聯(lián)系我們，本站將會(huì)在24小時(shí)內(nèi)處理完畢。

發(fā)布者:admin

微軟人工智能新功能：為盲人描述Office應(yīng)用圖片內(nèi)容谷歌DeepMind開放AI訓(xùn)練平臺(tái)DeepMind Lab

		自動(dòng)登錄	找回密碼
密碼			立即注冊(cè)

看了200萬部視頻后，人工智能學(xué)會(huì)了預(yù)測未來

相關(guān)閱讀

相關(guān)分類

熱門關(guān)注