編譯 |??香草,編輯?|??李水青
Sora是世界模擬器嗎?萬(wàn)字長(zhǎng)文深度解讀,楊立昆點(diǎn)贊。
智東西3月8日?qǐng)?bào)道,近日,深度學(xué)習(xí)三巨頭之一、Meta首席科學(xué)家楊立昆點(diǎn)贊分享了一篇萬(wàn)字博文《視頻生成器是世界模擬器嗎?(Are Video Generation Models World Simulators?)》。
▲楊立昆在X平臺(tái)上轉(zhuǎn)發(fā)并稱這是一篇好文章
文章從Sora的工作原理、模擬假說(shuō)、直觀物理學(xué)、世界模型的定義、圖像生成等角度,深入探討了標(biāo)題所提出的問(wèn)題,并得出結(jié)論:像Sora這樣的視頻生成器,可能不是人們想象中的“世界模擬器”,但從更寬泛的定義上來(lái)看,它們可以被視作有限的“世界模型”。
本文作者以文生圖模型為例證,論述了Sora可能和Stable Diffusion類似,生成過(guò)程超出了對(duì)像素空間表面統(tǒng)計(jì)的擬合,可能受到3D幾何和動(dòng)態(tài)關(guān)鍵方面的潛在表示的影響,從而學(xué)到有用的深度、因果等特征的抽象表征。
換句話說(shuō),Sora能在潛在空間中學(xué)習(xí)抽象規(guī)律,具有部分模擬世界的能力。
自Sora于今年初發(fā)布以來(lái),“Sora是否理解物理世界”話題引來(lái)眾多大佬下場(chǎng)討論。其中英偉達(dá)的科學(xué)家Jim Fan將Sora描述為“數(shù)據(jù)驅(qū)動(dòng)的物理引擎”;楊立坤則多次開噴Sora,稱Sora的訓(xùn)練方式無(wú)法構(gòu)建世界模型,通過(guò)生成像素的方式來(lái)建模世界,與幾乎已經(jīng)被拋棄的“綜合分析”方法一樣,浪費(fèi)時(shí)間且“是一次徹頭徹尾的失敗”。
該文章的作者是澳大利亞悉尼麥考瑞大學(xué)的哲學(xué)講師拉斐爾·米利埃爾(Rapha?l Millière),他主要從事AI、認(rèn)知科學(xué)和心智哲學(xué)等方面的學(xué)術(shù)研究。以下是對(duì)該文章的全文編譯,由于篇幅原因進(jìn)行了部分刪減。
▲文章首頁(yè)截圖
原文地址:https://artificialcognition.net/posts/video-generation-world-simulators/#concluding-thoughts
01.Sora是一項(xiàng)工程壯舉架構(gòu)沒(méi)有真正突破
2024年2月16日,OpenAI推出Sora,一個(gè)令人印象深刻的新型深度學(xué)習(xí)模型,可以根據(jù)文本提示生成視頻和圖像。Sora可以生成長(zhǎng)達(dá)一分鐘的視頻,具有不同的分辨率和寬高比。雖然目前無(wú)法測(cè)試該模型,但OpenAI挑選的結(jié)果表明它在先前的技術(shù)水平上有了巨大的改進(jìn)。OpenAI有些自大地聲稱Sora是一個(gè)“世界模擬器”。
那么什么是世界模擬器呢?
這是OpenAI對(duì)訓(xùn)練Sora動(dòng)機(jī)的陳述:“我們正在教AI如何理解和模擬物理世界中的運(yùn)動(dòng),目標(biāo)是訓(xùn)練出能夠幫助人們解決需要與現(xiàn)實(shí)世界進(jìn)行交互的問(wèn)題的模型?!?/p>
OpenAI還發(fā)布了Sora技術(shù)報(bào)告,其中闡述了對(duì)Sora理論意義的理解:“我們的研究結(jié)果表明,擴(kuò)展視頻生成模型是建立物理世界通用模擬器的一條可行之路。”Sora的技術(shù)報(bào)告對(duì)細(xì)節(jié)描述得很少,但提供了一些關(guān)于架構(gòu)的線索。
其核心是一個(gè)擴(kuò)散變換器(Diffusion Transformer,簡(jiǎn)稱DiT),這是比爾·皮布爾斯(Bill Peebles,也是Sora的主要作者之一)紐約大學(xué)的謝賽寧設(shè)計(jì)的一種架構(gòu)。
DiT是一種具有Transformer主干網(wǎng)絡(luò)的擴(kuò)散模型。我們熟悉的圖像生成模型,如Stable Diffusion是潛在擴(kuò)散模型。它們使用預(yù)訓(xùn)練的變分自動(dòng)編碼器(VAE)將原始圖像從像素空間壓縮到潛在空間;然后,擴(kuò)散模型在從VAE學(xué)習(xí)的較低維潛在空間上進(jìn)行訓(xùn)練,而不是在高維像素空間上。這種擴(kuò)散過(guò)程通常使用U-Net骨干實(shí)現(xiàn)。U-Net是一種卷積神經(jīng)網(wǎng)絡(luò),最初用于圖像分割,后來(lái)被調(diào)整用于去噪擴(kuò)散。
DiT架構(gòu)受潛在擴(kuò)散模型的啟發(fā),但將U-Net骨干替換為修改后的視覺(jué)Transformer(ViT)。ViT是專門用于視覺(jué)任務(wù)的Transformer模型,它不以語(yǔ)言標(biāo)記作為輸入,而是接收?qǐng)D像塊的序列。例如,一幅圖像可以分割成16*16的補(bǔ)丁(Patches),從而為Transformer提供256個(gè)輸入Tokens。同樣,作為DiT的核心修改后,ViT接受來(lái)自VAE的圖像補(bǔ)丁的潛在表示作為序列輸入Tokens。相較于帶有U-Net的傳統(tǒng)潛在擴(kuò)散模型,DiT具有一些優(yōu)勢(shì):效率更高、擴(kuò)展性更好,而且易于適應(yīng)不同的生成分辨率。
在Sora之前,DiT架構(gòu)已經(jīng)被用于文本條件下的圖像和視頻生成。OpenAI提出的解決方案使用所謂的“視頻壓縮網(wǎng)絡(luò)”(Video compressor network),這可能是針對(duì)視頻進(jìn)行改編的VAE。其基本思想與最初的DiT相同:(1)視頻壓縮網(wǎng)絡(luò)將原始視頻輸入壓縮為潛在時(shí)空表示;(2)壓縮后的視頻被轉(zhuǎn)換為“時(shí)空補(bǔ)丁”,作為輸入Token提供給擴(kuò)散變換器;(3)在最后一個(gè)Transformer塊之后,與視頻壓縮網(wǎng)絡(luò)一起訓(xùn)練的解碼器模型將生成的潛在表示映射回像素空間。
與OpenAI之前的GPT-3等成就一樣,大家的共識(shí)似乎是,Sora的架構(gòu)并沒(méi)有什么真正的突破。正如謝賽寧所說(shuō),它實(shí)質(zhì)上是一種適用于視頻的DiT,沒(méi)有額外的花哨功能。
因此,Sora在很大程度上是一項(xiàng)工程壯舉,也是對(duì)擴(kuò)展能力的又一次證明。技術(shù)報(bào)告生動(dòng)地說(shuō)明了樣本質(zhì)量隨著訓(xùn)練計(jì)算量的增加而提高。與語(yǔ)言模型一樣,某些能力似乎也會(huì)隨著規(guī)模的擴(kuò)大而顯現(xiàn);自然地,Sora也再次引發(fā)了關(guān)于純粹的擴(kuò)展到底能達(dá)到什么程度的激烈爭(zhēng)論。
02.模擬假說(shuō):視頻生成模型在訓(xùn)練中習(xí)得物理規(guī)律
Sora的技術(shù)報(bào)告聲稱,隨著規(guī)模的擴(kuò)大,Sora獲得了“新興的模擬能力”。它提到了通過(guò)動(dòng)態(tài)攝像機(jī)運(yùn)動(dòng)、遮擋、客體永久性和視頻游戲模擬等來(lái)實(shí)現(xiàn)場(chǎng)景一致性,作為此類能力的示例。報(bào)告繼續(xù)得出結(jié)論:“這些能力表明,視頻模型的持續(xù)擴(kuò)展是開發(fā)高性能物理和數(shù)字世界模擬器的有力路徑,這些模擬器涵蓋了生活在其中的對(duì)象、動(dòng)物和人?!蔽覀兎Q之為模擬假說(shuō)(Simulation hypothesis)。
這個(gè)假設(shè)的問(wèn)題在于,它非常模糊。視頻生成模型模擬物理世界到底意味著什么?什么樣的證據(jù)可以支持這一主張?讓我們逐一回答這些問(wèn)題。在Sora發(fā)布之后,AI行業(yè)的知名人士紛紛表達(dá)了他們對(duì)模擬假說(shuō)的理解。英偉達(dá)的Jim Fan將Sora描述為“數(shù)據(jù)驅(qū)動(dòng)的物理引擎”。他這樣解釋這句話的含義:“Sora通過(guò)大量視頻的梯度下降,在神經(jīng)參數(shù)中隱式地學(xué)習(xí)物理引擎。Sora是一個(gè)可學(xué)習(xí)的模擬器,或者說(shuō)是‘世界模型’。
Sora必須學(xué)習(xí)一些隱式的文本到3D、3D變換、光線追蹤渲染和物理規(guī)則,以便盡可能準(zhǔn)確地模擬視頻像素。它必須學(xué)習(xí)游戲引擎的概念,以滿足目標(biāo)。”物理引擎的術(shù)語(yǔ)有些令人困惑,尤其是考慮到有猜測(cè)認(rèn)為Sora是在虛幻5場(chǎng)景上訓(xùn)練得到的,所以讓我們先澄清這一點(diǎn)。
據(jù)我所知,包括Jim Fan在內(nèi),沒(méi)有人真的認(rèn)為Sora在推理時(shí)有一個(gè)物理引擎在循環(huán)中。換句話說(shuō),作為一個(gè)DiT模型,它不會(huì)在生成視頻時(shí)調(diào)用虛幻引擎。實(shí)際上,神經(jīng)網(wǎng)絡(luò)調(diào)用物理引擎以前已經(jīng)有人嘗試過(guò),但不是用于視頻生成,而是為了物理推理。2023年,谷歌大腦的一篇論文Mind's Eye通過(guò)物理引擎模擬可能的結(jié)果,來(lái)提高語(yǔ)言模型在物理推理問(wèn)題上的表現(xiàn),將這些模擬的結(jié)果作為提示詞中的線索。
那么,我們應(yīng)該如何理解Sora類似于“數(shù)據(jù)驅(qū)動(dòng)的物理引擎”模擬物理世界的主張呢?谷歌DeepMind的Nando de Freitas這樣說(shuō):“一個(gè)有限大小的神經(jīng)網(wǎng)絡(luò)能夠預(yù)測(cè)任何情況下會(huì)發(fā)生什么的唯一方式,是通過(guò)學(xué)習(xí)內(nèi)部模型來(lái)促進(jìn)這種預(yù)測(cè),包括直觀的物理定律?!蔽覀?cè)絹?lái)越接近模擬假說(shuō)的明確陳述:一個(gè)基于端到端神經(jīng)網(wǎng)絡(luò)架構(gòu)、參數(shù)設(shè)置有限的足夠好的視頻生成模型,應(yīng)該有望在訓(xùn)練過(guò)程中獲得物理世界的內(nèi)部模型,因?yàn)檫@是神經(jīng)網(wǎng)絡(luò)生成任意場(chǎng)景的連貫、逼真視頻的最有效方法——也許是唯一的方法。Sora 是否真的從 2D 視頻中歸納出物理定律?如上所述,這可能看起來(lái)很荒謬。游戲引擎通常也不模擬這些法則。雖然它們可能會(huì)模擬熱效應(yīng)(火災(zāi)、爆炸)和做功(物體克服摩擦力移動(dòng)),但這些模擬通常是高度抽象的,并不嚴(yán)格遵守?zé)崃W(xué)方程。他們根本不需要這樣做,因?yàn)樗麄兊闹攸c(diǎn)是渲染場(chǎng)景的視覺(jué)和交互可信度,而不是嚴(yán)格的物理準(zhǔn)確性。Sora會(huì)做類似的事情嗎?如果想回答這個(gè)問(wèn)題,我們需要探討直觀物理學(xué)。
03.像人一樣通過(guò)直觀物理引擎模擬事件?
對(duì)人類而言,即使是嬰兒也展現(xiàn)出對(duì)物理世界的穩(wěn)定預(yù)期。例如看到一只球沿著地板滾向墻壁,我們會(huì)直覺(jué)地知道球會(huì)撞到墻壁并反彈回來(lái),而不是穿過(guò)它。這就是認(rèn)知科學(xué)家稱之為直觀物理學(xué)(Intuitive physics)的東西:一種快速、自動(dòng)的日常推理,它讓人們知道當(dāng)各種物體相互作用時(shí)會(huì)發(fā)生什么,而不需要有意識(shí)地進(jìn)行物理計(jì)算。
人類是如何做到的呢?認(rèn)知科學(xué)家提出了一個(gè)著名的假設(shè),人們使用一個(gè)直觀物理引擎(IPE)來(lái)模擬物理事件。IPE類似于計(jì)算機(jī)游戲中的物理引擎,它基于不完全準(zhǔn)確的物理原理,通過(guò)隨機(jī)模擬來(lái)預(yù)測(cè)物理現(xiàn)象。根據(jù)這種觀點(diǎn),當(dāng)我們觀察物理場(chǎng)景時(shí),會(huì)根據(jù)質(zhì)量、摩擦、彈性等感知證據(jù)構(gòu)建對(duì)物體、屬性和作用力的心理表征,然后運(yùn)行內(nèi)部模擬來(lái)預(yù)測(cè)接下來(lái)會(huì)發(fā)生什么。然而,關(guān)于IPE假設(shè)也存在爭(zhēng)議。批評(píng)者指出,人類的物理推理有時(shí)會(huì)偏離IPE式模擬預(yù)測(cè),包括系統(tǒng)偏差和錯(cuò)誤以及對(duì)視覺(jué)捷徑的依賴等。一些人認(rèn)為,非牛頓心理模型、深度學(xué)習(xí)模型可能更好地解釋人類對(duì)物理的直覺(jué)。盡管存在爭(zhēng)議,但至少有一個(gè)相對(duì)合理且有豐富實(shí)驗(yàn)文獻(xiàn)支持的案例支持模擬假說(shuō)?,F(xiàn)在,我們可以將這一背景知識(shí)應(yīng)用于人工神經(jīng)網(wǎng)絡(luò),探討它們是否能夠模擬物理世界。
04.已有“世界模型”未達(dá)強(qiáng)因果概念高標(biāo)準(zhǔn)
通過(guò)心理學(xué)中的直觀物理學(xué),我們提出了一個(gè)重要的點(diǎn):對(duì)物理場(chǎng)景進(jìn)行心理模擬,與僅僅表示物理世界的各個(gè)方面(例如幾何形狀)之間存在表面上的區(qū)別,這個(gè)區(qū)別在討論像視頻生成模型這樣的神經(jīng)網(wǎng)絡(luò)的能力時(shí)非常重要。世界模型(World models)的含義已經(jīng)被淡化,以至于在實(shí)踐中變得相當(dāng)難以捉摸。在機(jī)器學(xué)習(xí)研究中,它主要起源于20世紀(jì)90年代Juergen Schmidhuber實(shí)驗(yàn)室的強(qiáng)化學(xué)習(xí)文獻(xiàn)。在這種情況下,世界模型指的是智能體對(duì)其交互的外部環(huán)境的內(nèi)部表示。具體來(lái)說(shuō),給定環(huán)境狀態(tài)和智能體行動(dòng),世界模型可以預(yù)測(cè)智能體采取該行動(dòng)后環(huán)境的未來(lái)狀態(tài)。在2018年Ha和Schmidhuber發(fā)表的世界模型論文中,他們提出世界模型包括一個(gè)感官組件,它處理原始觀察結(jié)果,并將它們壓縮成一個(gè)緊湊的編碼。具體來(lái)說(shuō),基于RNN的世界模型被訓(xùn)練為在智能體之前的經(jīng)驗(yàn)條件下,內(nèi)部模擬并預(yù)測(cè)未來(lái)的潛在觀察編碼、獎(jiǎng)勵(lì)和終止信號(hào)(完成狀態(tài))。
Ha和Schmidhuber的世界模型論文影響了許多后續(xù)作品。谷歌DeepMind近日推出了基礎(chǔ)世界模型Genie,雖然它不是一個(gè)強(qiáng)化學(xué)習(xí)系統(tǒng),但它與Ha和Schmidhuber的框架具有關(guān)鍵的相似之處。Genie生成一個(gè)交互式環(huán)境,人類用戶可以通過(guò)影響未來(lái)視頻生成的操作來(lái)控制智能體,它引入了無(wú)監(jiān)督動(dòng)作空間學(xué)習(xí)的概念,以避免訓(xùn)練過(guò)程中對(duì)動(dòng)作標(biāo)簽的依賴。因此,任意視頻都可以作為訓(xùn)練數(shù)據(jù),而不是帶有動(dòng)作標(biāo)記的示例。
另一個(gè)值得一提的世界模型概念來(lái)自楊立昆,這在他的聯(lián)合嵌入式預(yù)測(cè)架構(gòu)(JEPA)中得到了突出體現(xiàn)。在他的框架中,世界模型是一個(gè)智能體用于規(guī)劃和推理世界如何運(yùn)作的內(nèi)部預(yù)測(cè)模型,用于兩個(gè)關(guān)鍵功能:(1)估算智能體感知系統(tǒng)未提供的有關(guān)當(dāng)前世界狀態(tài)的缺失信息;(2)預(yù)測(cè)智能體提出的一系列動(dòng)作可能產(chǎn)生的多個(gè)可能的未來(lái)世界狀態(tài)。
在JEPA架構(gòu)中,世界模型模塊是由預(yù)測(cè)器網(wǎng)絡(luò)實(shí)現(xiàn)的。它最近被應(yīng)用于視頻,自監(jiān)督模型V-JEPA通過(guò)預(yù)測(cè)視頻潛在空間中遮蔽時(shí)空區(qū)域的表示來(lái)學(xué)習(xí)。V-JEPA和Sora之間的一個(gè)關(guān)鍵區(qū)別是它們各自的學(xué)習(xí)目標(biāo),以及這些目標(biāo)可能對(duì)其潛在表示產(chǎn)生的下游影響。Sora針對(duì)像素空間的幀重建進(jìn)行訓(xùn)練的,而V-JEPA則針對(duì)潛在空間的特征預(yù)測(cè)進(jìn)行訓(xùn)練。根據(jù)楊立昆的觀點(diǎn),這會(huì)導(dǎo)致它們潛在表示之間的巨大差異。在他看來(lái),像素級(jí)別的生成目標(biāo)根本不足以誘導(dǎo)可能對(duì)在世界中規(guī)劃和行動(dòng)有用的抽象表示。總之,人們使用“世界模型”一詞的方式略有不同。無(wú)論是生成模型、強(qiáng)化模型,還是JEPA模型,都沒(méi)有達(dá)到因果推理文獻(xiàn)中“世界模型”這一強(qiáng)因果概念所設(shè)定的高標(biāo)準(zhǔn)。那么像Sora這樣的視頻生成模型呢?我們可以從圖像生成模型中尋找線索。
05.圖像生成模型能學(xué)習(xí)3D幾何結(jié)構(gòu)提供重要線索
Sora模型的核心是DiT,它受到常用于圖像生成的潛在擴(kuò)散模型的啟發(fā),但將U-Net骨干替換為了ViT。這引發(fā)了一系列問(wèn)題:基于潛在擴(kuò)散的圖像生成模型實(shí)際上編碼了哪些信息?是僅僅編碼了圖像表面的啟發(fā)式信息,還是編碼了視覺(jué)場(chǎng)景的潛在變量,比如3D幾何結(jié)構(gòu)?目前,關(guān)于這個(gè)問(wèn)題的研究并不多。Zhan等人于2023年提出了一種方法來(lái)評(píng)估潛在擴(kuò)散模型是否編碼了圖像中描繪的3D場(chǎng)景的不同物理屬性。測(cè)試結(jié)果顯示,像Stable Diffusion這樣的模型能夠編碼關(guān)于3D場(chǎng)景幾何、支持關(guān)系、照明和相對(duì)深度的信息,盡管在遮擋方面的分類性能較低。這項(xiàng)研究?jī)H僅表明物理屬性的信息可以從模型的激活中解碼出來(lái),并不意味著這些信息在模型行為上具有因果效力。Chen等人在2023年的研究填補(bǔ)了這一空白。他們創(chuàng)建了一個(gè)由潛在擴(kuò)散模型Stable Diffusion生成的圖像數(shù)據(jù)集,并訓(xùn)練線性探測(cè)器來(lái)預(yù)測(cè)顯著對(duì)象的分割和深度值。通過(guò)干預(yù)實(shí)驗(yàn),他們發(fā)現(xiàn)模型的內(nèi)部激活對(duì)生成圖像的幾何形狀有因果影響。
這個(gè)實(shí)驗(yàn)表明,像SD這樣的潛在擴(kuò)散模型能夠?qū)W習(xí)到關(guān)于簡(jiǎn)單場(chǎng)景幾何的線性表示,特別是與深度和前景/背景區(qū)分相關(guān)的表示,即使它們僅僅在沒(méi)有顯式深度監(jiān)督的情況下,只通過(guò)2D圖像進(jìn)行訓(xùn)練。此外,這些表示在迭代采樣過(guò)程的早期階段就出現(xiàn)了,而在這些階段,圖像本身對(duì)于人類觀察者來(lái)說(shuō)仍然像是隨機(jī)噪聲,并且?guī)缀醪话疃刃畔?。這表明潛在擴(kuò)散模型所做的遠(yuǎn)遠(yuǎn)超出了對(duì)像素空間表面統(tǒng)計(jì)的擬合。它們引導(dǎo)了關(guān)于深度和顯著性的潛在信息,因?yàn)檫@樣的信息對(duì)于生成逼真的圖像目標(biāo)非常有用。還有其他關(guān)于圖像生成模型的相關(guān)研究。低秩自適應(yīng)(LoRA)可以用來(lái)直接從潛在擴(kuò)散模型中提取內(nèi)在的“場(chǎng)景圖”,如表面法線和深度。該方法可以將任何圖像生成模型轉(zhuǎn)化為固有場(chǎng)景屬性預(yù)測(cè)器,而不需要額外的解碼網(wǎng)絡(luò)。結(jié)果表明,可以通過(guò)利用模型參數(shù)中已經(jīng)存在的信息來(lái)提取關(guān)于3D場(chǎng)景幾何的精細(xì)預(yù)測(cè)。
這并不意味著潛在擴(kuò)散模型能完美地表示視覺(jué)場(chǎng)景的各個(gè)方面的三維幾何。實(shí)際上,經(jīng)過(guò)訓(xùn)練的人眼通常可以注意到輸出中的各種缺陷,物理不一致性甚至可以通過(guò)分類器進(jìn)行量化,就像Sarker等人(2023年)所做的那樣。這些不一致性包括物體及其陰影的錯(cuò)位,以及違反投影幾何學(xué)的情況,例如線條未能正確地收斂到消失點(diǎn)或不遵循線性透視:
對(duì)于如何修復(fù)生成圖像中這些持續(xù)存在的缺陷,有很多有趣的猜想。一個(gè)假設(shè)是,測(cè)試的模型可能不夠大,或者訓(xùn)練數(shù)據(jù)不夠充分。通過(guò)擴(kuò)大參數(shù)和數(shù)據(jù)集的規(guī)模,可能足以使?jié)撛跀U(kuò)散模型學(xué)習(xí)正確的投影幾何,就像它足以修復(fù)先前模型中的許多其他逼真性和連貫性問(wèn)題一樣。但也有可能存在更基本的問(wèn)題,阻止?jié)撛跀U(kuò)散模型正確學(xué)習(xí)投影幾何。例如,它們的架構(gòu)可能缺乏適當(dāng)?shù)臍w納偏差。在這種情況下,使用ViT作為主干結(jié)構(gòu)的DiT也可能減輕純潛在擴(kuò)散的不足之處??傊?,對(duì)潛在擴(kuò)散模型的探測(cè)和干預(yù)研究表明,它們確實(shí)能表示視覺(jué)場(chǎng)景3D幾何的一些特征,這與它們?cè)瓌t上可以學(xué)習(xí)至少有限程度的“世界模型”的假設(shè)是一致的。它們的潛在空間編碼了結(jié)構(gòu)保持、因果有效的信息,這些信息超越了像素空間的表面統(tǒng)計(jì)數(shù)據(jù)。這是解決關(guān)于Sora和模擬假說(shuō)的猜測(cè)的重要線索。
06.Sora在潛在空間中學(xué)習(xí)抽象規(guī)律是有限的“世界模擬器”
與用于圖像生成的潛在擴(kuò)散模型一樣,Sora是根據(jù)視覺(jué)輸入進(jìn)行端到端訓(xùn)練的,其訓(xùn)練和生成都沒(méi)有明確地以物理變量為條件。但就像潛在擴(kuò)散模型一樣,它的輸出表現(xiàn)出驚人的規(guī)律性。在回顧了認(rèn)知科學(xué)和機(jī)器學(xué)習(xí)中的直觀物理模擬和世界模型的不同方式后,我們可以肯定的第一件事是,Sora從根本上不同于使用專用“直觀物理引擎”來(lái)運(yùn)行模擬的復(fù)合模型。與直觀物理引擎模型不同,Sora沒(méi)有專門的感知、預(yù)測(cè)和決策模塊,需要像物理引擎這樣的接口;它只是一個(gè)高維空間,其中潛在表示經(jīng)歷跨層的連續(xù)變換。Sora也與Ha和Schmidhuber的世界模型大不相同。它不基于離散動(dòng)作、觀察和獎(jiǎng)勵(lì)信號(hào)的歷史來(lái)運(yùn)行模擬。在這方面,OpenAI的技術(shù)報(bào)告有些誤導(dǎo)性內(nèi)容。其給出的Sora演示視頻看起來(lái)像是從Minecraft這樣的視頻游戲中捕獲的,但技術(shù)報(bào)告對(duì)這些輸出結(jié)果的解釋卻更進(jìn)一步:Sora可通過(guò)基本策略(basic policy)控制Minecraft中的玩家,同時(shí)還能高保真地呈現(xiàn)世界及其動(dòng)態(tài)效果。
這表明Sora模仿了一個(gè)智能體(“可控”角色)的政策,就像離線強(qiáng)化學(xué)習(xí)一樣。但這里沒(méi)有傳統(tǒng)意義上的“策略”——或者說(shuō)代理、動(dòng)作、獎(jiǎng)勵(lì)。
與Genie不同,Sora沒(méi)有接受過(guò)從視頻中誘發(fā)潛在動(dòng)作的訓(xùn)練,并且其輸出也不以此類動(dòng)作為條件。如果按照字面意思,技術(shù)報(bào)告暗示Sora已經(jīng)自發(fā)地學(xué)會(huì)了在Minecraft角色內(nèi)部表示類似隱式策略的東西,但這肯定不是我們僅通過(guò)查看輸出就可以推斷出來(lái)的。這是一個(gè)相當(dāng)大膽的主張,應(yīng)該通過(guò)分析模型內(nèi)部的情況來(lái)澄清和支持。因此,Sora與IPE模型、基于RL世界模型以及Genie不同,在以下強(qiáng)定義上,它不是一個(gè)“世界模擬器”。
定義1:一個(gè)可以對(duì)環(huán)境的元素和動(dòng)態(tài)進(jìn)行向前時(shí)間模擬,并且其預(yù)測(cè)是基于這些模擬的輸出條件的系統(tǒng)。Sora對(duì)時(shí)空Token的預(yù)測(cè)是基于先前的時(shí)空Token序列進(jìn)行的,它不涉及運(yùn)行大量關(guān)于2D視頻場(chǎng)景中所描繪的3D世界的向前時(shí)間模擬。它不會(huì)像傳統(tǒng)搜索算法一樣,通過(guò)運(yùn)行多個(gè)內(nèi)部模擬來(lái)預(yù)測(cè)合法移動(dòng),并根據(jù)結(jié)果調(diào)整下一步的預(yù)測(cè)。然而,我們不能完全排除Sora是一個(gè)“世界模擬器”的假設(shè),或者稍微不那么嚴(yán)謹(jǐn)?shù)卣f(shuō),它是一個(gè)“世界模型”,這個(gè)概念的弱意義是受到Othello-GPT等系統(tǒng)的啟發(fā)。
定義2:一種可學(xué)習(xí)其輸入域(包括三維環(huán)境的物理屬性等)屬性的結(jié)構(gòu)保留、因果效應(yīng)表征的系統(tǒng)。作為DiT,Sora本質(zhì)上是一個(gè)潛在擴(kuò)散模型,盡管它有一個(gè)Transformer主干網(wǎng)絡(luò)。Sora與像Stable Diffusion這樣的潛在擴(kuò)散模型在兩個(gè)重要方面有所不同:(1)處理視頻(3D“時(shí)空”對(duì)象)的潛在表示,而不是圖像;(2)其規(guī)模可能要大得多,并且在更多的數(shù)據(jù)上進(jìn)行訓(xùn)練。
因此,我們可以預(yù)期,Stable Diffusion在潛在空間中的3D幾何圖形,可以轉(zhuǎn)化為像Sora這樣的系統(tǒng);我們也可以預(yù)期,Sora能代表其輸入域的更多“世界屬性”,包括隨時(shí)間展開的過(guò)程屬性等。加里·馬庫(kù)斯(Gary Marcus)等批評(píng)者指出,Sora的某些輸出結(jié)果公然違反了物理學(xué)原理,以此作為反對(duì)模擬假說(shuō)的證據(jù)。OpenAI在自己的博文和Sora技術(shù)報(bào)告中承認(rèn)了這些局限性,并提供了一些特別嚴(yán)重的例子。例如,在下面摘錄的視頻中,我們可以看到明顯的時(shí)空不一致,包括違反重力、碰撞動(dòng)力學(xué)、穩(wěn)固性和物體永恒性。
首先要注意的是,雖然這些不一致的現(xiàn)象自然會(huì)讓我們覺(jué)得不可思議,但這些視頻也表現(xiàn)出了高度的一致性。玻璃杯懸浮、液體在玻璃中流動(dòng)、椅子變形為奇怪的形狀、人在被遮擋時(shí)突然出現(xiàn)……這些反常現(xiàn)象之所以讓人覺(jué)得奇怪,部分原因是其他一切看起來(lái)都與人們預(yù)想的差不多。這就是為什么這些輸出結(jié)果看起來(lái)更像是來(lái)自一個(gè)物理原理奇特的世界的怪異科幻特效,而不是抽象混亂的視覺(jué)圖案。例如,場(chǎng)景的全局3D幾何結(jié)構(gòu)相當(dāng)一致,各種場(chǎng)景元素的運(yùn)動(dòng)軌跡也是如此。Sora的輸出結(jié)果顯然會(huì)在直觀物理方面出錯(cuò),就像SD的輸出結(jié)果會(huì)在投影幾何方面出錯(cuò)一樣,但這并不能排除這樣一種假設(shè),即該模型在某些方面的三維幾何和動(dòng)態(tài)表現(xiàn)是一致的。我們?cè)谟懻揝ora架構(gòu)時(shí)提到的一點(diǎn)值得重溫。
與用于生成圖像的潛在擴(kuò)散模型一樣,Sora的生成過(guò)程并不是在像素空間中進(jìn)行的,而是在潛在空間中進(jìn)行的,即對(duì)時(shí)空斑塊的潛在表征進(jìn)行編碼的空間。這大概率是很重要的一點(diǎn),因?yàn)橐恍┰u(píng)論家認(rèn)為Sora只是學(xué)會(huì)了在逐幀像素變化中插值常見模式。對(duì)這一評(píng)價(jià)的一種理解是,Sora只是對(duì)像素空間中視頻時(shí)空“紋理”的常見變換進(jìn)行近似處理。以這種方式思考Sora如何生成視頻可能會(huì)產(chǎn)生誤導(dǎo)。在Sora的架構(gòu)中,編碼器和解碼器之間發(fā)生的一切都發(fā)生在潛在空間中。正如對(duì)潛在擴(kuò)散模型的研究表明,深度等屬性的潛在表征可以從早期擴(kuò)散時(shí)間步開始產(chǎn)生因果效應(yīng)。
Sora的情況也可能如此:與場(chǎng)景直觀物理相關(guān)的屬性的潛在表征即使在早期擴(kuò)散時(shí)間步也能對(duì)生成過(guò)程產(chǎn)生因果效應(yīng),這并非不可信。楊立昆等人可能不同意這一觀點(diǎn),因?yàn)镾ora的訓(xùn)練目標(biāo)是像素級(jí)重建,盡管生成過(guò)程發(fā)生在潛在空間。因此,有人認(rèn)為Sora對(duì)視頻場(chǎng)景的潛在表征不可能那么抽象。但是,同樣的論點(diǎn)也適用于用于圖像生成的潛在擴(kuò)散模型;而且,我們也有具體證據(jù)表明,這些模型確實(shí)能學(xué)習(xí)到有用的深度等特征的抽象表征。也許V-JEPA的表征比Sora的更加抽象和結(jié)構(gòu)化,但這是一個(gè)開放的經(jīng)驗(yàn)性問(wèn)題。
07.結(jié)語(yǔ):視頻生成模型從娛樂(lè)到世界模擬的探索
那么,像Sora這樣的視頻生成模型是世界模擬器嗎?或許在某種程度上是,但不一定是人們所想象的方式。它們的生成過(guò)程并不以直觀物理的前向時(shí)間模擬為條件,就像直觀物理引擎那樣;但它可能受到3D幾何和動(dòng)態(tài)關(guān)鍵方面的潛在表示的影響。從更弱的意義上說(shuō),Sora可能有一個(gè)有限的世界模型,就像用于圖像生成的潛在擴(kuò)散模型有一個(gè)更有限的世界模型一樣。但我們還不能確定,除非某個(gè)研究小組以正確的方式對(duì)Sora進(jìn)行研究。OpenAI仍然偶爾進(jìn)行可解釋性研究,所以還是有希望的;我們希望看到更廣泛的研究團(tuán)隊(duì)能在可解釋性方面做出努力,比如Stable Video這樣的開源視頻生成模型。雖然這些模型的能力遠(yuǎn)不如Sora,但它們便于研究。在我們進(jìn)行猜想的同時(shí),請(qǐng)?jiān)试S我對(duì)視頻生成模型的未來(lái)做一個(gè)簡(jiǎn)單的推測(cè)。
我曾說(shuō)過(guò),Sora并不是一個(gè)模擬器,因?yàn)樗⒉皇峭ㄟ^(guò)先對(duì)場(chǎng)景進(jìn)行一系列模擬來(lái)預(yù)測(cè)視頻幀的。不過(guò),也許Sora或其他更強(qiáng)大的視頻生成模型可以在一個(gè)更綜合的系統(tǒng)中用作模擬器。例如,Genie論文的作者們暗示了類似的模型可以用來(lái)為訓(xùn)練強(qiáng)化學(xué)習(xí)智能體生成多樣化的模擬環(huán)境。
未來(lái),我們可以想象機(jī)器人系統(tǒng)將使用三個(gè)主要組件:(1)一個(gè)大型的視覺(jué)語(yǔ)言模型,用于解析語(yǔ)言指令,將其轉(zhuǎn)化為計(jì)劃,并對(duì)視覺(jué)輸入進(jìn)行推理;(2)一個(gè)大型的視頻生成模型,用于模擬未來(lái)可能的觀察結(jié)果,以進(jìn)行底層規(guī)劃;(3)一個(gè)通用的逆動(dòng)力學(xué)模型,用于從這些模擬中提取合適的行動(dòng),并據(jù)此執(zhí)行計(jì)劃。也許(2)和(3)可以合并到一個(gè)通用的Genie式生成模型中,該模型具有內(nèi)置的(或者學(xué)習(xí)到的)表示潛在動(dòng)作的能力;也可以將這三個(gè)模型合并成一個(gè)巨大的Gato式多模態(tài)模型,該模型可以解析和生成語(yǔ)言、時(shí)空和動(dòng)作的標(biāo)記。這些推測(cè)性的場(chǎng)景揭示了從視頻的生成建模到更強(qiáng)大意義上的“世界模擬”之間的路徑。
讓我們以一個(gè)有趣的開放性問(wèn)題來(lái)做個(gè)總結(jié)。
無(wú)論視頻生成模型在AI和機(jī)器人技術(shù)的未來(lái)中扮演什么角色,人們可能會(huì)問(wèn),與任何深度學(xué)習(xí)模型一樣,它們是否會(huì)以非表面的方式與認(rèn)知科學(xué)相關(guān)。正如前面討論的那樣,關(guān)于人類物理推理在多大程度上依賴于直觀物理引擎的顯式模擬,目前仍未達(dá)成共識(shí)。也許視頻生成模型的進(jìn)展,以及未來(lái)對(duì)其作為基于代理架構(gòu)的實(shí)際模擬器的可行性研究,會(huì)給IPE模型帶來(lái)一些壓力。
這也可能會(huì)引發(fā)有趣的討論,即是否應(yīng)將能可靠模擬直觀物理的神經(jīng)網(wǎng)絡(luò)作為端到端學(xué)習(xí)IPE的核心機(jī)制,而不是作為直觀物理IPE模型的真正替代品。無(wú)論人們對(duì)Sora和OpenAI持何種觀點(diǎn),思考視頻生成模型如何超越其娛樂(lè)價(jià)值而與深度學(xué)習(xí)和認(rèn)知科學(xué)的關(guān)鍵研究問(wèn)題相關(guān),都是一件令人興奮的事情。從GIF生成器到世界模擬器,我們拭目以待。