午夜a级成人免费毛片,国产精品九九免费视频

編譯 |??香草，編輯?|??李水青

Sora是世界模擬器嗎？萬(wàn)字長(zhǎng)文深度解讀，楊立昆點(diǎn)贊。

智東西3月8日?qǐng)?bào)道，近日，深度學(xué)習(xí)三巨頭之一、Meta首席科學(xué)家楊立昆點(diǎn)贊分享了一篇萬(wàn)字博文《視頻生成器是世界模擬器嗎？（Are Video Generation Models World Simulators?）》。

▲楊立昆在X平臺(tái)上轉(zhuǎn)發(fā)并稱這是一篇好文章

文章從Sora的工作原理、模擬假說(shuō)、直觀物理學(xué)、世界模型的定義、圖像生成等角度，深入探討了標(biāo)題所提出的問(wèn)題，并得出結(jié)論：像Sora這樣的視頻生成器，可能不是人們想象中的“世界模擬器”，但從更寬泛的定義上來(lái)看，它們可以被視作有限的“世界模型”。

本文作者以文生圖模型為例證，論述了Sora可能和Stable Diffusion類似，生成過(guò)程超出了對(duì)像素空間表面統(tǒng)計(jì)的擬合，可能受到3D幾何和動(dòng)態(tài)關(guān)鍵方面的潛在表示的影響，從而學(xué)到有用的深度、因果等特征的抽象表征。

換句話說(shuō)，Sora能在潛在空間中學(xué)習(xí)抽象規(guī)律，具有部分模擬世界的能力。

自Sora于今年初發(fā)布以來(lái)，“Sora是否理解物理世界”話題引來(lái)眾多大佬下場(chǎng)討論。其中英偉達(dá)的科學(xué)家Jim Fan將Sora描述為“數(shù)據(jù)驅(qū)動(dòng)的物理引擎”；楊立坤則多次開噴Sora，稱Sora的訓(xùn)練方式無(wú)法構(gòu)建世界模型，通過(guò)生成像素的方式來(lái)建模世界，與幾乎已經(jīng)被拋棄的“綜合分析”方法一樣，浪費(fèi)時(shí)間且“是一次徹頭徹尾的失敗”。

該文章的作者是澳大利亞悉尼麥考瑞大學(xué)的哲學(xué)講師拉斐爾·米利埃爾（Rapha?l Millière），他主要從事AI、認(rèn)知科學(xué)和心智哲學(xué)等方面的學(xué)術(shù)研究。以下是對(duì)該文章的全文編譯，由于篇幅原因進(jìn)行了部分刪減。

▲文章首頁(yè)截圖

原文地址：https://artificialcognition.net/posts/video-generation-world-simulators/#concluding-thoughts

01.Sora是一項(xiàng)工程壯舉架構(gòu)沒(méi)有真正突破

2024年2月16日，OpenAI推出Sora，一個(gè)令人印象深刻的新型深度學(xué)習(xí)模型，可以根據(jù)文本提示生成視頻和圖像。Sora可以生成長(zhǎng)達(dá)一分鐘的視頻，具有不同的分辨率和寬高比。雖然目前無(wú)法測(cè)試該模型，但OpenAI挑選的結(jié)果表明它在先前的技術(shù)水平上有了巨大的改進(jìn)。OpenAI有些自大地聲稱Sora是一個(gè)“世界模擬器”。

那么什么是世界模擬器呢？

這是OpenAI對(duì)訓(xùn)練Sora動(dòng)機(jī)的陳述：“我們正在教AI如何理解和模擬物理世界中的運(yùn)動(dòng)，目標(biāo)是訓(xùn)練出能夠幫助人們解決需要與現(xiàn)實(shí)世界進(jìn)行交互的問(wèn)題的模型?！?/p>

OpenAI還發(fā)布了Sora技術(shù)報(bào)告，其中闡述了對(duì)Sora理論意義的理解：“我們的研究結(jié)果表明，擴(kuò)展視頻生成模型是建立物理世界通用模擬器的一條可行之路。”Sora的技術(shù)報(bào)告對(duì)細(xì)節(jié)描述得很少，但提供了一些關(guān)于架構(gòu)的線索。

其核心是一個(gè)擴(kuò)散變換器（Diffusion Transformer，簡(jiǎn)稱DiT），這是比爾·皮布爾斯（Bill Peebles，也是Sora的主要作者之一）紐約大學(xué)的謝賽寧設(shè)計(jì)的一種架構(gòu)。

DiT是一種具有Transformer主干網(wǎng)絡(luò)的擴(kuò)散模型。我們熟悉的圖像生成模型，如Stable Diffusion是潛在擴(kuò)散模型。它們使用預(yù)訓(xùn)練的變分自動(dòng)編碼器（VAE）將原始圖像從像素空間壓縮到潛在空間；然后，擴(kuò)散模型在從VAE學(xué)習(xí)的較低維潛在空間上進(jìn)行訓(xùn)練，而不是在高維像素空間上。這種擴(kuò)散過(guò)程通常使用U-Net骨干實(shí)現(xiàn)。U-Net是一種卷積神經(jīng)網(wǎng)絡(luò)，最初用于圖像分割，后來(lái)被調(diào)整用于去噪擴(kuò)散。

DiT架構(gòu)受潛在擴(kuò)散模型的啟發(fā)，但將U-Net骨干替換為修改后的視覺(jué)Transformer（ViT）。ViT是專門用于視覺(jué)任務(wù)的Transformer模型，它不以語(yǔ)言標(biāo)記作為輸入，而是接收?qǐng)D像塊的序列。例如，一幅圖像可以分割成16*16的補(bǔ)丁（Patches），從而為Transformer提供256個(gè)輸入Tokens。同樣，作為DiT的核心修改后，ViT接受來(lái)自VAE的圖像補(bǔ)丁的潛在表示作為序列輸入Tokens。相較于帶有U-Net的傳統(tǒng)潛在擴(kuò)散模型，DiT具有一些優(yōu)勢(shì)：效率更高、擴(kuò)展性更好，而且易于適應(yīng)不同的生成分辨率。

在Sora之前，DiT架構(gòu)已經(jīng)被用于文本條件下的圖像和視頻生成。OpenAI提出的解決方案使用所謂的“視頻壓縮網(wǎng)絡(luò)”（Video compressor network），這可能是針對(duì)視頻進(jìn)行改編的VAE。其基本思想與最初的DiT相同：（1）視頻壓縮網(wǎng)絡(luò)將原始視頻輸入壓縮為潛在時(shí)空表示；（2）壓縮后的視頻被轉(zhuǎn)換為“時(shí)空補(bǔ)丁”，作為輸入Token提供給擴(kuò)散變換器；（3）在最后一個(gè)Transformer塊之后，與視頻壓縮網(wǎng)絡(luò)一起訓(xùn)練的解碼器模型將生成的潛在表示映射回像素空間。

與OpenAI之前的GPT-3等成就一樣，大家的共識(shí)似乎是，Sora的架構(gòu)并沒(méi)有什么真正的突破。正如謝賽寧所說(shuō)，它實(shí)質(zhì)上是一種適用于視頻的DiT，沒(méi)有額外的花哨功能。

因此，Sora在很大程度上是一項(xiàng)工程壯舉，也是對(duì)擴(kuò)展能力的又一次證明。技術(shù)報(bào)告生動(dòng)地說(shuō)明了樣本質(zhì)量隨著訓(xùn)練計(jì)算量的增加而提高。與語(yǔ)言模型一樣，某些能力似乎也會(huì)隨著規(guī)模的擴(kuò)大而顯現(xiàn)；自然地，Sora也再次引發(fā)了關(guān)于純粹的擴(kuò)展到底能達(dá)到什么程度的激烈爭(zhēng)論。

02.模擬假說(shuō)：視頻生成模型在訓(xùn)練中習(xí)得物理規(guī)律

Sora的技術(shù)報(bào)告聲稱，隨著規(guī)模的擴(kuò)大，Sora獲得了“新興的模擬能力”。它提到了通過(guò)動(dòng)態(tài)攝像機(jī)運(yùn)動(dòng)、遮擋、客體永久性和視頻游戲模擬等來(lái)實(shí)現(xiàn)場(chǎng)景一致性，作為此類能力的示例。報(bào)告繼續(xù)得出結(jié)論：“這些能力表明，視頻模型的持續(xù)擴(kuò)展是開發(fā)高性能物理和數(shù)字世界模擬器的有力路徑，這些模擬器涵蓋了生活在其中的對(duì)象、動(dòng)物和人?！蔽覀兎Q之為模擬假說(shuō)（Simulation hypothesis）。

這個(gè)假設(shè)的問(wèn)題在于，它非常模糊。視頻生成模型模擬物理世界到底意味著什么？什么樣的證據(jù)可以支持這一主張？讓我們逐一回答這些問(wèn)題。在Sora發(fā)布之后，AI行業(yè)的知名人士紛紛表達(dá)了他們對(duì)模擬假說(shuō)的理解。英偉達(dá)的Jim Fan將Sora描述為“數(shù)據(jù)驅(qū)動(dòng)的物理引擎”。他這樣解釋這句話的含義：“Sora通過(guò)大量視頻的梯度下降，在神經(jīng)參數(shù)中隱式地學(xué)習(xí)物理引擎。Sora是一個(gè)可學(xué)習(xí)的模擬器，或者說(shuō)是‘世界模型’。

Sora必須學(xué)習(xí)一些隱式的文本到3D、3D變換、光線追蹤渲染和物理規(guī)則，以便盡可能準(zhǔn)確地模擬視頻像素。它必須學(xué)習(xí)游戲引擎的概念，以滿足目標(biāo)。”物理引擎的術(shù)語(yǔ)有些令人困惑，尤其是考慮到有猜測(cè)認(rèn)為Sora是在虛幻5場(chǎng)景上訓(xùn)練得到的，所以讓我們先澄清這一點(diǎn)。

據(jù)我所知，包括Jim Fan在內(nèi)，沒(méi)有人真的認(rèn)為Sora在推理時(shí)有一個(gè)物理引擎在循環(huán)中。換句話說(shuō)，作為一個(gè)DiT模型，它不會(huì)在生成視頻時(shí)調(diào)用虛幻引擎。實(shí)際上，神經(jīng)網(wǎng)絡(luò)調(diào)用物理引擎以前已經(jīng)有人嘗試過(guò)，但不是用于視頻生成，而是為了物理推理。2023年，谷歌大腦的一篇論文Mind's Eye通過(guò)物理引擎模擬可能的結(jié)果，來(lái)提高語(yǔ)言模型在物理推理問(wèn)題上的表現(xiàn)，將這些模擬的結(jié)果作為提示詞中的線索。

那么，我們應(yīng)該如何理解Sora類似于“數(shù)據(jù)驅(qū)動(dòng)的物理引擎”模擬物理世界的主張呢？谷歌DeepMind的Nando de Freitas這樣說(shuō)：“一個(gè)有限大小的神經(jīng)網(wǎng)絡(luò)能夠預(yù)測(cè)任何情況下會(huì)發(fā)生什么的唯一方式，是通過(guò)學(xué)習(xí)內(nèi)部模型來(lái)促進(jìn)這種預(yù)測(cè)，包括直觀的物理定律?！蔽覀?cè)絹?lái)越接近模擬假說(shuō)的明確陳述：一個(gè)基于端到端神經(jīng)網(wǎng)絡(luò)架構(gòu)、參數(shù)設(shè)置有限的足夠好的視頻生成模型，應(yīng)該有望在訓(xùn)練過(guò)程中獲得物理世界的內(nèi)部模型，因?yàn)檫@是神經(jīng)網(wǎng)絡(luò)生成任意場(chǎng)景的連貫、逼真視頻的最有效方法——也許是唯一的方法。Sora 是否真的從 2D 視頻中歸納出物理定律？如上所述，這可能看起來(lái)很荒謬。游戲引擎通常也不模擬這些法則。雖然它們可能會(huì)模擬熱效應(yīng)（火災(zāi)、爆炸）和做功（物體克服摩擦力移動(dòng)），但這些模擬通常是高度抽象的，并不嚴(yán)格遵守?zé)崃W(xué)方程。他們根本不需要這樣做，因?yàn)樗麄兊闹攸c(diǎn)是渲染場(chǎng)景的視覺(jué)和交互可信度，而不是嚴(yán)格的物理準(zhǔn)確性。Sora會(huì)做類似的事情嗎？如果想回答這個(gè)問(wèn)題，我們需要探討直觀物理學(xué)。

03.像人一樣通過(guò)直觀物理引擎模擬事件？

對(duì)人類而言，即使是嬰兒也展現(xiàn)出對(duì)物理世界的穩(wěn)定預(yù)期。例如看到一只球沿著地板滾向墻壁，我們會(huì)直覺(jué)地知道球會(huì)撞到墻壁并反彈回來(lái)，而不是穿過(guò)它。這就是認(rèn)知科學(xué)家稱之為直觀物理學(xué)（Intuitive physics）的東西：一種快速、自動(dòng)的日常推理，它讓人們知道當(dāng)各種物體相互作用時(shí)會(huì)發(fā)生什么，而不需要有意識(shí)地進(jìn)行物理計(jì)算。

人類是如何做到的呢？認(rèn)知科學(xué)家提出了一個(gè)著名的假設(shè)，人們使用一個(gè)直觀物理引擎（IPE）來(lái)模擬物理事件。IPE類似于計(jì)算機(jī)游戲中的物理引擎，它基于不完全準(zhǔn)確的物理原理，通過(guò)隨機(jī)模擬來(lái)預(yù)測(cè)物理現(xiàn)象。根據(jù)這種觀點(diǎn)，當(dāng)我們觀察物理場(chǎng)景時(shí)，會(huì)根據(jù)質(zhì)量、摩擦、彈性等感知證據(jù)構(gòu)建對(duì)物體、屬性和作用力的心理表征，然后運(yùn)行內(nèi)部模擬來(lái)預(yù)測(cè)接下來(lái)會(huì)發(fā)生什么。然而，關(guān)于IPE假設(shè)也存在爭(zhēng)議。批評(píng)者指出，人類的物理推理有時(shí)會(huì)偏離IPE式模擬預(yù)測(cè)，包括系統(tǒng)偏差和錯(cuò)誤以及對(duì)視覺(jué)捷徑的依賴等。一些人認(rèn)為，非牛頓心理模型、深度學(xué)習(xí)模型可能更好地解釋人類對(duì)物理的直覺(jué)。盡管存在爭(zhēng)議，但至少有一個(gè)相對(duì)合理且有豐富實(shí)驗(yàn)文獻(xiàn)支持的案例支持模擬假說(shuō)?，F(xiàn)在，我們可以將這一背景知識(shí)應(yīng)用于人工神經(jīng)網(wǎng)絡(luò)，探討它們是否能夠模擬物理世界。

04.已有“世界模型”未達(dá)強(qiáng)因果概念高標(biāo)準(zhǔn)

通過(guò)心理學(xué)中的直觀物理學(xué)，我們提出了一個(gè)重要的點(diǎn)：對(duì)物理場(chǎng)景進(jìn)行心理模擬，與僅僅表示物理世界的各個(gè)方面（例如幾何形狀）之間存在表面上的區(qū)別，這個(gè)區(qū)別在討論像視頻生成模型這樣的神經(jīng)網(wǎng)絡(luò)的能力時(shí)非常重要。世界模型（World models）的含義已經(jīng)被淡化，以至于在實(shí)踐中變得相當(dāng)難以捉摸。在機(jī)器學(xué)習(xí)研究中，它主要起源于20世紀(jì)90年代Juergen Schmidhuber實(shí)驗(yàn)室的強(qiáng)化學(xué)習(xí)文獻(xiàn)。在這種情況下，世界模型指的是智能體對(duì)其交互的外部環(huán)境的內(nèi)部表示。具體來(lái)說(shuō)，給定環(huán)境狀態(tài)和智能體行動(dòng)，世界模型可以預(yù)測(cè)智能體采取該行動(dòng)后環(huán)境的未來(lái)狀態(tài)。在2018年Ha和Schmidhuber發(fā)表的世界模型論文中，他們提出世界模型包括一個(gè)感官組件，它處理原始觀察結(jié)果，并將它們壓縮成一個(gè)緊湊的編碼。具體來(lái)說(shuō)，基于RNN的世界模型被訓(xùn)練為在智能體之前的經(jīng)驗(yàn)條件下，內(nèi)部模擬并預(yù)測(cè)未來(lái)的潛在觀察編碼、獎(jiǎng)勵(lì)和終止信號(hào)（完成狀態(tài)）。

Ha和Schmidhuber的世界模型論文影響了許多后續(xù)作品。谷歌DeepMind近日推出了基礎(chǔ)世界模型Genie，雖然它不是一個(gè)強(qiáng)化學(xué)習(xí)系統(tǒng)，但它與Ha和Schmidhuber的框架具有關(guān)鍵的相似之處。Genie生成一個(gè)交互式環(huán)境，人類用戶可以通過(guò)影響未來(lái)視頻生成的操作來(lái)控制智能體，它引入了無(wú)監(jiān)督動(dòng)作空間學(xué)習(xí)的概念，以避免訓(xùn)練過(guò)程中對(duì)動(dòng)作標(biāo)簽的依賴。因此，任意視頻都可以作為訓(xùn)練數(shù)據(jù)，而不是帶有動(dòng)作標(biāo)記的示例。

另一個(gè)值得一提的世界模型概念來(lái)自楊立昆，這在他的聯(lián)合嵌入式預(yù)測(cè)架構(gòu)（JEPA）中得到了突出體現(xiàn)。在他的框架中，世界模型是一個(gè)智能體用于規(guī)劃和推理世界如何運(yùn)作的內(nèi)部預(yù)測(cè)模型，用于兩個(gè)關(guān)鍵功能：（1）估算智能體感知系統(tǒng)未提供的有關(guān)當(dāng)前世界狀態(tài)的缺失信息；（2）預(yù)測(cè)智能體提出的一系列動(dòng)作可能產(chǎn)生的多個(gè)可能的未來(lái)世界狀態(tài)。

在JEPA架構(gòu)中，世界模型模塊是由預(yù)測(cè)器網(wǎng)絡(luò)實(shí)現(xiàn)的。它最近被應(yīng)用于視頻，自監(jiān)督模型V-JEPA通過(guò)預(yù)測(cè)視頻潛在空間中遮蔽時(shí)空區(qū)域的表示來(lái)學(xué)習(xí)。V-JEPA和Sora之間的一個(gè)關(guān)鍵區(qū)別是它們各自的學(xué)習(xí)目標(biāo)，以及這些目標(biāo)可能對(duì)其潛在表示產(chǎn)生的下游影響。Sora針對(duì)像素空間的幀重建進(jìn)行訓(xùn)練的，而V-JEPA則針對(duì)潛在空間的特征預(yù)測(cè)進(jìn)行訓(xùn)練。根據(jù)楊立昆的觀點(diǎn)，這會(huì)導(dǎo)致它們潛在表示之間的巨大差異。在他看來(lái)，像素級(jí)別的生成目標(biāo)根本不足以誘導(dǎo)可能對(duì)在世界中規(guī)劃和行動(dòng)有用的抽象表示。總之，人們使用“世界模型”一詞的方式略有不同。無(wú)論是生成模型、強(qiáng)化模型，還是JEPA模型，都沒(méi)有達(dá)到因果推理文獻(xiàn)中“世界模型”這一強(qiáng)因果概念所設(shè)定的高標(biāo)準(zhǔn)。那么像Sora這樣的視頻生成模型呢？我們可以從圖像生成模型中尋找線索。

05.圖像生成模型能學(xué)習(xí)3D幾何結(jié)構(gòu)提供重要線索

Sora模型的核心是DiT，它受到常用于圖像生成的潛在擴(kuò)散模型的啟發(fā)，但將U-Net骨干替換為了ViT。這引發(fā)了一系列問(wèn)題：基于潛在擴(kuò)散的圖像生成模型實(shí)際上編碼了哪些信息？是僅僅編碼了圖像表面的啟發(fā)式信息，還是編碼了視覺(jué)場(chǎng)景的潛在變量，比如3D幾何結(jié)構(gòu)？目前，關(guān)于這個(gè)問(wèn)題的研究并不多。Zhan等人于2023年提出了一種方法來(lái)評(píng)估潛在擴(kuò)散模型是否編碼了圖像中描繪的3D場(chǎng)景的不同物理屬性。測(cè)試結(jié)果顯示，像Stable Diffusion這樣的模型能夠編碼關(guān)于3D場(chǎng)景幾何、支持關(guān)系、照明和相對(duì)深度的信息，盡管在遮擋方面的分類性能較低。這項(xiàng)研究?jī)H僅表明物理屬性的信息可以從模型的激活中解碼出來(lái)，并不意味著這些信息在模型行為上具有因果效力。Chen等人在2023年的研究填補(bǔ)了這一空白。他們創(chuàng)建了一個(gè)由潛在擴(kuò)散模型Stable Diffusion生成的圖像數(shù)據(jù)集，并訓(xùn)練線性探測(cè)器來(lái)預(yù)測(cè)顯著對(duì)象的分割和深度值。通過(guò)干預(yù)實(shí)驗(yàn)，他們發(fā)現(xiàn)模型的內(nèi)部激活對(duì)生成圖像的幾何形狀有因果影響。

這個(gè)實(shí)驗(yàn)表明，像SD這樣的潛在擴(kuò)散模型能夠?qū)W習(xí)到關(guān)于簡(jiǎn)單場(chǎng)景幾何的線性表示，特別是與深度和前景/背景區(qū)分相關(guān)的表示，即使它們僅僅在沒(méi)有顯式深度監(jiān)督的情況下，只通過(guò)2D圖像進(jìn)行訓(xùn)練。此外，這些表示在迭代采樣過(guò)程的早期階段就出現(xiàn)了，而在這些階段，圖像本身對(duì)于人類觀察者來(lái)說(shuō)仍然像是隨機(jī)噪聲，并且?guī)缀醪话疃刃畔?。這表明潛在擴(kuò)散模型所做的遠(yuǎn)遠(yuǎn)超出了對(duì)像素空間表面統(tǒng)計(jì)的擬合。它們引導(dǎo)了關(guān)于深度和顯著性的潛在信息，因?yàn)檫@樣的信息對(duì)于生成逼真的圖像目標(biāo)非常有用。還有其他關(guān)于圖像生成模型的相關(guān)研究。低秩自適應(yīng)（LoRA）可以用來(lái)直接從潛在擴(kuò)散模型中提取內(nèi)在的“場(chǎng)景圖”，如表面法線和深度。該方法可以將任何圖像生成模型轉(zhuǎn)化為固有場(chǎng)景屬性預(yù)測(cè)器，而不需要額外的解碼網(wǎng)絡(luò)。結(jié)果表明，可以通過(guò)利用模型參數(shù)中已經(jīng)存在的信息來(lái)提取關(guān)于3D場(chǎng)景幾何的精細(xì)預(yù)測(cè)。

這并不意味著潛在擴(kuò)散模型能完美地表示視覺(jué)場(chǎng)景的各個(gè)方面的三維幾何。實(shí)際上，經(jīng)過(guò)訓(xùn)練的人眼通常可以注意到輸出中的各種缺陷，物理不一致性甚至可以通過(guò)分類器進(jìn)行量化，就像Sarker等人（2023年）所做的那樣。這些不一致性包括物體及其陰影的錯(cuò)位，以及違反投影幾何學(xué)的情況，例如線條未能正確地收斂到消失點(diǎn)或不遵循線性透視：

對(duì)于如何修復(fù)生成圖像中這些持續(xù)存在的缺陷，有很多有趣的猜想。一個(gè)假設(shè)是，測(cè)試的模型可能不夠大，或者訓(xùn)練數(shù)據(jù)不夠充分。通過(guò)擴(kuò)大參數(shù)和數(shù)據(jù)集的規(guī)模，可能足以使?jié)撛跀U(kuò)散模型學(xué)習(xí)正確的投影幾何，就像它足以修復(fù)先前模型中的許多其他逼真性和連貫性問(wèn)題一樣。但也有可能存在更基本的問(wèn)題，阻止?jié)撛跀U(kuò)散模型正確學(xué)習(xí)投影幾何。例如，它們的架構(gòu)可能缺乏適當(dāng)?shù)臍w納偏差。在這種情況下，使用ViT作為主干結(jié)構(gòu)的DiT也可能減輕純潛在擴(kuò)散的不足之處?？傊?，對(duì)潛在擴(kuò)散模型的探測(cè)和干預(yù)研究表明，它們確實(shí)能表示視覺(jué)場(chǎng)景3D幾何的一些特征，這與它們?cè)瓌t上可以學(xué)習(xí)至少有限程度的“世界模型”的假設(shè)是一致的。它們的潛在空間編碼了結(jié)構(gòu)保持、因果有效的信息，這些信息超越了像素空間的表面統(tǒng)計(jì)數(shù)據(jù)。這是解決關(guān)于Sora和模擬假說(shuō)的猜測(cè)的重要線索。

06.Sora在潛在空間中學(xué)習(xí)抽象規(guī)律是有限的“世界模擬器”

與用于圖像生成的潛在擴(kuò)散模型一樣，Sora是根據(jù)視覺(jué)輸入進(jìn)行端到端訓(xùn)練的，其訓(xùn)練和生成都沒(méi)有明確地以物理變量為條件。但就像潛在擴(kuò)散模型一樣，它的輸出表現(xiàn)出驚人的規(guī)律性。在回顧了認(rèn)知科學(xué)和機(jī)器學(xué)習(xí)中的直觀物理模擬和世界模型的不同方式后，我們可以肯定的第一件事是，Sora從根本上不同于使用專用“直觀物理引擎”來(lái)運(yùn)行模擬的復(fù)合模型。與直觀物理引擎模型不同，Sora沒(méi)有專門的感知、預(yù)測(cè)和決策模塊，需要像物理引擎這樣的接口；它只是一個(gè)高維空間，其中潛在表示經(jīng)歷跨層的連續(xù)變換。Sora也與Ha和Schmidhuber的世界模型大不相同。它不基于離散動(dòng)作、觀察和獎(jiǎng)勵(lì)信號(hào)的歷史來(lái)運(yùn)行模擬。在這方面，OpenAI的技術(shù)報(bào)告有些誤導(dǎo)性內(nèi)容。其給出的Sora演示視頻看起來(lái)像是從Minecraft這樣的視頻游戲中捕獲的，但技術(shù)報(bào)告對(duì)這些輸出結(jié)果的解釋卻更進(jìn)一步：Sora可通過(guò)基本策略（basic policy）控制Minecraft中的玩家，同時(shí)還能高保真地呈現(xiàn)世界及其動(dòng)態(tài)效果。

這表明Sora模仿了一個(gè)智能體（“可控”角色）的政策，就像離線強(qiáng)化學(xué)習(xí)一樣。但這里沒(méi)有傳統(tǒng)意義上的“策略”——或者說(shuō)代理、動(dòng)作、獎(jiǎng)勵(lì)。

與Genie不同，Sora沒(méi)有接受過(guò)從視頻中誘發(fā)潛在動(dòng)作的訓(xùn)練，并且其輸出也不以此類動(dòng)作為條件。如果按照字面意思，技術(shù)報(bào)告暗示Sora已經(jīng)自發(fā)地學(xué)會(huì)了在Minecraft角色內(nèi)部表示類似隱式策略的東西，但這肯定不是我們僅通過(guò)查看輸出就可以推斷出來(lái)的。這是一個(gè)相當(dāng)大膽的主張，應(yīng)該通過(guò)分析模型內(nèi)部的情況來(lái)澄清和支持。因此，Sora與IPE模型、基于RL世界模型以及Genie不同，在以下強(qiáng)定義上，它不是一個(gè)“世界模擬器”。

定義1：一個(gè)可以對(duì)環(huán)境的元素和動(dòng)態(tài)進(jìn)行向前時(shí)間模擬，并且其預(yù)測(cè)是基于這些模擬的輸出條件的系統(tǒng)。Sora對(duì)時(shí)空Token的預(yù)測(cè)是基于先前的時(shí)空Token序列進(jìn)行的，它不涉及運(yùn)行大量關(guān)于2D視頻場(chǎng)景中所描繪的3D世界的向前時(shí)間模擬。它不會(huì)像傳統(tǒng)搜索算法一樣，通過(guò)運(yùn)行多個(gè)內(nèi)部模擬來(lái)預(yù)測(cè)合法移動(dòng)，并根據(jù)結(jié)果調(diào)整下一步的預(yù)測(cè)。然而，我們不能完全排除Sora是一個(gè)“世界模擬器”的假設(shè)，或者稍微不那么嚴(yán)謹(jǐn)?shù)卣f(shuō)，它是一個(gè)“世界模型”，這個(gè)概念的弱意義是受到Othello-GPT等系統(tǒng)的啟發(fā)。

定義2：一種可學(xué)習(xí)其輸入域（包括三維環(huán)境的物理屬性等）屬性的結(jié)構(gòu)保留、因果效應(yīng)表征的系統(tǒng)。作為DiT，Sora本質(zhì)上是一個(gè)潛在擴(kuò)散模型，盡管它有一個(gè)Transformer主干網(wǎng)絡(luò)。Sora與像Stable Diffusion這樣的潛在擴(kuò)散模型在兩個(gè)重要方面有所不同：（1）處理視頻（3D“時(shí)空”對(duì)象）的潛在表示，而不是圖像；（2）其規(guī)模可能要大得多，并且在更多的數(shù)據(jù)上進(jìn)行訓(xùn)練。

因此，我們可以預(yù)期，Stable Diffusion在潛在空間中的3D幾何圖形，可以轉(zhuǎn)化為像Sora這樣的系統(tǒng)；我們也可以預(yù)期，Sora能代表其輸入域的更多“世界屬性”，包括隨時(shí)間展開的過(guò)程屬性等。加里·馬庫(kù)斯（Gary Marcus）等批評(píng)者指出，Sora的某些輸出結(jié)果公然違反了物理學(xué)原理，以此作為反對(duì)模擬假說(shuō)的證據(jù)。OpenAI在自己的博文和Sora技術(shù)報(bào)告中承認(rèn)了這些局限性，并提供了一些特別嚴(yán)重的例子。例如，在下面摘錄的視頻中，我們可以看到明顯的時(shí)空不一致，包括違反重力、碰撞動(dòng)力學(xué)、穩(wěn)固性和物體永恒性。

首先要注意的是，雖然這些不一致的現(xiàn)象自然會(huì)讓我們覺(jué)得不可思議，但這些視頻也表現(xiàn)出了高度的一致性。玻璃杯懸浮、液體在玻璃中流動(dòng)、椅子變形為奇怪的形狀、人在被遮擋時(shí)突然出現(xiàn)……這些反常現(xiàn)象之所以讓人覺(jué)得奇怪，部分原因是其他一切看起來(lái)都與人們預(yù)想的差不多。這就是為什么這些輸出結(jié)果看起來(lái)更像是來(lái)自一個(gè)物理原理奇特的世界的怪異科幻特效，而不是抽象混亂的視覺(jué)圖案。例如，場(chǎng)景的全局3D幾何結(jié)構(gòu)相當(dāng)一致，各種場(chǎng)景元素的運(yùn)動(dòng)軌跡也是如此。Sora的輸出結(jié)果顯然會(huì)在直觀物理方面出錯(cuò)，就像SD的輸出結(jié)果會(huì)在投影幾何方面出錯(cuò)一樣，但這并不能排除這樣一種假設(shè)，即該模型在某些方面的三維幾何和動(dòng)態(tài)表現(xiàn)是一致的。我們?cè)谟懻揝ora架構(gòu)時(shí)提到的一點(diǎn)值得重溫。

與用于生成圖像的潛在擴(kuò)散模型一樣，Sora的生成過(guò)程并不是在像素空間中進(jìn)行的，而是在潛在空間中進(jìn)行的，即對(duì)時(shí)空斑塊的潛在表征進(jìn)行編碼的空間。這大概率是很重要的一點(diǎn)，因?yàn)橐恍┰u(píng)論家認(rèn)為Sora只是學(xué)會(huì)了在逐幀像素變化中插值常見模式。對(duì)這一評(píng)價(jià)的一種理解是，Sora只是對(duì)像素空間中視頻時(shí)空“紋理”的常見變換進(jìn)行近似處理。以這種方式思考Sora如何生成視頻可能會(huì)產(chǎn)生誤導(dǎo)。在Sora的架構(gòu)中，編碼器和解碼器之間發(fā)生的一切都發(fā)生在潛在空間中。正如對(duì)潛在擴(kuò)散模型的研究表明，深度等屬性的潛在表征可以從早期擴(kuò)散時(shí)間步開始產(chǎn)生因果效應(yīng)。

Sora的情況也可能如此：與場(chǎng)景直觀物理相關(guān)的屬性的潛在表征即使在早期擴(kuò)散時(shí)間步也能對(duì)生成過(guò)程產(chǎn)生因果效應(yīng)，這并非不可信。楊立昆等人可能不同意這一觀點(diǎn)，因?yàn)镾ora的訓(xùn)練目標(biāo)是像素級(jí)重建，盡管生成過(guò)程發(fā)生在潛在空間。因此，有人認(rèn)為Sora對(duì)視頻場(chǎng)景的潛在表征不可能那么抽象。但是，同樣的論點(diǎn)也適用于用于圖像生成的潛在擴(kuò)散模型；而且，我們也有具體證據(jù)表明，這些模型確實(shí)能學(xué)習(xí)到有用的深度等特征的抽象表征。也許V-JEPA的表征比Sora的更加抽象和結(jié)構(gòu)化，但這是一個(gè)開放的經(jīng)驗(yàn)性問(wèn)題。

07.結(jié)語(yǔ)：視頻生成模型從娛樂(lè)到世界模擬的探索

那么，像Sora這樣的視頻生成模型是世界模擬器嗎？或許在某種程度上是，但不一定是人們所想象的方式。它們的生成過(guò)程并不以直觀物理的前向時(shí)間模擬為條件，就像直觀物理引擎那樣；但它可能受到3D幾何和動(dòng)態(tài)關(guān)鍵方面的潛在表示的影響。從更弱的意義上說(shuō)，Sora可能有一個(gè)有限的世界模型，就像用于圖像生成的潛在擴(kuò)散模型有一個(gè)更有限的世界模型一樣。但我們還不能確定，除非某個(gè)研究小組以正確的方式對(duì)Sora進(jìn)行研究。OpenAI仍然偶爾進(jìn)行可解釋性研究，所以還是有希望的；我們希望看到更廣泛的研究團(tuán)隊(duì)能在可解釋性方面做出努力，比如Stable Video這樣的開源視頻生成模型。雖然這些模型的能力遠(yuǎn)不如Sora，但它們便于研究。在我們進(jìn)行猜想的同時(shí)，請(qǐng)?jiān)试S我對(duì)視頻生成模型的未來(lái)做一個(gè)簡(jiǎn)單的推測(cè)。

我曾說(shuō)過(guò)，Sora并不是一個(gè)模擬器，因?yàn)樗⒉皇峭ㄟ^(guò)先對(duì)場(chǎng)景進(jìn)行一系列模擬來(lái)預(yù)測(cè)視頻幀的。不過(guò)，也許Sora或其他更強(qiáng)大的視頻生成模型可以在一個(gè)更綜合的系統(tǒng)中用作模擬器。例如，Genie論文的作者們暗示了類似的模型可以用來(lái)為訓(xùn)練強(qiáng)化學(xué)習(xí)智能體生成多樣化的模擬環(huán)境。

未來(lái)，我們可以想象機(jī)器人系統(tǒng)將使用三個(gè)主要組件：（1）一個(gè)大型的視覺(jué)語(yǔ)言模型，用于解析語(yǔ)言指令，將其轉(zhuǎn)化為計(jì)劃，并對(duì)視覺(jué)輸入進(jìn)行推理；（2）一個(gè)大型的視頻生成模型，用于模擬未來(lái)可能的觀察結(jié)果，以進(jìn)行底層規(guī)劃；（3）一個(gè)通用的逆動(dòng)力學(xué)模型，用于從這些模擬中提取合適的行動(dòng)，并據(jù)此執(zhí)行計(jì)劃。也許（2）和（3）可以合并到一個(gè)通用的Genie式生成模型中，該模型具有內(nèi)置的（或者學(xué)習(xí)到的）表示潛在動(dòng)作的能力；也可以將這三個(gè)模型合并成一個(gè)巨大的Gato式多模態(tài)模型，該模型可以解析和生成語(yǔ)言、時(shí)空和動(dòng)作的標(biāo)記。這些推測(cè)性的場(chǎng)景揭示了從視頻的生成建模到更強(qiáng)大意義上的“世界模擬”之間的路徑。

讓我們以一個(gè)有趣的開放性問(wèn)題來(lái)做個(gè)總結(jié)。

無(wú)論視頻生成模型在AI和機(jī)器人技術(shù)的未來(lái)中扮演什么角色，人們可能會(huì)問(wèn)，與任何深度學(xué)習(xí)模型一樣，它們是否會(huì)以非表面的方式與認(rèn)知科學(xué)相關(guān)。正如前面討論的那樣，關(guān)于人類物理推理在多大程度上依賴于直觀物理引擎的顯式模擬，目前仍未達(dá)成共識(shí)。也許視頻生成模型的進(jìn)展，以及未來(lái)對(duì)其作為基于代理架構(gòu)的實(shí)際模擬器的可行性研究，會(huì)給IPE模型帶來(lái)一些壓力。

這也可能會(huì)引發(fā)有趣的討論，即是否應(yīng)將能可靠模擬直觀物理的神經(jīng)網(wǎng)絡(luò)作為端到端學(xué)習(xí)IPE的核心機(jī)制，而不是作為直觀物理IPE模型的真正替代品。無(wú)論人們對(duì)Sora和OpenAI持何種觀點(diǎn)，思考視頻生成模型如何超越其娛樂(lè)價(jià)值而與深度學(xué)習(xí)和認(rèn)知科學(xué)的關(guān)鍵研究問(wèn)題相關(guān)，都是一件令人興奮的事情。從GIF生成器到世界模擬器，我們拭目以待。

器件型號(hào)	數(shù)量	器件廠商	器件描述	ECAD模型	參考價(jià)格	更多信息
STM32F207ZGT6TR	1	STMicroelectronics	High-performance Arm Cortex-M3 MCU with 1 Mbyte of Flash memory, 120 MHz CPU, ART Accelerator, Ethernet	ECAD模型下載ECAD模型	$13.88	查看
STM32F427VIT6	1	STMicroelectronics	High-performance advanced line, Arm Cortex-M4 core with DSP and FPU, 2 Mbytes of Flash memory, 180 MHz CPU, ART Accelerator, Chrom-ART Accelerator,FSMC	ECAD模型下載ECAD模型	$22.31	查看
TMS320F28335PGFA	1	Texas Instruments	C2000™ 32-bit MCU with 150 MIPS, FPU, 512 KB flash, EMIF, 12b ADC 176-LQFP -40 to 85	ECAD模型下載ECAD模型	$29.61	查看

哲學(xué)家萬(wàn)字解析Sora本質(zhì)，楊立昆點(diǎn)贊轉(zhuǎn)發(fā)，AI視頻離世界模擬器還有多遠(yuǎn)？

01.Sora是一項(xiàng)工程壯舉架構(gòu)沒(méi)有真正突破

02.模擬假說(shuō)：視頻生成模型在訓(xùn)練中習(xí)得物理規(guī)律

03.像人一樣通過(guò)直觀物理引擎模擬事件？

04.已有“世界模型”未達(dá)強(qiáng)因果概念高標(biāo)準(zhǔn)

05.圖像生成模型能學(xué)習(xí)3D幾何結(jié)構(gòu)提供重要線索

06.Sora在潛在空間中學(xué)習(xí)抽象規(guī)律是有限的“世界模擬器”

07.結(jié)語(yǔ)：視頻生成模型從娛樂(lè)到世界模擬的探索

推薦器件

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

哲學(xué)家萬(wàn)字解析Sora本質(zhì)，楊立昆點(diǎn)贊轉(zhuǎn)發(fā)，AI視頻離世界模擬器還有多遠(yuǎn)？

01.Sora是一項(xiàng)工程壯舉架構(gòu)沒(méi)有真正突破

02.模擬假說(shuō)：視頻生成模型在訓(xùn)練中習(xí)得物理規(guī)律

03.像人一樣通過(guò)直觀物理引擎模擬事件？

04.已有“世界模型”未達(dá)強(qiáng)因果概念高標(biāo)準(zhǔn)

05.圖像生成模型能學(xué)習(xí)3D幾何結(jié)構(gòu)提供重要線索

06.Sora在潛在空間中學(xué)習(xí)抽象規(guī)律是有限的“世界模擬器”

07.結(jié)語(yǔ)：視頻生成模型從娛樂(lè)到世界模擬的探索

推薦器件

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

哲學(xué)家萬(wàn)字解析Sora本質(zhì)，楊立昆點(diǎn)贊轉(zhuǎn)發(fā)，AI視頻離世界模擬器還有多遠(yuǎn)？