加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長(zhǎng)期合作伙伴
立即加入
  • 正文
    • 視頻生成模型難在哪兒?
    • 誰將最先打造出“中國(guó)版Sora”?
    • 留給中國(guó)廠商的時(shí)間不多了
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

?視頻生成模型之戰(zhàn),中國(guó)廠商準(zhǔn)備好了嗎?

03/04 11:40
2049
閱讀需 11 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

近日,Sora、Genie等視頻生成模型點(diǎn)燃了資本市場(chǎng)熱情。人工智能指數(shù)迎風(fēng)大漲,相關(guān)概念股接連漲停。據(jù)不完全統(tǒng)計(jì),近20家上市公司在各自的互動(dòng)平臺(tái)上披露了視頻生成模型領(lǐng)域相關(guān)的業(yè)務(wù)情況。然而,專家指出,目前國(guó)內(nèi)視頻生成模型技術(shù)真正達(dá)到前沿水平的公司鳳毛麟角,多數(shù)公司只是在跟風(fēng)炒作,缺乏真正的技術(shù)儲(chǔ)備和研發(fā)能力。

視頻生成模型難在哪兒?

相較于文字和圖片,視頻在多維信息表達(dá)、畫面豐富性及動(dòng)態(tài)性方面有更大優(yōu)勢(shì)。它可以結(jié)合文本、圖像、聲音及視覺效果,在單一媒體中融合多種信息形式。從視頻生視頻到文生視頻、圖生視頻,多模態(tài)的發(fā)展重視用更少的用戶輸入信息量實(shí)現(xiàn)更豐富的AI生成結(jié)果。

核心技術(shù)難點(diǎn)一方面在于數(shù)據(jù),文生視頻需要大量的“文本-視頻”配對(duì)數(shù)據(jù),且數(shù)據(jù)標(biāo)注、清洗的工作量龐大;另一方面在于邏輯,視頻是連續(xù)的多幀圖像,要有邏輯性,而非簡(jiǎn)單的圖片組合,這會(huì)讓模型復(fù)雜度、計(jì)算難度和成本大幅提升。

“我們?cè)驹谖谋?、圖像模型上就存在差距,現(xiàn)在視頻模型來了,我們的差距也更大了,”晟云磐盾信息技術(shù)有限公司總裁郝峻晟在接受《中國(guó)電子報(bào)》記者采訪時(shí)坦言,“由于受到算力、顯卡等多方面的限制,國(guó)內(nèi)人工智能企業(yè)在大模型領(lǐng)域的創(chuàng)新已經(jīng)落后了一大步。而現(xiàn)在國(guó)外領(lǐng)先的大模型不再開源,不再公開核心技術(shù)細(xì)節(jié),所有的技術(shù)研發(fā)只能靠我們自己了。大模型研發(fā)是一個(gè)系統(tǒng)性的工程,基礎(chǔ)算法本身可能沒什么差距,但像數(shù)據(jù)的訓(xùn)練、清洗、標(biāo)注、管理以及能耗等細(xì)節(jié)才是真正拉開差距的地方?!?/p>

Sora、Genie等視頻生成模型的誕生離不開Runway ML的Gen-2、谷歌的Lumiere、Stable Video Diffusion等前沿技術(shù)或產(chǎn)品在前鋪路。Sora的一個(gè)重要的技術(shù)創(chuàng)新點(diǎn)在于其先將不同視頻和圖片數(shù)據(jù)壓縮在一個(gè)低維空間中,再分解成統(tǒng)一Patch作為訓(xùn)練大模型的基本單位,這一改進(jìn)使得文生視頻更加逼真、高質(zhì)量。

“所有的創(chuàng)新都是突發(fā)的,具有偶然性,無法被預(yù)測(cè)。但海外這些領(lǐng)先的視頻生成模型至少已經(jīng)幫助我們確定了技術(shù)方向?!焙戮烧f道。

除了技術(shù)突破,應(yīng)用賽道的選擇非常重要。賽迪顧問業(yè)務(wù)總監(jiān)、軟件與信息服務(wù)業(yè)研究中心總經(jīng)理高丹在接受《中國(guó)電子報(bào)》記者采訪時(shí)表示:“不管是ChatGPT還是Sora,這類爆款產(chǎn)品都發(fā)跡于我們以往并沒有過多關(guān)注的領(lǐng)域。而二者的共同點(diǎn)是都出現(xiàn)在數(shù)據(jù)積累比較多或者應(yīng)用場(chǎng)景比較多的領(lǐng)域,因此我認(rèn)為爆款的出現(xiàn)首先是要選對(duì)賽道,要關(guān)注數(shù)字化應(yīng)用場(chǎng)景積累豐厚的領(lǐng)域?!?/p>

“另一個(gè)重要的點(diǎn)是企業(yè)要長(zhǎng)期堅(jiān)持,并且有資本長(zhǎng)期投入,不追求短期效益。”高丹說道。這一點(diǎn)說起來容易,真正能做到的企業(yè)寥寥無幾。

誰將最先打造出“中國(guó)版Sora”?

在視頻生成模型領(lǐng)域,字節(jié)跳動(dòng)被寄予厚望。“我比較看好字節(jié)跳動(dòng),它本身在視頻應(yīng)用領(lǐng)域的積累就比較多。”郝峻晟對(duì)記者說道。他認(rèn)為,國(guó)內(nèi)有豐富的視頻數(shù)據(jù)集,可供模型訓(xùn)練。要訓(xùn)練出類似Sora的視頻生成模型其實(shí)并不難,只要有充足的算力、顯卡和數(shù)據(jù),再調(diào)高算法精度,就能有效提升生成視頻的質(zhì)量。

根據(jù)公開信息,2023年11月,字節(jié)跳動(dòng)發(fā)表視頻生成研究成果PixelDance,又在今年1月發(fā)布了視頻生成模型MagicVideo-V2。根據(jù)公開的實(shí)驗(yàn)評(píng)測(cè)數(shù)據(jù)顯示,MagicVideo-V2生成的視頻高清度、潤(rùn)滑度、連貫性、文本語義還原等比目前主流的文生視頻模型Gen-2、Stable Video Diffusion、Pika 1.0等更出色。

近日,字節(jié)跳動(dòng)又悄然推出了一款名為Boximator的視頻生成模型。不過,字節(jié)跳動(dòng)內(nèi)部人士在回應(yīng)外部關(guān)切時(shí)表示,Boximator目前仍是一個(gè)研究項(xiàng)目,專注于視頻生成領(lǐng)域中控制對(duì)象運(yùn)動(dòng)的技術(shù)方法。盡管其具有創(chuàng)新性和潛力,但該項(xiàng)目尚未達(dá)到作為成熟產(chǎn)品推出的階段。與此同時(shí),與國(guó)外領(lǐng)先的視頻生成模型相比,Boximator在畫面質(zhì)量、保真率以及視頻時(shí)長(zhǎng)等方面仍存在顯著的差距。

盡管字節(jié)跳動(dòng)仍想保持低調(diào),但從字節(jié)跳動(dòng)秘密組建AI產(chǎn)品研發(fā)團(tuán)隊(duì)、前抖音CEO張楠轉(zhuǎn)戰(zhàn)剪映、谷歌頂尖科學(xué)家蔣路加入TikTok等舉措來看,Sora的橫空出世無疑大大加劇了字節(jié)跳動(dòng)的焦慮。

一方面,Sora已經(jīng)能生成60秒視頻,這將直接沖擊到剪映的生存空間,并且會(huì)改變抖音與TikTok的內(nèi)容供給邏輯;另一方面,Sora引領(lǐng)著文生視頻技術(shù)不斷精進(jìn),抖音及TikTok 也將面臨新技術(shù)帶來的洗牌,這也在一定程度上刺激字節(jié)更加積極推進(jìn)AI技術(shù)投入。

“Sora的出現(xiàn)是技術(shù)、資本和數(shù)據(jù)綜合的成果,但是結(jié)合目前看更偏重于短視頻的開發(fā),如果多方要素基本相同的情況下,我更看好前期相關(guān)數(shù)據(jù)積累較多的企業(yè)?!备叩し治龅?。

從國(guó)內(nèi)廠商來看,除了字節(jié)跳動(dòng),百度在人工智能領(lǐng)域的布局較早,無論是算力的充足、數(shù)據(jù)的豐富還是工程能力的先進(jìn)程度,都處于國(guó)內(nèi)第一梯隊(duì)。阿里、騰訊、科大訊飛等也是大模型競(jìng)爭(zhēng)中的佼佼者。

“實(shí)際上,Sora打通的這條道路并不神秘,總體上沒有很多超預(yù)期的技術(shù),它是沿著大一統(tǒng)多模態(tài)大模型的既定路線,在工程上取得的一項(xiàng)成果,沒有改變既定的技術(shù)范式和設(shè)計(jì)理念?!蹦炒竽P蛨F(tuán)隊(duì)的工程副總裁表示。在他看來,Sora實(shí)現(xiàn)文生視頻的大致思路和邏輯都已經(jīng)在技術(shù)文檔中公之于眾了,但技術(shù)細(xì)節(jié)并未披露,想要真正完成復(fù)現(xiàn)甚至超越,仍然需要考驗(yàn)國(guó)內(nèi)AI企業(yè)包括算力、數(shù)據(jù)和工程能力在內(nèi)的多方面的綜合實(shí)力。

留給中國(guó)廠商的時(shí)間不多了

近日,中信建投、國(guó)泰君安、申萬宏源、招商證券等多家券商在研報(bào)中表示,Sora是人工智能發(fā)展進(jìn)程中的“里程碑”,預(yù)示AGI(通用人工智能)將加速到來,眾多行業(yè)將迎顛覆式變革。而Sora出手即“王炸”,AI生成視頻創(chuàng)業(yè)公司無疑將面臨巨大壓力。這也難怪Runway CEO瓦倫祖拉會(huì)在社交媒體感嘆:“Game On(游戲開始了)?!?/p>

與Sora的眾星捧月形成鮮明對(duì)比的是,不少創(chuàng)業(yè)企業(yè)都在尋求收購(gòu),或大幅裁員,甚至宣布關(guān)停。多位專家表示,新技術(shù)的風(fēng)口往往稍縱即逝,留給中國(guó)廠商的時(shí)間不多了。

“投資環(huán)境不同,這也會(huì)對(duì)技術(shù)的創(chuàng)新產(chǎn)生一定的影響?!焙戮煞治稣f。他表示,如果可以給新技術(shù)一些耐心,花十幾年的時(shí)間持續(xù)投入研發(fā),做出來的產(chǎn)品、應(yīng)用往往能給行業(yè)帶來顛覆式的變化?!岸鴩?guó)內(nèi)很多投資方看到‘風(fēng)’來了,就會(huì)把資本投入進(jìn)來,然后‘風(fēng)’走了,投資就撤了。這對(duì)技術(shù)創(chuàng)新氛圍的培育是不利的。”他說道。

人工智能行業(yè)天使投資人郭濤也表達(dá)了類似的觀點(diǎn)。他指出,國(guó)內(nèi)市場(chǎng)的特點(diǎn)和監(jiān)管政策也可能影響企業(yè)的決策。國(guó)內(nèi)企業(yè)要迎頭趕上,需要在技術(shù)研發(fā)、人才培養(yǎng)和市場(chǎng)洞察上下功夫,同時(shí)還要考慮到國(guó)內(nèi)外市場(chǎng)的差異性和合規(guī)性問題。

不過,或許是考慮性能、安全等問題,Sora并未向公眾開放,目前處于安全測(cè)試階段,僅向“紅隊(duì)測(cè)試人士”(針對(duì)潛在危險(xiǎn)行為的測(cè)試)和少數(shù)創(chuàng)作者開放。據(jù)外媒預(yù)測(cè),GPT-4經(jīng)過6個(gè)月的測(cè)試后正式向公眾開放,預(yù)計(jì)Sora或?qū)⒂?月向公眾開放。

上海市人工智能行業(yè)協(xié)會(huì)秘書長(zhǎng)鐘俊浩分析指出,Sora面臨的技術(shù)挑戰(zhàn)仍有不少,特別是與文本對(duì)話和圖片生成相比,訓(xùn)練成本高昂、高質(zhì)量數(shù)據(jù)集的缺乏以及視頻描述的模糊性都將成為Sora需要跨越的門檻。

“Sora的應(yīng)用場(chǎng)景、商業(yè)前景比較明朗,動(dòng)漫游戲影視、短視頻等都可以應(yīng)用,長(zhǎng)視頻的制作更加復(fù)雜,還需要進(jìn)一步開發(fā),同時(shí)模型訓(xùn)練成本也較高,算力要求也較高,商業(yè)落地還需要一段時(shí)間?!备叩け硎尽_@也給國(guó)內(nèi)廠商搶占市場(chǎng)留下了一段緩沖期。

郝峻晟表示,國(guó)家層面大力建設(shè)智算中心,加速完善新型算力基礎(chǔ)設(shè)施,將為國(guó)內(nèi)人工智能的發(fā)展提供豐沃的“土壤”。與此同時(shí),人工智能企業(yè)也要加快探索的步伐,尤其是在垂直行業(yè)或者一些特定的領(lǐng)域去做更多的積累與突破。

 

作者丨宋婧

編輯丨趙晨

美編丨馬利亞

監(jiān)制丨連曉東

推薦器件

更多器件
器件型號(hào) 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊(cè) ECAD模型 風(fēng)險(xiǎn)等級(jí) 參考價(jià)格 更多信息
MK10DX256VLH7R 1 Freescale Semiconductor Kinetis K 32-bit MCU, ARM Cortex-M4 core, 256KB Flash, 72MHz, QFP 64
$9.1 查看
ATXMEGA32E5-MU 1 Atmel Corporation RISC Microcontroller, 16-Bit, FLASH, AVR RISC CPU, 32MHz, CMOS, 5 X 5 MM, 0.50 MM PITCH, GREEN, PLASTIC, MO-220VHHD-2, VQFN-44

ECAD模型

下載ECAD模型
$3 查看
DSPIC33EP512MU814-I/PL 1 Microchip Technology Inc 16-BIT, FLASH, 60 MHz, MICROCONTROLLER, PQFP144, 20 X 20 MM, 1.40 MM HEIGHT, LEAD FREE, PLASTIC, LQFP-144
$12.18 查看

相關(guān)推薦

電子產(chǎn)業(yè)圖譜