爵士樂的精髓在于即興演奏,英偉達(dá)正在通過AI研究向這一流派致敬。也許有一天,圖形創(chuàng)作者可以使用快速創(chuàng)建出的 3D 物體,來一場(chǎng)即興表演。
本周在新奧爾良舉行的計(jì)算機(jī)視覺和模式識(shí)別會(huì)議CVPR上,英偉達(dá)的可逆渲染流程NVIDIA 3D MoMa驚艷亮相。通過NVIDIA 3D MoMa渲染流水線,結(jié)合GPU加速,可以使用現(xiàn)代AI機(jī)器和GPU的原始算力快速生成3D物體,創(chuàng)作者可以在現(xiàn)有工具中自由地導(dǎo)入、編輯和擴(kuò)展這些物體。
為了展示NVIDIA 3D MoMa的功能,英偉達(dá)的研究和創(chuàng)意團(tuán)隊(duì)從不同角度收集了約100張小號(hào)、長(zhǎng)號(hào)、薩克斯、架子鼓和單簧管這五種爵士樂器的圖片。
他們首先將2D圖像重建為3D,并以網(wǎng)格形式呈現(xiàn)。然后將這些樂器從原始場(chǎng)景中取出,導(dǎo)入NVIDIA Omniverse 3D模擬平臺(tái)進(jìn)行編輯。
在任何傳統(tǒng)圖形引擎中,創(chuàng)作者都可以輕松為形狀調(diào)換由NVIDIA 3D MoMa生成的材質(zhì),就像給網(wǎng)格穿上不同的衣服一樣。例如該團(tuán)隊(duì)對(duì)小號(hào)模型采取了這種做法,將原來的塑料材質(zhì)快速更換成黃金、大理石、木材或軟木。
然后,創(chuàng)作者可以將新編輯的物體放入任何虛擬場(chǎng)景中。英偉達(dá)團(tuán)隊(duì)將這些樂器放入了經(jīng)典的圖形渲染質(zhì)量測(cè)試康奈爾盒中。他們證明了虛擬樂器對(duì)光線的反應(yīng)與在物理世界中完全一樣:閃亮的銅管樂器反射出亮光,啞光的鼓皮則會(huì)吸收光線。
這些通過逆渲染生成的新物體可以作為復(fù)雜動(dòng)畫場(chǎng)景的構(gòu)成要素。在爵士樂及其發(fā)源地新奧爾良,英偉達(dá)運(yùn)用這些技術(shù)展示了AI和藝術(shù)的完美融合。
如何基于2D圖像創(chuàng)建3D物體?
逆渲染是將靜態(tài)照片重建為3D物體或場(chǎng)景模型的技術(shù),也一直是統(tǒng)一計(jì)算機(jī)視覺和計(jì)算機(jī)圖形學(xué)的關(guān)鍵。通過NVIDIA 3D MoMa渲染流水線,可以將逆渲染問題的每個(gè)部分表示為GPU加速的可微分組件,然后使用現(xiàn)代AI機(jī)器和英偉達(dá)GPU的原始算力快速生成3D物體,創(chuàng)作者可以在現(xiàn)有工具中自由地導(dǎo)入、編輯和擴(kuò)展這些物體。
為了使藝術(shù)家或工程師能夠充分利用 3D物體,其形式應(yīng)能夠?qū)胗螒蛞妗?D建模器和電影渲染器等各種被廣泛使用的工具。帶有紋理、材質(zhì)的三角網(wǎng)格形式,就是此類3D工具使用的通用語言。
三角網(wǎng)格是用于定義3D圖形和建模形狀的基本框架
其實(shí)這也不是英偉達(dá)第一次實(shí)現(xiàn)這樣的突破。在去年的CVPR 大會(huì)上,英偉達(dá)就針對(duì)當(dāng)前人們?cè)埔曨l會(huì)議中的痛點(diǎn)演示了2D轉(zhuǎn)3D的“神技”。
可能你也有過這樣的尷尬時(shí)刻,視頻會(huì)議馬上開始,但是自己頭發(fā)凌亂、還穿著睡衣,不敢以真面目示人……英偉達(dá)開發(fā)了一系列用于視頻會(huì)議的深度學(xué)習(xí)模型,可以借助生成式對(duì)抗網(wǎng)絡(luò) ( GAN ) ,僅用一張人物2D圖像即可合成逼真的人臉說話視頻。也就是說,只需要上傳一張正裝工作照,你就可以不洗臉不洗頭,但是同事看到的你卻是得體的工作形象??梢哉f真的是懶人剛需了。
下圖中,有一個(gè)人就是躲在視頻背后的那個(gè)“懶人”,你能分辨出來嗎?
英偉達(dá)去年還發(fā)布了遷移學(xué)習(xí)工具包(TLT)3.0,包括各種高精度和高性能計(jì)算機(jī)視覺和對(duì)話式AI預(yù)訓(xùn)練模型,以及一套強(qiáng)大的生產(chǎn)級(jí)功能,可將AI開發(fā)能力提升10倍。
此外還有Omniverse這款專注于實(shí)時(shí)仿真、數(shù)字協(xié)作的云平臺(tái),擁有高度逼真的物理模擬引擎以及高性能渲染能力。通過Omniverse,工程師和軟件程序員可以模擬出新的軟件,然后逐步應(yīng)用到實(shí)際中。
寫在最后
動(dòng)態(tài)場(chǎng)景處理是計(jì)算機(jī)視覺當(dāng)前的重要研究方向。不論是虛擬爵士樂演奏,還是其他任意2D轉(zhuǎn)3D的動(dòng)態(tài)呈現(xiàn),背后都離不開英偉達(dá)強(qiáng)大的GPU算力、專注于實(shí)時(shí)仿真、數(shù)字協(xié)作的Omniverse云平臺(tái)、還有海量的模型構(gòu)建、豐富的SDK工具包等支撐。
這場(chǎng)“卷到”元宇宙里的演奏會(huì),相信只是小試牛刀。畢竟在英偉達(dá)通過AI系統(tǒng)所創(chuàng)建的數(shù)字孿生虛擬世界構(gòu)想中,構(gòu)建出一個(gè)數(shù)字孿生的地球也是有可能的,希望這些藍(lán)圖的實(shí)現(xiàn),能夠真正解決許多需要通過大規(guī)模虛擬才能解決的“疑難雜癥”。