?作者 | 張馬也,編輯 | 德新
智駕行業(yè)第一個(gè)開放的世界模型
大模型正重新定義智能汽車的體驗(yàn)。如果說上半年的北京車展上,還只是一部分頭部車企圍繞端到端與大模型領(lǐng)域率先展開探索,那到了前不久的廣州車展,包括外資與合資車企在內(nèi),幾乎所有廠商都在擁抱端到端與大模型的技術(shù)路線。而大模型也本該是AI公司的主戰(zhàn)場(chǎng)。
11月27日,具有深厚AI背景的汽車科技公司商湯絕影舉辦了2024「絕影實(shí)力AI DAY」。商湯絕影展示了「駕-艙-云」三位一體的通用人工智能(AGI)產(chǎn)品體系與戰(zhàn)略布局,發(fā)布了一系列基于AI大模型的全新產(chǎn)品:
基于多模態(tài)大模型和獨(dú)有類人記憶框架的座艙產(chǎn)品「A New Member For U」
三階不同梯度的端到端智駕量產(chǎn)方案;
以及產(chǎn)品化的世界模型「開悟」。
多模態(tài)座艙大模型結(jié)合記憶框架,使汽車不僅是智能工具,更賦予其「有趣的靈魂」;而絕影在智駕領(lǐng)域多年的探索,也形成了一系列工程化的量產(chǎn)方案;尤為值得關(guān)注的是,這次發(fā)布的世界模型「開悟」。目前,各大頭部主機(jī)廠和Tier 1都在探索和研發(fā)世界模型,但還并沒有特別成熟的產(chǎn)品問世。世界模型通過生成高質(zhì)量仿真數(shù)據(jù),推動(dòng)端到端智能駕駛的發(fā)展。「開悟」可以說是第一個(gè)產(chǎn)品化的,并且將向汽車行業(yè)開放的世界模型。
商湯絕影CEO、商湯科技聯(lián)合創(chuàng)始人、首席科學(xué)家王曉剛表示,基于世界模型,絕影打造出了真實(shí)數(shù)據(jù)和仿真數(shù)據(jù)的「雙輪驅(qū)動(dòng)」閉環(huán),構(gòu)建了車云一體的新范式。目前絕影的智駕方案,已量產(chǎn)交付廣汽埃安、一汽紅旗等3家車企6款車型。發(fā)布會(huì)上,商湯絕影還正式宣布與大卓智能、東風(fēng)汽車等合作伙伴簽訂戰(zhàn)略合作協(xié)議,在高階智駕量產(chǎn)、端到端量產(chǎn)、AI云服務(wù)、AI大模型等領(lǐng)域開展全方位的深度合作。商湯絕影的AI大模型與端到端方案量產(chǎn),正式拉開序幕。
讓座艙擁有「有趣的靈魂」
在智能座艙領(lǐng)域,商湯絕影一直是量產(chǎn)的領(lǐng)跑者。據(jù)第三方數(shù)據(jù),絕影座艙視覺AI軟件市場(chǎng)份額連續(xù)5年位列行業(yè)第一,市面上你能看到的絕大部分智能車大概率都搭載了商湯絕影的座艙技術(shù),比如蔚來、樂道、極氪、智己、小米等等。
座艙大模型從單模態(tài)走向多模態(tài)也是必然趨勢(shì)。而在這次發(fā)布會(huì)上,絕影拋出了一個(gè)有趣的產(chǎn)品化新思路:汽車是否可以擁有「靈魂」,并最終融入用戶家庭,成為一位「新成員」。
以往的車機(jī)交互,主要是工具導(dǎo)向,為用戶提供基礎(chǔ)的信息查詢和問題解答服務(wù);但在智能化時(shí)代,它應(yīng)該能學(xué)習(xí)、進(jìn)化,提供更主動(dòng),更懂用戶的服務(wù)。沿著這種思路,商湯絕影打造了「A New Member For U」(你的家庭新成員),讓智能汽車能夠察言觀色,時(shí)刻準(zhǔn)備著主動(dòng)提供專屬服務(wù),就像車主身邊的家庭新成員。
例如,在旅途中后排孩子睡著了,智能座艙會(huì)主動(dòng)調(diào)高空調(diào)溫度、降低音樂音量,同時(shí)把底盤和駕駛模式調(diào)整為舒適模式,給小朋友一個(gè)舒適安心的休憩環(huán)境。
更重要的是,整個(gè)過程不需要用戶挨個(gè)下指令,而是它觀察、思考和推理之后提供主動(dòng)的服務(wù)。王曉剛介紹,這位「家庭新成員」背后,商湯絕影研發(fā)了三大核心框架:
原生流式多模態(tài)大模型;
類人記憶框架;
Always-on持續(xù)運(yùn)行框架;
原生流式多模態(tài)大模型能夠綜合理解文本、圖像、音頻、視頻、3D等信息模態(tài),包括人的表情、語氣等,做到全場(chǎng)景的多模態(tài)感知。商湯絕影還針對(duì)車載場(chǎng)景進(jìn)行定制,融合車端感知數(shù)據(jù)、車端場(chǎng)景,進(jìn)行針對(duì)性訓(xùn)練。在全面感知的基礎(chǔ)上,模型可以進(jìn)行深度理解和推理思考,具備理解世界、理解人類的能力。
要讓汽車擁有「靈魂」,就必須要有「記憶」,這是人類認(rèn)知能力的基礎(chǔ)。
王曉剛表示,有了「記憶」,車輛才能與你會(huì)產(chǎn)生默契,不斷成長(zhǎng),直到與用戶心有靈犀。類人記憶框架,也是商湯絕影這一座艙解決方案重要的差異化技術(shù)。它與人類的記憶機(jī)制相似,擁有臨時(shí)記憶、長(zhǎng)期記憶和場(chǎng)景記憶,三者結(jié)合讓系統(tǒng)實(shí)現(xiàn)類人的記憶能力。
臨時(shí)記憶,能記得一些瞬時(shí)信息,比如車?yán)锏奈锲?、人的搭配、有沒有系安全帶等。
長(zhǎng)期記憶,就像是一個(gè)檔案庫(kù),存儲(chǔ)著用戶的基本信息、行為模式和偏好等,并且能自我迭代,能從用戶長(zhǎng)期使用中總結(jié)規(guī)律并不斷優(yōu)化。
場(chǎng)景記憶可以從臨時(shí)記憶和長(zhǎng)期記憶中提取重要信息,對(duì)這些信息實(shí)時(shí)處理和分析,作出決策或者解決問題。
最后是持續(xù)運(yùn)行框架,它能夠?qū)⒍嗄B(tài)感知到的信息與各種記憶相結(jié)合,進(jìn)行高效的處理和反饋,做到時(shí)刻感知需求,主動(dòng)為用戶服務(wù)。據(jù)介紹,「家庭新成員」的系統(tǒng)數(shù)據(jù)延遲控制在1毫秒以內(nèi),端側(cè)也能快速響應(yīng),目前首包耗時(shí)最短僅需60毫秒,推理速度40 Tokens/秒。它的反應(yīng)速度可能比人還要快。這次「家庭新成員」產(chǎn)品的發(fā)布,不僅是商湯絕影AI大模型算法的一次集中展示,也展現(xiàn)了它對(duì)AI產(chǎn)品化的深度思考。
端到端智駕量產(chǎn)大潮
繼無圖城市NOA之后,端到端智駕已經(jīng)成為智駕領(lǐng)域確定性的技術(shù)趨勢(shì),也是當(dāng)前車企在智駕傳播上的熱點(diǎn)。作為AI領(lǐng)域的龍頭公司,商湯絕影也是當(dāng)仁不讓。絕影AI Day全面展示其多階的量產(chǎn)方案,包括基于地平線J6E/J6M、英偉達(dá)Orin/Thor等不同算力平臺(tái)打造的基礎(chǔ)智駕方案、全場(chǎng)景高階智駕、端到端智駕等絕影量產(chǎn)智駕產(chǎn)品體系,并正式發(fā)布基于UniAD打造的絕影量產(chǎn)端到端智駕方案AD Ultra。
基于地平線J6E和J6M兩個(gè)平臺(tái),商湯絕影已經(jīng)打造了AD Pro和AD Max兩個(gè)量產(chǎn)智駕方案,其中AD Max能夠?qū)崿F(xiàn)城區(qū)無圖NOP。J6平臺(tái)的智駕方案,預(yù)計(jì)明年2季度就會(huì)量產(chǎn)交付。王曉剛介紹,絕影的UniAD純視覺端到端方案,無圖、無激光雷達(dá),僅需1個(gè)毫米波雷達(dá)和11個(gè)攝像頭,跑在200T算力平臺(tái)上,就能夠?qū)崿F(xiàn)一段式端到端智駕,實(shí)現(xiàn)「類人」駕駛體驗(yàn)。
早在2022年,商湯及聯(lián)合實(shí)驗(yàn)室提出行業(yè)首個(gè)感知決策一體化的自動(dòng)駕駛通用模型UniAD,并榮獲CVPR 2023最佳論文。UniAD將感知、決策、規(guī)劃等模塊都整合到一個(gè)全棧Transformer端到端模型,實(shí)現(xiàn)感知決策一體化的端到端智能駕駛。2024年北京車展,商湯絕影也展出了這一方案的階段性成果。據(jù)HiEV了解,目前該方案已經(jīng)在上海城區(qū)demo運(yùn)行。
基于前述的高階智駕方案,商湯絕影已經(jīng)與大卓智能、東風(fēng)汽車等達(dá)成戰(zhàn)略合作,推進(jìn)量產(chǎn)交付。憑借在大模型技術(shù)上的積累,商湯絕影正在向智駕第一梯隊(duì)發(fā)起沖擊。但如果只是拿出又一個(gè)端到端方案,可能無法滿足市場(chǎng)的期待。所以,面對(duì)端到端智駕長(zhǎng)期持續(xù)的技術(shù)提升,商湯絕影還祭出了另一項(xiàng)絕招——世界模型。
汽車大模型之戰(zhàn),決戰(zhàn)在云端
本次發(fā)布會(huì)上,商湯絕影亮相的最為重磅的產(chǎn)品,是「開悟」世界模型。如果說,座艙和智駕因?yàn)橛脩舾兄蠲黠@,很多車企希望將其掌握在自己手中,那世界模型,就是商湯絕影給車企發(fā)出的最無法拒絕的邀請(qǐng)。端到端大模型方案,能夠直接從原始傳感器數(shù)據(jù)中學(xué)習(xí)駕駛策略,減少了對(duì)傳統(tǒng)模塊化系統(tǒng)的依賴。但這種方案對(duì)高質(zhì)量數(shù)據(jù)的需求極高,而且數(shù)據(jù)需要隨著模型的更新,不斷訓(xùn)練迭代,其中的技術(shù)和成本要求都非常高。受限于量產(chǎn)規(guī)模、算力資源,目前大多數(shù)車企和智駕公司都面臨高質(zhì)量駕駛數(shù)據(jù)的獲取難度大、效率低、成本高的問題。
因此,王曉剛表示:「智駕高端局的競(jìng)爭(zhēng)不止是車端模型的比拼,端到端的決戰(zhàn),戰(zhàn)場(chǎng)在云端?!?/p>
商湯絕影的答案,是給行業(yè)提供「開悟」世界模型。「開悟」可以在云端生成高質(zhì)量、真實(shí)的視頻數(shù)據(jù),通過車企實(shí)車采集的數(shù)據(jù),和仿真生成的數(shù)據(jù),形成雙輪驅(qū)動(dòng)的數(shù)據(jù)閉環(huán),從而讓智駕產(chǎn)品不斷迭代。在其中,商湯絕影承擔(dān)了大部分的算力設(shè)施和數(shù)據(jù)成本,車企也能在不需要大量新建算力基礎(chǔ)設(shè)施,掌握自己車輛數(shù)據(jù)的基礎(chǔ)上,更新智駕產(chǎn)品。
「開悟」世界模型能夠理解真實(shí)世界的物理規(guī)則、交通規(guī)則,生成的視頻數(shù)據(jù)也更加逼真。現(xiàn)場(chǎng)展示的「開悟」生成視頻案例中,晴朗天氣下,汽車、路燈都是有影子的,右轉(zhuǎn)車輛會(huì)主動(dòng)讓行優(yōu)先級(jí)更高的直行車輛。
在圖像真實(shí)的基礎(chǔ)上,「開悟」生成的場(chǎng)景視頻,時(shí)間最長(zhǎng)為150秒、分辨率1080P、生成視角最多可以做到11V,是行業(yè)首個(gè)同時(shí)完成上述指標(biāo)的智駕世界模型。目前,「開悟」世界模型可以支持多樣化的自動(dòng)駕駛場(chǎng)景及Corner case的可控生成,可生成1024類場(chǎng)景,打造了千萬級(jí)的生成場(chǎng)景庫(kù)。
「開悟」預(yù)計(jì)將在2025年對(duì)行業(yè)開放。目前商湯絕影智駕系統(tǒng)20%的數(shù)據(jù)由「開悟」生成,未來會(huì)達(dá)到80%?!搁_悟」世界模型既符合商湯絕影一貫高舉高打的風(fēng)格,也能最大化利用商湯智算中心的算力設(shè)施。商湯大裝置作為大模型基礎(chǔ)設(shè)施,為「開悟」提供了堅(jiān)實(shí)的算力基礎(chǔ)。目前商湯總算力規(guī)模高達(dá)20000petaFLOPS,擁有超5.4萬塊GPU。
算法、算力、數(shù)據(jù),是過去十多年人工智能浪潮的基石,現(xiàn)在在AGI與智能駕駛的新浪潮中,商湯絕影再次以這三者為基礎(chǔ),構(gòu)建了完整的產(chǎn)品體系。王曉剛在發(fā)布會(huì)上對(duì)車企喊話:商湯絕影是邁向AGI之路的最佳同行者,「在智能汽車與云端平臺(tái)之間流動(dòng)的數(shù)據(jù),將成為加速大模型上車的高效燃料」。大模型上車的號(hào)角已經(jīng)吹響,商湯絕影的邀請(qǐng)函已經(jīng)發(fā)出,車企們收到了嗎?