作者 | 賴文昕,編輯?| 陳彩嫻
“條條大路通羅馬,誰都可能成為贏家。”? ? ? ? ??? ? ? ??
上個月初,上海世界人工智能大會(WAIC 2024)展出人形機器人「十八金剛」引爆會場。一個月后,世界機器人大會(WRC 2024)又即將在北京拉開帷幕。再回到 5 月,在國際頂級機器人學(xué)術(shù)會議(ICRA 2024)的機器人方陣中,參與的雙足人形機器人大多都來自中國企業(yè)。
2024 年似乎已成為「中國具身智能元年」——在大模型技術(shù)的加持下,一個足夠 sexy 的故事正在被敘述:長出「大腦」的人形機器人與科幻電影中通用機器人之間的差距正在縮短。
故事的書寫者們,已在具身智能領(lǐng)域內(nèi)掀起一場諸神之戰(zhàn)。
首先下場的是一批因大模型爆發(fā)而誕生于高校的智能派選手。高校教授們(特別是計算機視覺學(xué)者)紛紛邁入產(chǎn)業(yè)界開始創(chuàng)業(yè),創(chuàng)立了如清華的星動紀元、星海圖,北大的銀河通用機器人,上海交通大學(xué)的穹徹智能、智元機器人等等具身智能公司。除了來自高校實驗室外,還有的玩家則是脫胎于大廠,比如核心團隊來自騰訊 Robotics X 的星塵智能以及出自小鵬鵬行的眾擎機器人與九光智能。此外,作為以本體、硬件見長的傳統(tǒng)派,優(yōu)必選、宇樹、傅利葉智能、樂聚機器人等老牌機器人廠商也加入了戰(zhàn)局,開卷具身智能。
在這場沒有硝煙的戰(zhàn)爭中,具身智能玩家們共同面臨著一系列核心問題:人形是具身智能的終點嗎?靈巧手和雙足,哪個更重要?端到端和分層決策孰優(yōu)孰劣?大腦和小腦誰的優(yōu)先級更高?數(shù)據(jù)飛輪如何啟動?選擇哪些場景落地?
顯然,技術(shù)的突破與多樣性帶來了豐富的視角,卻也意味著具身智能領(lǐng)域目前還是一個沒有人絕對領(lǐng)先的比賽。玩家們各自為營,嘗試著不同的路徑和方法,在這場百家爭鳴的較量中,勝者尚不可知。讓我們先來看看最外顯、直觀的第一道關(guān)卡——構(gòu)型之爭。
01、操作 vs.?移動
在眾多與具身智能一起狂飆的子賽道中,人形機器人絕對是最火熱的那一個。據(jù)不完全統(tǒng)計,2024 年上半年,國內(nèi)人形機器人領(lǐng)域投融資活躍,共發(fā)生 13 起融資事件,累計吸金逾 20 億元人民幣。
成立僅一年的銀河通用機器人,在 6 月甚至獲得超 7 億人民幣天使輪融資,估值達到數(shù)十億人民幣,被稱為「年度最大天使輪」。一時間,似乎連資本也達成了共識——人形機器人就是實現(xiàn)具身智能的終極形態(tài)。
那么,人形機器人,真的是可實現(xiàn)且必要的嗎?簡單來說,人形機器人領(lǐng)域可劃分為三大類別:輪式機器人,以輪式驅(qū)動為核心,配備協(xié)作機器人手臂和靈巧手,突出觸覺傳感與手部操作能力,同時具備高效移動性;足式機器人,專注于腿部運動性能,手臂主要承擔(dān)平衡功能;全能型機器人,集成雙足、雙臂、雙手及多種感知系統(tǒng),搭載 AI 技術(shù),旨在開放式環(huán)境中執(zhí)行多樣化任務(wù),展現(xiàn)了高度的適應(yīng)性和功能性。
不難發(fā)現(xiàn),人形機器人這一構(gòu)型可被具體拆解為核心是操作能力(manipulation)的「上半身」與重點在移動能力(locomotion)的「下半身」。因全能型機器人的探索難度高、落地速度慢,大部分具身智能企業(yè)的創(chuàng)業(yè)路徑其實可以基于輪式和足式做出區(qū)分。將研發(fā)精力傾注在雙臂操作能力上的上半身代表們基本很少選擇雙足,而是會搭配輪式底盤或輪足以滿足基礎(chǔ)的移動功能,如星塵智能 S1(輪式底盤+人形上身)、銀河通用 Galbot G1(左手吸盤、右手夾爪+輪式底盤的折疊升降設(shè)計)、星海圖 R1(輪式雙臂仿人形機器人)等等。
銀河通用 Galbot G1更重視移動能力的下半身玩家們則會優(yōu)先解決雙足的問題,減少甚至省略對上半身手部的投入,以實現(xiàn)機器人的跑步、跳躍等高難度動作。比如,宇樹的全尺寸雙足人形機器人 H1(雙手為兩個球體)、逐際動力的人形機器人CL-1(雙手為兩圓柱)和雙足機器人 P1(無上半身/機械臂)等等。
宇樹 H1「國內(nèi)在機器人腿部和足部的研究曾經(jīng)是一個焦點,部分是因為受到了波士頓動力等公司的影響。他們的機器人雖然在展示度上很高,但實際應(yīng)用中,僅僅能跑能走是不夠的。相比之下,上肢的操作技能更為關(guān)鍵,尤其是在學(xué)習(xí)和執(zhí)行操作任務(wù)的時候?!乖谥锌拼笈c比亞迪聯(lián)合培養(yǎng)的 AI 機器人方向博士后張巖如此說道。5月,ICRA 2024 的現(xiàn)場也瞥見了一場從移動轉(zhuǎn)向操作、通向具身智能的范式轉(zhuǎn)變?!竻r能看到現(xiàn)在大家都在研究操作,這已成為機器人研究者每天做得最多的一件事?!骨迦A具身智能實驗室主任、星海圖聯(lián)創(chuàng)許華哲說,「讓機器人做后空翻等很多很酷的動作,當(dāng)然在技術(shù)上意義重大,但是沒有解決我們的需求,而操作是解決需求的,因為我們每天都在用手干各種各樣的事?!?/p>
ICRA 2024抓取與操作比賽沒錯,大模型涌現(xiàn)的智能讓大家看到了通用機器人誕生與落地的曙光,其中最明顯的表現(xiàn)主要聚焦于對操作能力的重視。以工業(yè)場景為例,目前較大的癥結(jié)點在于,讓智能化水平適配生產(chǎn)力的要求。畢竟,在效率和精確度優(yōu)先的工廠中,在限定時間到達確定位置完成給定的任務(wù)優(yōu)先級更高,對智能水平反而沒有要求?!钙鋵嵵虚g存在需求的差異,能組裝車輛的機器人無法開門,因為目前越智能的東西不確定性越高,特別是深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò),難以保證輸出精度?!拱瑲W智能創(chuàng)始人陳相羽分享道?!傅诵倪€是在于操作的智能化程度不夠,以自然界類比,能使用手干活的都是智能化水平非常高的哺乳動物,但基本上所有動物都會跑,移動是個基本技能?!?/p>
02、靈巧手的「指」數(shù)之爭
當(dāng)上肢逐漸成為具身智能的焦點,再細分一下,決定上半身操作能力的,其實是對末端執(zhí)行器的選擇。盡管同樣認為操作能力比移動能力重要,輪式玩家們?nèi)圆扇×瞬煌姆桨?。有的企業(yè)直接推出五指靈巧手,如戴盟機器人的 Sparky 1 配備基于光學(xué)觸覺傳感器的五指靈巧手;有的企業(yè)則先從二指夾爪、三指手出發(fā),如星塵智能 S1 的雙機械臂搭配二指夾爪,銀河通用 G1 采用右夾爪和左吸盤組合,以及 UniX AI 家庭場景機器人 Wanda 的三指手 。
沒錯,在拐入「上半身」這個路口后,是否應(yīng)該鉆研五指靈巧手,成為了擺在輪式玩家面前的第二個分岔路。類比 L4 級自動駕駛,戴盟機器人決定從一開始就致力于將手部做到極致,再根據(jù)需求降維開發(fā)不同的產(chǎn)品,即當(dāng)產(chǎn)品不需要高級技能時降低成本,減少自由度。
于是,他們推出集成了視觸覺傳感器的五指靈巧手。戴盟首席科學(xué)家王煜教授讀博時師從卡內(nèi)基梅隆大學(xué)(CMU)時任機器人研究所所長 Matthew Thomas Mason 研發(fā)機器人手部,他解釋戴盟重視五指靈巧手的原因:「這其實和波士頓動力的理念是相似的,他們是將腿部做到極致,賦予了機器人強大的能力。我們認為,只有通過這種方式,才能充分發(fā)揮機器人的潛力,并根據(jù)市場需求定義產(chǎn)品,同時控制好價格?!?/p>
有的企業(yè)則決定在使用技術(shù)難度更低、魯棒性更高的夾爪方案之余,同步推進五指靈巧手的研發(fā),比如創(chuàng)始人兼 CEO 為 00 后耶魯博士的 Uni X AI。目前,UniX AI推出的人形機器人 Wanda 采取三指夾爪方案,可以適配夾起雞蛋、豆腐等需要精細力控的場景。在 CEO 楊豐瑜看來,他們之所以會開展五指靈巧手的研發(fā),是因為五指靈巧手具有更高的靈活性與功能性,能夠滿足在更加復(fù)雜場景中的使用需求,是未來末端執(zhí)行器的技術(shù)發(fā)展趨勢。五指靈巧手能夠完美復(fù)制人手功能,從而更像人手一樣對自然界中各式各樣的物體進行穩(wěn)定、精準抓取。多「指」同步研發(fā)的 UniX AI 意在為不同的場景和任務(wù)給予適配的末端執(zhí)行器方案。「我們自研的電動夾爪與和自研的五指靈巧手所定義的場景不同。電動夾爪技術(shù)難度低、魯棒性高,能夠滿足客戶在常規(guī)場景中使用;而五指靈巧手作為高性能、高靈活性末端執(zhí)行器,可供客戶在特殊及復(fù)雜場景中使用,同時對提高機器人的柔性和易用性有著極為重要的作用?!?/p>
有趣的是,并非所有上半身玩家都贊同對五指靈巧手的投入。一位專注雙臂服務(wù)機器人的業(yè)者認為,學(xué)術(shù)過分關(guān)注靈巧手的研究是機器人領(lǐng)域的一個誤區(qū),二指夾爪已能完成大多數(shù)任務(wù)?!高_芬奇手術(shù)機器人是純粹的自動化機械,沒有靈巧手也能做精細操作、給葡萄皮縫針,說明是視覺策略領(lǐng)先,末端執(zhí)行器足夠簡單。人的規(guī)劃能力極強,不是因為手的存在讓人類能完成復(fù)雜任務(wù),復(fù)雜任務(wù)本質(zhì)上跟末端執(zhí)行器沒關(guān)系。」
03、輪式 vs. 足式
講完上半身的末端執(zhí)行器,讓我們回到最初的那個分岔路口,看看通向下半身移動能力的那個方向。簡單來說,人形機器人下半身的移動能力,主要在雙足和非雙足(輪式或輪足式)做出區(qū)分。從 1973 年早稻田大學(xué)開發(fā)的世界上第一款人形機器人 WABOT-1,到 2000 年首次亮相的本田 ASIMO 機器人,再到波士頓動力 2016 年推出的 Atlas 機器人,人形機器人最受矚目的進展便集中在了雙足之上,即逐漸從只能「緩慢步行」的初級階段進化到能「跑酷」的高動態(tài)運動發(fā)展階段,開始具有極強的平衡性和越障能力,能夠完成高難度動作。
波士頓動力 Atlas來到具身智能時代,大模型技術(shù)的爆發(fā)使得非雙足玩家們聲量漸起。不少從業(yè)者認為,在當(dāng)前技術(shù)條件下,雙足機器人在實用性、穩(wěn)定性和商業(yè)價值方面不如輪式底盤,且開發(fā)成本高、周期長。他們更傾向于將資源和精力投入到機器人的上半身智能和操作能力上,以實現(xiàn)更快的技術(shù)突破和商業(yè)應(yīng)用。「在需求落地不明朗的時代下,具身智能機器人的核心競爭力在于操作能力而非行走能力,上半身的智能決策能力比下半身的移動性能更為關(guān)鍵。
結(jié)合人形機器人和 AI 大模型,專注于上半身的開發(fā),是更符合資源和能力的策略?!狗街墼磫ⅲㄔ街蹮o限)的創(chuàng)始人張鑫亮強調(diào),「單純模仿如特斯拉等行業(yè)巨頭的做法不可行,應(yīng)專注于擅長領(lǐng)域的關(guān)鍵技術(shù)開發(fā)。」決定「先不懟人形」的星海圖也分享了類似的觀點,許華哲提出,「雙足的算法研究有其價值,但從商業(yè)落地和效益產(chǎn)生的角度來看,應(yīng)優(yōu)先考慮技術(shù)的實際應(yīng)用。在室內(nèi)環(huán)境中,除了臺階外,雙足行走的優(yōu)勢并不明顯,因此不必過分投入在腿部算法的開發(fā)上?!闺p足玩家們則選擇了另一個路徑,將移動能力視為人形機器人的基礎(chǔ)。
今年 3 月,逐際動力雙足機器人 P1 在深圳郊野的塘朗山公園進行了零樣本、無保護、全開放環(huán)境的實地測試,在野外環(huán)境中實現(xiàn)了徒步功能?!冈?P1 之前,市場上還沒有機器人具有這么強的行走能力。而且它最大的特點是能提供在兩足結(jié)構(gòu)下,六自由度的簡單接口和一個開發(fā)平臺,讓足式機器人的研究人員能進行二次開發(fā)?!怪痣H動力 COO 張力介紹道。緊接著,逐際動力還發(fā)布了全尺寸人形機器人 CL-1,實現(xiàn)了從實時地形感知、步態(tài)規(guī)劃到全身控制的全棧閉環(huán),能夠動態(tài)完成連續(xù)大負載搬運、上樓梯、下斜坡、室內(nèi)外行走和往返跑步等復(fù)雜場景。
盡管雙方側(cè)重點不同,但需要強調(diào)的是,無論是操作能力與移動能力,還是靈巧手與雙足,它們都并非互斥的關(guān)系,只是通往具身智能這同一個終點的兩條路徑。比如說,有的足式玩家也一樣具有攻克靈巧手的野心。宇樹人形機器人的手部從 H1 的圓疙瘩變成了 G1 的三指靈巧手,可以舞棍、開可樂、砸核桃;智元此前發(fā)布的雙足人形 demo 遠征 A1 配備了靈巧手 Skillhand。星動紀元劃分了小星和小星 Max 兩款人形機器人。
前者設(shè)計小巧,注重通用移動能力,適合戶外物流和巡檢任務(wù),具有簡化的手部功能和較低成本;后者則搭載靈巧手,旨在代替成人執(zhí)行更精細的操作,適用于工廠和家庭環(huán)境。緊接著,他們還發(fā)布了集成了 12 個主動自由度和觸覺傳感技術(shù)的靈巧手 Xhand,能拿雞蛋還能擼貓。
而就在上個月底,眾擎機器人發(fā)布雙足機器人 SA01,在產(chǎn)品短片的最后幾秒,顯示出眾擎也有進軍上半身、靈巧手的計劃。眾擎的創(chuàng)始人趙同陽是小鵬鵬行前總裁,創(chuàng)業(yè)后他曾參觀過汽車工廠研究具身智能的落地場景,他發(fā)現(xiàn),人對外唯一能產(chǎn)生價值的部位就是手,因為胳膊和腿代表移動能力,手才能進行精細化操作?!笝C器人能真正進入工廠,不在于腿和機械臂的能力,而在于手的能力。機械臂的能力在很多年前就已突破,腿的能力在這幾年各家都有進展。一條腿或胳膊能放 6 個左右的自由度,但在手那么小的空間,全自由度要放 15-20 多個,半自由度也有 6 個左右。手越精密,成本就越高,越容易壞,難點是在于兼顧靈活度和強度?!?/p>
04、人形機器人
如此看來,在具身智能時代,至少在商業(yè)落地層面,雙足人形機器人并非那個最高效的選擇。畢竟,能完成實際任務(wù),已成為了現(xiàn)在對通用機器人的首要期待。
有商業(yè)服務(wù)機器人的從業(yè)者提出了顧慮,認為人形機器人很難進入 To C 的商業(yè)領(lǐng)域?!刚鐧C器人倫理學(xué)里的恐怖谷效應(yīng),不少人對人形還是有恐懼的,我們做的服務(wù)機器人越夸張越不像人,反而越受商家歡迎?!惯€有從業(yè)者認為,具身智能的終局不會是單一形態(tài)的人形機器人。具體而言,具身智能的構(gòu)型需要通過任務(wù)場景加以區(qū)分,如果某個機器人的形態(tài)能滿足場景所需的物理完備性,就沒有必要再增加其他形態(tài),否則反而會提高成本。例如,在工廠等許多室內(nèi)場景下,完成如觀察和提醒的任務(wù),輪式機器人已足夠應(yīng)對;而在需要適應(yīng)復(fù)雜地形的巡檢任務(wù)中,則可能需要雙腿或四足機器人?!感螒B(tài)不是最重要的,關(guān)鍵在于機器人是否配備了足夠智能的大腦和小腦,以適應(yīng)不同形態(tài)的需求?!?/p>
雅可比機器人的創(chuàng)始人邱迪聰想象道,「未來更可能會有各種形態(tài)的機器人,甚至是像小貓小狗的,人形只是其中之一?!棺非蟆敢荒X多形」的星海圖也主張在智能機器人設(shè)計中摒棄對全人形的盲目追求,應(yīng)以場景為中心的產(chǎn)品開發(fā)策略,加速機器人技術(shù)的商業(yè)化進程,通過在現(xiàn)實世界中收集數(shù)據(jù),來提升機器人智能水平,形成正向的飛輪效應(yīng)。支持多形態(tài)路線的,還有將「大腦」視為具身智能核心并以此為主打產(chǎn)品的玩家們。比如,穹徹智能發(fā)布的具身大腦 Noematrix Brain 能使實體機器人對無限自由度物體做出操作,如無需預(yù)建模即可折疊雜亂衣物,以及執(zhí)行不規(guī)則曲面任務(wù),如刮胡子和削黃瓜皮。在穹徹的計劃中,Noematrix Brain 將與各種類型的機器人本體、甚至工業(yè)設(shè)備都能有機結(jié)合。
同樣專注于開發(fā)「通用具身大腦」的還有有鹿機器人,他們也旨在為各類專業(yè)機器和人形機器人形態(tài)提供通用大腦。最開始有鹿甚至打算僅以軟件形式進行銷售,但考慮到軟件的無形性,很難在前期讓客戶切實感受到智能性,轉(zhuǎn)而采取軟硬件結(jié)合的形式,推出通用具身大腦 Master 2000?!高@不僅限適用于工業(yè)、清潔、物流等領(lǐng)域,如叉車和鏟車等,也適用于人形機器人,即插即用?!褂新箼C器人介紹道,「具身智能并不局限在人形上?!?/p>
不過,盡管與其他構(gòu)型相比,人形機器人的落地速度稍顯落后,卻依舊受到市場青睞。據(jù)高工機器人產(chǎn)業(yè)研究所(GGII)分析,中國在人形機器人領(lǐng)域的年增長率預(yù)計將超過全球平均速度。2024 年中國的人形機器人市場規(guī)模將達到 21.58 億元人民幣,而到了 2030 年,這一數(shù)字有望飆升至近 380 億元人民幣。在 2024 至 2030 年間,該領(lǐng)域的復(fù)合年增長率(CAGR,每年平均增長率)預(yù)計會超過 61%,而銷量將從約 0.40 萬臺激增至 27.12 萬臺。
人形機器人賽道為什么能加速「起飛」呢?雷峰網(wǎng)從多位行業(yè)從業(yè)者與 VC 處獲得的共識是:他們認為,人形是機器人領(lǐng)域形態(tài)發(fā)展的最終目標;如果用自動駕駛的等級類比,即擁有高智能水平的人形機器人是 L4。
從商業(yè)化的角度來看,具身智能與自動駕駛的發(fā)展路徑也或有高度擬合。以 L2、L4 區(qū)分,若人形機器人是最終目標,那么一部分業(yè)者也認為,具身智能時代的人形機器人可以分為 2 種路徑:一種是 L2 級別的沿途下蛋,逐步孵化出衍生的商業(yè)化產(chǎn)品,并且機器人的軀體形態(tài)也逐漸從輪式、足式、雙臂、到全身等等;而另一種則是 L4 級的打法,企業(yè)從一開始就只做人形機器人,直接求解最難的問題。
通過大規(guī)模融資來穿越技術(shù)的發(fā)展周期。自動駕駛的商業(yè)化有三類機會:首先是車本身,即 L4 自動駕駛技術(shù)的機會;其次是應(yīng)用場景,即 L2 級別自動駕駛的機遇;最后是傳感器、毫米波、智能座艙等供應(yīng)鏈技術(shù)。
對具身智能來說,相似地,機器人從局部到全身整體的蛻變過程,也會帶來三類機遇:首先是機器人本體的開發(fā),企業(yè)若有條件在初期就推出人形,自然能搶奪市場先機,讓后來者很難分一杯羹;其次是場景機會,目前機器人的應(yīng)用場景相對較少,但這也為行業(yè)提供了探索和發(fā)展的空間;接著是上下游的機遇,上游包括智算中心的建設(shè)、算力芯片和端側(cè)模型等賦能機器人的關(guān)鍵技術(shù);下游則涉及到各種傳感器、關(guān)節(jié)模組,它們相當(dāng)于機器人的感官系統(tǒng),包括視覺、觸覺和運動感知等等。
很顯然,在具身智能中,「上難度」的人形機器人代表著需要穿越周期的 L4,甚至是 L5。在一個月前,英偉達 CEO 黃仁勛在 Computex 2024 中提出,與其他類型的機器人相比,與人類體型相似的人形機器人擁有大量的數(shù)據(jù)來訓(xùn)練,這也是人形機器人會比其他類型的機器人更受歡迎的原因。
「大家一直在討論人形,以前問人形是不是機器人的終極形態(tài),現(xiàn)在問是不是具身智能的終極形態(tài)。」艾歐智能創(chuàng)始人陳相羽說道,「這個世界由人創(chuàng)造,很多東西是為人設(shè)計的,所以會說人形是最好的形態(tài)?!贡娗鏅C器人 CEO 趙同陽認為,相對于其它機器人,人形作為終端,主要有三大優(yōu)勢。一方面,人形具有到達全場景、全地形的適應(yīng)能力,而且采用統(tǒng)一的標準化方案還有利于降低成本;另一方面,以具身智能為核心,雙臂加雙手操作能力能帶來巨大的生產(chǎn)力價值;最后,人形還符合人的審美,具有通用人工智能加持下善解人意的情緒價值?!妇拖裆系邸⑴畫z造人,都是照著自己的形狀去設(shè)計,做出和自己一樣的東西。」
05、結(jié)語
具身智能時代的機器人,最終會擁有什么樣的形態(tài)——這個問題的背后,歸根結(jié)底是人類創(chuàng)造者對機器人的想象力。而無論是怎樣的想象,可預(yù)見的未來機器人或許都有類似的含義:一個在視覺、學(xué)習(xí)、決策等多維度擁有更高智能水平的機器人。
一個新的物種,正在硬件與智能的交互中誕生。為了在技術(shù)與商業(yè)落地上快人一步,具身智能玩家們在構(gòu)型上對操作能力和移動能力各自做出取舍。整體而言,上肢的操作能力因最能顯現(xiàn)智能水平而被寄予厚望,逐漸成為行業(yè)焦點。人形機器人的必要性依舊備受討論,熱度不減,作為未來的象征懸在終點線的另一側(cè)。然而,在這場具身智能的諸神之戰(zhàn)中,構(gòu)型作為「身體」,只是最外顯的的路徑抉擇差異。接下來,玩家們還需要面臨最核心的關(guān)卡:實現(xiàn)智能,攻克軟件與硬件的耦合。
為了攻克這一關(guān)卡,具身智能領(lǐng)域的不同團隊也有差異化思考,例如:技術(shù)路線上,是選擇端到端或者分層決策的「大小腦」?基于模型,還是基于學(xué)習(xí)更好?模仿學(xué)習(xí)與強化學(xué)習(xí),哪一派更勝一籌?關(guān)關(guān)難能否關(guān)關(guān)過,且看下回分解。
本文作者 anna042023 將持續(xù)關(guān)注具身智能,歡迎添加交流,互通有無。