上世紀(jì)70年代,日本早稻田大學(xué)研發(fā)全球首個全尺寸人形“智能”機器人—— WABOT-1。此后全球陸續(xù)推出不同品類、應(yīng)用在不同場景的人形機器人,除特斯拉外,波士頓動力、豐田、本田、小米、優(yōu)必選等均有相關(guān)產(chǎn)品推出。但人形機器人產(chǎn)業(yè)化難度大,主要原因在于關(guān)鍵技術(shù)掣肘、成本仍高昂、應(yīng)用場景有限等,本田、軟銀等公司已宣布停產(chǎn)有關(guān)人形機器人產(chǎn)品。
2021年AI Day上,馬斯克發(fā)布了特斯拉的人形機器人計劃,當(dāng)時的Tesla Bot僅是概念。歷時1年,在2022年9月的AI Day上,人形機器人Optimus正式亮相。隨后2023年5月的股東大會,Optimus已能夠?qū)崿F(xiàn)物品分類等更復(fù)雜的任務(wù)。2023年12月,Optimus Gen-2視頻發(fā)布,Gen-2實現(xiàn)了更為靈活的行走,能輕松拿捏雞蛋并實現(xiàn)左右手的轉(zhuǎn)移等更為精細(xì)化的動作。在不到三年時間內(nèi)Optimus實現(xiàn)快速迭代發(fā)展,人形機器人產(chǎn)業(yè)化或?qū)⒊尸F(xiàn)由點到面、在某一階段快速滲透的趨勢。
表|特斯拉Optimus近2年迭代升級情況
來源:特斯拉發(fā)布會、與非網(wǎng)整理
接下來,筆者將帶領(lǐng)大家一起回顧和總結(jié)學(xué)習(xí)3年來,特斯拉人形機器人的發(fā)展歷程、主要成果及技術(shù)進(jìn)步等做以梳理和拆解。以便大家了解特斯拉人形機器人快速迭代升級的原因,未來如果售價不超過2萬美元,產(chǎn)業(yè)化核心痛點擊破后是否能將帶動行業(yè)快速發(fā)展。
一、概念提出
1.1、Tesla Bot誕生
2021年8月20日的AI Day,特斯拉公布了純視覺方案FSD的進(jìn)展、神經(jīng)網(wǎng)絡(luò)自動駕駛訓(xùn)練、D1芯片、Dojo超級計算機等重磅信息。最后,特斯拉首次展示了其人形機器人的概念, 名叫Tesla Bot。筆者以為,F(xiàn)SD、神經(jīng)網(wǎng)絡(luò)訓(xùn)練、超級計算機等看似為汽車行業(yè)做配套,實則是為人形機器人的采集訓(xùn)練所需要的各種模型參數(shù)和提供強大的算力基礎(chǔ)設(shè)施,為人形機器人做好了大量鋪墊。
圖|Tesla Bot
來源:特斯拉AI Day
Tesla Bot身高約1.72米,體重約56.7kg,集齊前述的FSD、車載計算機、Autopilot攝像頭和40個微型電機等所有技術(shù)與一身,可謂人工智能技術(shù)的最終極形態(tài)呈現(xiàn)。技術(shù)細(xì)節(jié)上,頭部被安裝用于導(dǎo)航的攝影機,透過人工神經(jīng)網(wǎng)路(Artificial Neural Network)驅(qū)動,面部有一塊螢?zāi)唬糜谡故九c提供訊息,手部可以執(zhí)行宛如人類手部程度的動作。
1.2、底層FSD技術(shù)
特斯拉的純視覺傳感器方案的實現(xiàn),離不開多任務(wù)學(xué)習(xí)HydraNets神經(jīng)網(wǎng)絡(luò)架構(gòu)。每輛特斯拉汽車擁有8個環(huán)繞車身、覆蓋周圍360°的攝像頭,來獲取交通信號燈、信號牌、匝道、路緣等周邊信息,為神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)提供了絕佳條件。
特斯拉開發(fā)了“矢量空間”(Vector Space)技術(shù),同時兼具了非凸優(yōu)化算法(Non-convex)、高維度兩大優(yōu)勢。該技術(shù)可以通過8個攝像頭輸入的數(shù)據(jù)為基礎(chǔ)繪制3D鳥瞰視圖,形成4D的空間和時間標(biāo)簽的“路網(wǎng)”以呈現(xiàn)道路等信息,幫助車輛把握駕駛環(huán)境,更精準(zhǔn)的尋找最優(yōu)駕駛路徑。
來源:特斯拉AI Day
有了海量、精準(zhǔn)的視頻數(shù)據(jù),特斯拉還需要創(chuàng)造一個強大的神經(jīng)網(wǎng)絡(luò),并對網(wǎng)絡(luò)進(jìn)行特殊的布局,使這些數(shù)據(jù)能在一個總的主干網(wǎng)絡(luò)上進(jìn)行整合和重新分析。因此,特斯拉“高樓平地起”,自主研發(fā)了基于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方式。
同時,特斯拉還開發(fā)了“仿真場景技術(shù)”,可以模擬現(xiàn)實中不太常見的“邊緣場景”用于自動駕駛培訓(xùn)。在仿真場景中,特斯拉工程師可以提供不同的環(huán)境以及其他參數(shù)(障礙物、碰撞、舒適度等),極大提升了訓(xùn)練效率。
來源:特斯拉AI Day
由此,特斯拉FSD系統(tǒng)已可以實現(xiàn)每1.5毫秒2500次搜索的超高效率,預(yù)測可能出現(xiàn)的各種情況,并在其中找到最安全、最舒適、最快速的自動駕駛路徑。
1.3、Dojo超級計算機
隨著所需處理的數(shù)據(jù)開始指數(shù)級增長,特斯拉也在提高訓(xùn)練神經(jīng)網(wǎng)絡(luò)的算力,因此,便有了特斯拉Dojo超級計算機。組成Dojo超級計算機的關(guān)鍵單元,是特斯拉自主研發(fā)的神經(jīng)網(wǎng)絡(luò)訓(xùn)練芯片——D1芯片。D1芯片采用分布式結(jié)構(gòu)和7納米工藝,搭載500億個晶體管、354個訓(xùn)練節(jié)點,僅內(nèi)部的電路就長達(dá)17.7公里,實現(xiàn)了超強算力和超高帶寬。
Dojo超級計算機的單個訓(xùn)練模塊由25個D1芯片組成。由于每個D1芯片之間都是無縫連接在一起,相鄰芯片之間的延遲極低,訓(xùn)練模塊最大程度上實現(xiàn)了帶寬的保留,配合特斯拉自創(chuàng)的高帶寬、低延遲的連接器;在不到1立方英尺的體積下,算力高達(dá)9PFLOPs(9千萬億次),I/O帶寬高達(dá)36TB/s。
圖|特斯拉FSD芯片+D1芯片
來源:特斯拉AI Day
至此,特斯拉已經(jīng)為Tesla Bot量身打造了最底層的FSD技術(shù)和Dojo超級計算機平臺,只等Optimus的誕生了。馬斯克還補充:“未來勞動力不會短缺,但體力勞動只是一種選擇。Tesla Bot可以執(zhí)行一些危險性、重復(fù)性、枯燥的任務(wù)?!?/p>
二、Optimus Gen-1發(fā)布
2.1、原型機發(fā)布
時隔1年,即2022年9月30日,首款人形機器人原型機"擎天柱"(Optimus Gen-1)在AI Day上正式亮相。 現(xiàn)場演示為原型機行走打招呼,視頻演示為辦公室澆植、工廠拿取結(jié)構(gòu)件、識別周圍物體渲染圖等。
圖| Optimus原型機
圖|Optimus執(zhí)行動作
來源:特斯拉AI Day
Optimus Gen-1搭載2.3kWh容量電池,并采用集成式的設(shè)計,可提供52V電壓。全身有28個關(guān)節(jié),整個身體的自由度超過 200個,手掌設(shè)計部分通過六個致動器完成11個角度的自由動作,并能夠舉起超過20磅的物體。針對每個關(guān)節(jié)所需的力量/扭矩進(jìn)行了仿真建模,并據(jù)此研發(fā)了6種專用電機,采用與特斯拉汽車電機同源的滾珠電機技術(shù),可以實現(xiàn)各個關(guān)節(jié)的旋轉(zhuǎn)和直線運動控制。
圖| 執(zhí)行器技術(shù)
圖| 靈巧手
來源:特斯拉AI Day
Optimus Gen-1搭載了與特斯拉車輛相同的FSD技術(shù)以及Autopilot相關(guān)神經(jīng)網(wǎng)絡(luò)技術(shù),其大腦使用的是自研的AI訓(xùn)練 Dojo D1芯片和超級計算機 Dojo,在經(jīng)過完全自動駕駛能力系統(tǒng)的實際應(yīng)用驗證后,特斯拉強大的FSD計算機視覺技術(shù)已可直接應(yīng)用于機器人。
圖| Networks 識別技術(shù)
來源:特斯拉AI Day
通過搭載視覺相機,結(jié)合全身28關(guān)節(jié)執(zhí)行器,以及底層FSD視覺算法和Dojo超級計算機提供算力支撐,Optimus Gen-1終于誕生。
2.2、第一次迭代
2023年3月:歷時5個月開發(fā),視頻中顯示人形機器人可以實現(xiàn)獨立的直立行走,且 能在另一臺機器人上實現(xiàn)裝配任務(wù),手指關(guān)節(jié)可滿足抓取電動工具、螺絲、覆蓋在相框上的布等任務(wù)要求。
圖| Optimus工業(yè)組裝
圖| Optimus物品分揀
圖| Optimus力反饋
來源:特斯拉股東大會
Optimus 電機扭矩控制、力度控制更加精確靈敏;環(huán)境感知和記憶能力提升,不僅可以看路,亦會記路;還可根據(jù)人類動作范例,進(jìn)行端到端動作操控。
2023年5月,F(xiàn)SD Beta已累計行駛接近2 億英里。FSD能夠應(yīng)用在人形機器人,本質(zhì)在于自動駕駛的模擬過程與機器人相同,即“輸入-計算機平臺-輸出”。通過視覺系統(tǒng)識別周圍環(huán)境,將數(shù)據(jù)傳輸至計算平臺,平臺將反饋傳輸給執(zhí)行器等環(huán)節(jié),產(chǎn)生動作。基于FSD的技術(shù)和數(shù)據(jù)積淀,構(gòu)建核心競爭力,特斯拉 Optimus將擁有和其他機器人產(chǎn)品不同的智能化升級優(yōu)勢。
2.3、第二次迭代
圖|Optimus物品分揀
圖|Optimus平衡動作
Optimus 擁有了自我校準(zhǔn)手臂和腿部的能力,僅使用視覺和關(guān)節(jié)位置編碼器,它就可以在空間中精準(zhǔn)定位自己的肢體。
視覺感知能力提升明顯,算法與模型不斷進(jìn)步。Optimus可通過視覺與關(guān)節(jié)位置編碼器,在空間中精確定位四肢,能夠自我校準(zhǔn)手臂和腿,同時可自主按照顏色對物品進(jìn)行篩選分類與排序,神經(jīng)網(wǎng)絡(luò)實現(xiàn)端到端訓(xùn)練學(xué)習(xí)。可以看出特斯拉已經(jīng)打通了FSD和機器人的底層模型,依賴神經(jīng)網(wǎng)絡(luò)模型和視覺技術(shù),不斷優(yōu)化FSD算法,在感知環(huán)境與自主分析做出運動方面表現(xiàn)較好,同時特斯拉Dojo平臺有望進(jìn)一步增強機器人AI能力,特斯拉人形機器人量產(chǎn)有望加速。
手部抓取與全身平衡表現(xiàn)亮眼,運動控制能力逐步提升。機器人Optimus可通過手指靈活抓取物品并放置指定位置,同時可做出類人的全身伸展運動,包括瑜伽單腿站立并保持平衡。
三、Optimus-Gen2發(fā)布
2023 年 12 月 13 日,特斯拉發(fā)布第二代人形機器人 Optimus-Gen2 演示視頻,對比一代機主要變化為:
1、整體性能提升:1)特斯拉采用自主設(shè)計的執(zhí)行器和傳感器,執(zhí)行器中集成了電子部件,走路速度提升了30%。2)在機器人整體性能不下降的情況下,重量相比上一代人形機器人減重10kg。3)全身協(xié)調(diào)性明顯提升,主要體現(xiàn)在做深蹲等動作時的平衡能力提高。
2、結(jié)構(gòu)設(shè)計:1)頸部:新增2個自由度,執(zhí)行器及傳感器數(shù)量增加;2)足部:仿真人足幾何學(xué)設(shè)計,腳趾部分采用了鉸接式的連接方式,使用力/扭矩傳感器;3)手部:共11個自由度,手指搭配壓力式觸覺傳感器,可精準(zhǔn)抓握細(xì)小易碎品例如雞蛋等;手指活動速度更快,并且能夠用拇指和食指兩根手指從左手傳遞到右手,并且精準(zhǔn)地拿起和放下雞蛋。
新增變化方面:1)新增了2自由度的能夠主動控制的脖子關(guān)節(jié),使得頭部能夠活動。2)腳部做了類似人體結(jié)構(gòu)的足弓設(shè)計,新增了腳趾關(guān)節(jié),新增了腳部力/力矩感知功能。3)所有手指均具備了觸覺感知能力。
圖|Optimus-Gen2 獨立行走? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 圖|Optimus-Gen2下蹲動作
來源:特斯拉發(fā)布視頻
全新靈巧手設(shè)計,具備觸覺感知能力。本次最新的進(jìn)展視頻中展示了特斯拉全新設(shè)計的靈巧手,具備更快的響應(yīng)速度和11個自由度,手指上具備觸覺傳感器視頻中演示了其雙指將生雞蛋輕拿輕放的能力。
圖|Optimus-Gen2 輕松拿捏雞蛋
來源:特斯拉發(fā)布視頻
相比于第一代Optimus人形機器人,第二代Optimus在手指上新增了觸覺傳感器,觸覺傳感器可以賦予機器人更精細(xì)的力反饋能力,有望提升人形機器人的工作能力,使其能夠完成更多任務(wù),如精細(xì)的裝配、柔性物體操作等。在更多傳感器的加持下,機器人的應(yīng)用場景有望進(jìn)一步打開。
總結(jié)
Optimus人形機器人在硬件上實現(xiàn)升級換代,核心關(guān)節(jié)及零部件設(shè)計、整機協(xié)調(diào)控制等或均有大幅優(yōu)化,機器人的靈活性控制能力顯著提升。預(yù)計2024實現(xiàn)部分量產(chǎn),2025年大規(guī)模進(jìn)入工廠等場景使用。
特斯拉人形機器人將兼具工業(yè)和家庭用途,能夠執(zhí)行工業(yè)生產(chǎn)中的復(fù)雜任務(wù)和家庭服務(wù),最終實現(xiàn)勞動力替代。據(jù)高工機器人產(chǎn)業(yè)研究所,2026年全球人形機器人在服務(wù)機器人中的滲透率有望達(dá)到3.5%,市場規(guī)模超20億美元,到 2030年,全球市場規(guī)模有望突破200億美元。隨人形機器人產(chǎn)品智能化程度不斷提升,遠(yuǎn)期市場空間更為廣闊。馬斯克認(rèn)為,人形機器人可能比電動車業(yè)務(wù)做的更大,未來數(shù)量超過100億-200億臺。