加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

特斯拉AI Day的秘密,就藏在這張圖里

2021/08/14
337
閱讀需 20 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

前一陣,馬斯克發(fā)推特宣布了特斯拉AI?Day”將會(huì)在北美時(shí)間8月19日正式舉行。根據(jù)之前他的推特所說,發(fā)布會(huì)將會(huì)介紹特斯拉在人工智能領(lǐng)域的軟件硬件進(jìn)展,尤其在(神經(jīng)網(wǎng)絡(luò))的訓(xùn)練和預(yù)測推理方面;這次活動(dòng)的主要目的是招攬相關(guān)人才。

這種做法非常的特斯拉,就像2019年的“Autonomous?Day”和2020年的“Battery?Day”一樣,估計(jì)“AI Day”整個(gè)發(fā)布會(huì)將會(huì)涉及大量的軟件、硬件的技術(shù)細(xì)節(jié),以此來向外界“秀肌肉”。

而這種技術(shù)“秀肌肉”正是特斯拉招攬頂尖人才的獨(dú)特方式。從某種程度上講,特斯拉在召開類似的發(fā)布會(huì)時(shí),面向的群體更多的是行業(yè)領(lǐng)域的專業(yè)人士;用極具野心的規(guī)劃方向和顛覆行業(yè)的研發(fā)成果,去吸引那些因此感到心潮澎湃的人才。

特斯拉的AI硬件負(fù)責(zé)人Peter?Bannon曾在接受采訪時(shí)說:“你知道有很多人想要來特斯拉工作的根本原因,僅僅是因?yàn)樗麄兿胍獜氖掠冢‵SD)的研發(fā)和相關(guān)工作?!笔聦?shí)上,美國近幾年在統(tǒng)計(jì)工程類專業(yè)學(xué)生最想去的公司排名中,特斯拉和SpaceX經(jīng)常交替排名第一,其實(shí)也佐證了Peter所說的這一現(xiàn)象。?

(圖/Universum)

?

盡管此次一如既往的并未泄露什么“AI?Day”的信息,但僅通過上面那一張預(yù)熱圖,就讓不少從事AI領(lǐng)域的人為止興奮不已。

神秘的Dojo計(jì)算機(jī)芯片

在“AI?Day”發(fā)布會(huì)的邀請(qǐng)函上,放著一張夸張的芯片圖。?

從圖上估測,該芯片才用了非常規(guī)的封裝形式,第一層和第五層銅質(zhì)結(jié)構(gòu)是水冷散熱模塊;紅色圈出的第二層結(jié)構(gòu)由5*5陣列共25個(gè)芯片組成;第三層為25個(gè)陣列核心的BGA封裝基板;第四層和第七層應(yīng)該只是物理承載結(jié)構(gòu)附帶一些導(dǎo)熱屬性;藍(lán)色圈出的第六層應(yīng)該是功率模塊,以及上面豎著的黑色長條,很可能是穿過散熱與芯片進(jìn)行高速通信的互聯(lián)模塊;

從第二層結(jié)構(gòu)的圓形邊角,以及擁有25個(gè)芯片結(jié)構(gòu)來看,非常像Cerebras公司的WSE超大處理器,即才特斯拉可能采用了TSMC(臺(tái)積電)的InFO-SoW(集成扇出系統(tǒng))設(shè)計(jì)。

所謂InFo-SoW設(shè)計(jì),簡單理解來說就是原本一個(gè)晶圓(Wafer)能夠“切割”出很多個(gè)芯片,做成很多個(gè)CPU/GPU等類型的芯片(根據(jù)設(shè)計(jì)不同,光刻時(shí)決定芯片類型),而InFo-SoW則是所有的芯片都來自于同一個(gè)晶圓,不但不進(jìn)行切割,反而是直接講整個(gè)晶圓做成一個(gè)超大芯片,實(shí)現(xiàn)system?on?wafer的設(shè)計(jì)。

這么做的好處有三個(gè):極低的通訊延遲和超大的通訊帶寬、能效的提升。?

簡單來說,由于C2C(芯片與芯片之間)的物理距離極短,加上通訊結(jié)構(gòu)可以直接在晶圓上布置,使得所有內(nèi)核都能使用統(tǒng)一的2D網(wǎng)狀結(jié)構(gòu)互連,實(shí)現(xiàn)了C2C通信的超低延遲和高帶寬;以及由于結(jié)構(gòu)優(yōu)勢(shì)實(shí)現(xiàn)了較低的PDN阻抗,實(shí)現(xiàn)了能效的提升。此外,由于是陣列多個(gè)小芯片組成,可以通過冗余設(shè)計(jì)來避免“良品率”問題,以及實(shí)現(xiàn)小芯片處理的靈活性。

舉個(gè)形象的例子,特斯拉前一陣公布的超級(jí)電腦,一共用了5760個(gè)Nvida?A100 80GB的GPU,那么在這些芯片之間,需要海量的物理結(jié)構(gòu)進(jìn)行連接以實(shí)現(xiàn)通訊,不僅耗費(fèi)大量成本,且由于連接結(jié)構(gòu)的帶寬限制成為“木桶短板”,導(dǎo)致整體效率較低,并且還有分散的龐大散熱問題。?

這里拿Cerabraas的WSE-2作為參考對(duì)比,一個(gè)芯片的核心數(shù)是Nvdia?A100的123倍,芯片緩存為1000倍,緩存帶寬為12733倍,F(xiàn)abric結(jié)構(gòu)帶寬則為45833倍。

這樣級(jí)別的性能怪獸其主要目的,就是為了AI的數(shù)據(jù)處理和訓(xùn)練。其一代芯片WSE,已經(jīng)有多個(gè)重量級(jí)用戶在使用,比如美國阿貢國家實(shí)驗(yàn)室、勞倫斯利弗莫爾國家實(shí)驗(yàn)室、匹茲堡超級(jí)計(jì)算中心、愛丁堡大學(xué)的超級(jí)計(jì)算中心、葛蘭素史克、東京電子器件等。

全球制藥巨頭葛蘭素史克的高級(jí)副總裁Kim Branson稱贊到,WSE的超強(qiáng)性能將訓(xùn)練時(shí)間減少到之前的1/80。而在美國最大的科學(xué)與工程研究室阿貢國家實(shí)驗(yàn)室,WSE芯片被用于癌癥研究,將癌癥模型的實(shí)驗(yàn)周轉(zhuǎn)時(shí)間減少到1/300還少。

所以不難推斷出,“AI?Day”邀請(qǐng)函上面放出的這張圖,應(yīng)該就是馬斯克所謂的Dojo超級(jí)計(jì)算機(jī)自研芯片。并且頗有意思的是,發(fā)布會(huì)的時(shí)間是2021年8月19日,而就在剛好一年前的2020年8月19日,馬斯克發(fā)了一條推特說:“Dojo?V1.0還未完成,估計(jì)還需要一年的時(shí)間。不僅僅是芯片本身的研發(fā)難度,能效和冷卻問題也非常的難。“

之所以說冷卻問題難,是因?yàn)楦鶕?jù)標(biāo)準(zhǔn)晶圓一塊是300mm來看,那么特斯拉這塊Dojo芯片設(shè)計(jì)單個(gè)芯片應(yīng)該與RTX?3090差不多,至少每個(gè)芯片有280億-320億個(gè)左右的晶體管,單個(gè)芯片功耗可達(dá)250-300w左右,整體功耗約在6250w-7500w左右;并且臺(tái)積電也曾說InFo-SoW設(shè)計(jì)的最高功耗約為7000w,同樣印證了這一點(diǎn)。

幾個(gè)月后,他又補(bǔ)充道:“Dojo采用我們自研的芯片和為神經(jīng)網(wǎng)絡(luò)訓(xùn)練優(yōu)化的計(jì)算架構(gòu),而非GPU集群。盡管可能是不準(zhǔn)確的,但是我認(rèn)為Dojo將會(huì)是世界上最棒的超算?!辈⑶?,馬斯克在2021年Q1財(cái)報(bào)時(shí)也曾說:Dojo是一臺(tái)為神經(jīng)網(wǎng)絡(luò)訓(xùn)練優(yōu)化的超級(jí)計(jì)算機(jī)。我們認(rèn)為以視頻數(shù)據(jù)處理速度而言,Dojo將會(huì)是全世界效率最高的?!?

其實(shí)馬斯克早在2019年“Autonomous?Day”就提到過Dojo,稱Dojo是能夠利用海量的視頻(級(jí)別)數(shù)據(jù),做“無人監(jiān)管”的標(biāo)注和訓(xùn)練的超級(jí)計(jì)算機(jī)。

并且如果認(rèn)真了解過2019年“Autonomous?Day”發(fā)布會(huì),就會(huì)發(fā)現(xiàn),特斯拉推出Dojo超算以及自研芯片,是必然且在規(guī)劃中的事,是特斯拉不得不去做的事。?

換句話說,不是特斯拉想要成為人工智能巨頭,而是被逼無奈只能如此。

為什么要做Dojo?

其實(shí)這個(gè)問題馬斯克曾在推特中回復(fù)過,大致意思為:“只有解決了真實(shí)世界的AI問題,才能解決自動(dòng)駕駛問題……除非擁有很強(qiáng)的AI能力以及超強(qiáng)算力,否則根本沒辦法……自動(dòng)駕駛行業(yè)大家都很清楚,無數(shù)的邊緣場景只能通過真實(shí)世界的視覺AI來解決,因?yàn)檎麄€(gè)世界的道路就是按照人類的認(rèn)知來建立的……一旦擁有了解決上述問題的AI芯片,其他的就只能算是錦上添花?!?/p>

其實(shí)馬斯克已經(jīng)講的很清楚了,這里來稍微補(bǔ)充一些知識(shí)便于理解。

自動(dòng)駕駛目前需要解決的難題,其實(shí)最核心和最困難的就是“感知”,換句話說系統(tǒng)對(duì)周圍駕駛環(huán)境的感知能力越強(qiáng),其自動(dòng)駕駛的綜合能力就越強(qiáng);也就是從這里,行業(yè)里分成了兩大流派,一個(gè)是以特斯拉和Mobileye(同時(shí)也有Lidar方案)為首的純視覺方案;另外是其他所有相關(guān)公司,想盡可能加入更多的傳感器融合方案。

這里暫且不去討論究竟哪條路徑是正確的,因?yàn)楹苡锌赡芪磥韺?shí)現(xiàn)殊同同歸的結(jié)果。

但是,無論是哪條路徑,都需要對(duì)海量的數(shù)據(jù)進(jìn)行深度學(xué)習(xí),也就是對(duì)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,才有可能實(shí)現(xiàn)所謂完全自動(dòng)駕駛,而且這是唯一途徑。

原因很簡單,自動(dòng)駕駛的問題,可以理解為處理可能遇到的各種駕駛場景以及做出的操作,那么這個(gè)基本是“無限”的;如果有有限的編程方式,那么永遠(yuǎn)無法解決所有可能遇到的問題,或者說以人類的能力,根本無法覆蓋那么多種變化的情況。

早期的各種自動(dòng)駕駛系統(tǒng),由于沒有別的途徑,只能用這樣的“死板”方式去研發(fā)軟件,所以其能力非常有限,只能應(yīng)付相對(duì)穩(wěn)定和條件限制較多的場景。

而如果想要實(shí)現(xiàn)識(shí)別各類型的場景,那么就需要這個(gè)“軟件”不斷自我適應(yīng)和“進(jìn)化”,這就是利用神經(jīng)網(wǎng)絡(luò)進(jìn)行深度學(xué)習(xí)的原因了。

神經(jīng)網(wǎng)絡(luò)可以簡單理解為通過“仿生學(xué)”模擬人類大腦皮層的神經(jīng)元“溝通學(xué)習(xí)”的方式進(jìn)行處理數(shù)據(jù),用來實(shí)現(xiàn)“類人”的學(xué)習(xí)東西的方式。然而,概念很美好,現(xiàn)實(shí)很殘酷。

1943年Warren McCulloch和Walter Pitts曾寫過論文講述人工神經(jīng)網(wǎng)絡(luò)該如何工作,并且利用電路造了一個(gè)簡單的模型。后來經(jīng)過諸多人的努力和研究發(fā)展,直到1998年,斯坦福大學(xué)的Bernard?Widrow和Marcian?Hoff才打造出了第一套用于解決實(shí)際問題的人工神經(jīng)網(wǎng)絡(luò)。

1956年,達(dá)特茅斯夏季會(huì)議上各路大牛提出了AI定義,大大推動(dòng)了AI和人工神經(jīng)網(wǎng)絡(luò)的發(fā)展,也被廣泛人為是AI元年。當(dāng)時(shí)人們信心滿滿,認(rèn)為不用20年就能打造出跟人腦差不多一樣的AI系統(tǒng)。結(jié)果在不斷研究中發(fā)現(xiàn),深度神經(jīng)網(wǎng)絡(luò)的算法太過復(fù)雜,從而無從下手。于是放棄了當(dāng)初“大而全”的目標(biāo)形式,轉(zhuǎn)為以執(zhí)行單一目標(biāo)為方向。

這其中除了因?yàn)閷?duì)人類大腦的認(rèn)識(shí)非常膚淺(到現(xiàn)在也沒有進(jìn)步多少),以及人工神經(jīng)網(wǎng)絡(luò)架構(gòu)的局限和軟件算法的局限之外,更多的就是算力問題,也就是受到半導(dǎo)體行業(yè)發(fā)展的限制。?

李開復(fù)博士在做他的語音識(shí)別功能博士論文時(shí),哪怕在當(dāng)時(shí)他所采用語音數(shù)據(jù)庫算非常大的,其實(shí)也不過僅有100MB,卻花費(fèi)了他導(dǎo)師近10萬美刀,在1988年相當(dāng)于兩套房子的價(jià)格。而如今動(dòng)輒幾個(gè)PB的數(shù)據(jù)量,算力成為了限制很多AI發(fā)展的瓶頸。

這里補(bǔ)充一個(gè)知識(shí):不同的處理器芯片所具備的能力各不相同。例如CPU更多的通用計(jì)算,可以理解為總指揮,負(fù)責(zé)邏輯上更線性的計(jì)算和判斷;而GPU則是專職于圖像處理的芯片,能夠同時(shí)吞吐較大的數(shù)據(jù)量和進(jìn)行矩陣計(jì)算,加之已經(jīng)是成熟的量產(chǎn)產(chǎn)品,所以被大量應(yīng)用于AI學(xué)習(xí)。

而NPU(Neural Processing Unit,神經(jīng)網(wǎng)絡(luò)處理器)則是從設(shè)計(jì)層面就專職為神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)優(yōu)化的,像谷歌的TPU和特斯拉的FSD芯片都屬于NPU序列,這類芯片扔掉了類似GPU中不需要的功能,僅為神經(jīng)網(wǎng)絡(luò)所需要的數(shù)據(jù)處理形式服務(wù),其速度和能效要高很多。

但是,這里還需要區(qū)分ASIC(Application Specific Integrated Circuit,專用集成電路)芯片和FPGA(Field Programmable Gate Array,可編程邏輯門陣列)芯片,其中ASIC芯片就是生產(chǎn)后,其運(yùn)行邏輯和功能就固定了,不能修改,為某項(xiàng)任務(wù)(軟件)而生,能效極高;而FPGA則是可以通過軟件改變其運(yùn)行邏輯,為半定制的芯片,可以通過軟件對(duì)其進(jìn)行修改,適合進(jìn)行訓(xùn)練和優(yōu)化所用,能效相比ASIC芯片低一些。像TPU和FSD都屬于ASIC芯片,而特斯拉此次發(fā)布的Dojo芯片就屬于FPGA序列。?

回過頭來,市場上既沒有符合需求的車載芯片可用,也沒有符合需求的超算來更好的利用這些數(shù)據(jù),特斯拉想要實(shí)現(xiàn)這一切,在當(dāng)時(shí)只有自己去做軟件和硬件,當(dāng)年特斯拉在2016年立項(xiàng)做FSD芯片時(shí),谷歌的專屬AI芯片TPU才剛剛問世,而車載的AI芯片幾乎沒有能用的。

所以,當(dāng)年很可能FSD和Dojo的立項(xiàng)時(shí)間不會(huì)差太遠(yuǎn),只是由于考慮到能耗和需求問題,Dojo等到7nm的技術(shù)相對(duì)成熟后,才開始逐步推進(jìn)。

從另一個(gè)緯度上去理解Dojo的必然性,是從神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的計(jì)算量級(jí)上去理解。在2019年“Autonomous?Day”發(fā)布會(huì)上,特斯拉其實(shí)已經(jīng)明示了會(huì)去掉雷達(dá),走向純視覺,且是視頻級(jí)別的數(shù)據(jù)進(jìn)行直接處理。

舉個(gè)簡單的例子,一張1080p的圖像,以最簡單的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),如果不利用激活函數(shù)(tanh、ReLU)進(jìn)行數(shù)據(jù)“優(yōu)化”,其運(yùn)算量大概需要4萬多億次;即便采用激活函數(shù)優(yōu)化的卷積神經(jīng)網(wǎng)絡(luò)處理,其運(yùn)算量也將達(dá)到1.3億多次;而如果以視頻形式處理,一秒按24幀計(jì)算,也有24張圖像,綜合算下來其運(yùn)算量是驚人的。

值得注意的是,自動(dòng)駕駛收集的數(shù)據(jù)中95%左右都是無效數(shù)據(jù),也就是對(duì)神經(jīng)網(wǎng)絡(luò)訓(xùn)練壓根沒用,簡單理解來說就是你每天做幾乎相同的卷子,是得不到任何提升的。所以即便特斯拉的車輛僅在特定觸發(fā)條件下才會(huì)收集部分?jǐn)?shù)據(jù),但得到的數(shù)據(jù)量依然非常龐大,需要Dojo這樣為特斯拉自身軟件優(yōu)化過的定制超算,才能大大提高效率。

此外,前文提到過“無監(jiān)督訓(xùn)練”也是Dojo的另一個(gè)核心目的,用于大幅度提高訓(xùn)練效率。?

在神經(jīng)網(wǎng)絡(luò)訓(xùn)練中,其實(shí)海量的研究人員都是“調(diào)參俠”,簡單理解也就是通過不斷調(diào)“權(quán)重”來讓神經(jīng)網(wǎng)絡(luò)判斷越來越準(zhǔn)確,或者是通過人工標(biāo)注各種“正確答案”,讓其學(xué)習(xí)。這就會(huì)導(dǎo)致“人”成為了效率的短板,從而致使整個(gè)過程的訓(xùn)練速度大幅降低。而如果實(shí)現(xiàn)“無監(jiān)督訓(xùn)練”,也就是系統(tǒng)自己通過海量數(shù)據(jù)和以前“學(xué)習(xí)”的結(jié)果進(jìn)行自動(dòng)標(biāo)注和調(diào)整,那么其效率將會(huì)是量子級(jí)別的提升。

舉個(gè)簡單的例子,谷歌的Alpha?Go擊敗世界圍棋大師相信很多人都知道,也是一個(gè)人工智能在特定領(lǐng)域擊敗人類的標(biāo)志事件。作為對(duì)比,Alpha?Go經(jīng)過人工參與調(diào)整和標(biāo)注的訓(xùn)練結(jié)果,經(jīng)歷了幾年時(shí)間擊敗了全球高手。而作為無監(jiān)督訓(xùn)練的范例Alpha?Zero,僅用三天時(shí)間自己與自己對(duì)弈,就擊敗了Alpha?Go?Lee,在21天打到了Alpha?Master的水平,并在40天超越了所有的舊版本。?

總結(jié)起來,如果特斯拉完成了Dojo的打造,那么就能夠以驚人的效率用海量的數(shù)據(jù)進(jìn)行訓(xùn)練,解決各種“邊緣場景”的問題,加快自動(dòng)駕駛系統(tǒng)的成熟和完善;更關(guān)鍵的是,特斯拉對(duì)其軟硬件的垂直整合度非常高,不僅不受制于別人,而且能夠以此作為服務(wù),給外界提供深度學(xué)習(xí)的訓(xùn)練業(yè)務(wù)。

馬斯克曾表示,一旦相對(duì)完善了Dojo,將會(huì)開放Dojo作為服務(wù)給外界提供訓(xùn)練業(yè)務(wù),并且Dojo能夠承接幾乎所有的機(jī)器學(xué)習(xí)任務(wù)。?

這也是為什么馬斯克敢說,未來特斯拉將會(huì)是最大的幾家人工智能公司之一。

會(huì)有One?More?Thing嗎?

此次特斯拉的“AI?Day”,不出意料的話會(huì)把Dojo芯片作為最重點(diǎn)的內(nèi)容進(jìn)行軟硬件的介紹;當(dāng)然也會(huì)覆蓋FSD?Beta相關(guān)的進(jìn)展介紹,但就目前的信息來看,還極有可能會(huì)推出新的基于7nm技術(shù)的HW4.0硬件。

畢竟在2019年“Autonomous?Day”時(shí),馬斯克就說過HW4.0的研發(fā)已經(jīng)進(jìn)行了一半,所以此次發(fā)布會(huì),也很有可能借此機(jī)會(huì)發(fā)布新的車載芯片硬件。

總之,此次特斯拉“AI?Day”發(fā)布會(huì),很有可能再次在汽車行業(yè)甚至是AI領(lǐng)域掀起一波浪潮,至于到底會(huì)不會(huì)有更多的驚喜,那就到等那天才能揭曉了。

來源:蓋世汽車

特斯拉

特斯拉

Tesla 致力于通過電動(dòng)汽車、太陽能產(chǎn)品以及適用于家庭和企業(yè)的綜合型可再生能源解決方案,加速世界向可持續(xù)能源的轉(zhuǎn)變。

Tesla 致力于通過電動(dòng)汽車、太陽能產(chǎn)品以及適用于家庭和企業(yè)的綜合型可再生能源解決方案,加速世界向可持續(xù)能源的轉(zhuǎn)變。收起

查看更多

相關(guān)推薦

電子產(chǎn)業(yè)圖譜