中文字幕av人妻一区二区,日韩精品一区二区不卡的视频

2024年CES展上，索尼用自家的PS5游戲機(jī)遙控原型車AFEELA登臺(tái)頗為驚艷，預(yù)計(jì)AFEELA在2025年上市，起售價(jià)約為45000美元，首選發(fā)售地?fù)?jù)悉是北美。AFEELA是高通數(shù)字底盤的典型代表。

AFEELA具備800TOPS的算力。

圖片來(lái)源：SHM

AFEELA顯然是采用了兩套Snapdragon Ride級(jí)聯(lián)，推測(cè)SoC是高通的SA8650，加速器是基于Cloud AI 100 Ultra的車載版。

AFEELA的AD/ADAS架構(gòu)

圖片來(lái)源：SHM

上圖是AFEELA的AD/ADAS架構(gòu)，不要質(zhì)疑CNN做感知，即便是2000TOPS的英偉達(dá)也支撐不起全Transformer，車載感知的Backbone網(wǎng)絡(luò)還是基于CNN的，包括特斯拉，特斯拉是Regnet。只有Head才能用得上Transformer，這里的環(huán)境模型基本可等同于BEV加占用網(wǎng)絡(luò)。全Transformer估計(jì)得用8張英偉達(dá)H200顯卡，價(jià)格是整車的好幾倍了。

SA8650之前筆者已介紹過(guò)，高通第一代Snapdragon Ride即SA8540P+SA9000P似乎是過(guò)渡產(chǎn)品，SA8540P和高通的SA8295P幾乎完全一致，與高通筆記本電腦領(lǐng)域的8cx Gen3即SC8280P也幾乎完全一致。

高通自動(dòng)駕駛一直在英偉達(dá)和Mobileye的夾縫中，英偉達(dá)憑借超高性能幾乎壟斷高端市場(chǎng)，而Mobileye以40-70美元的超低價(jià)格壟斷中低端市場(chǎng)。對(duì)大部分廠家，包括保時(shí)捷這樣的高端品牌，對(duì)自動(dòng)駕駛都缺乏興趣和重視度，自動(dòng)駕駛是可有可無(wú)，錦上添花的配置，只有Mobileye不到100美元的芯片能滿足這些廠家的成本需求，Mobileye牢牢占據(jù)全球70%的智能駕駛芯片市場(chǎng)，地位穩(wěn)如泰山，短期的客戶庫(kù)存調(diào)整不會(huì)影響Mobileye的未來(lái)。高通無(wú)意與Mobileye競(jìng)爭(zhēng)，可能是利潤(rùn)太微薄，高通主要競(jìng)爭(zhēng)對(duì)手就是英偉達(dá)，但高通主要市場(chǎng)還是手機(jī)，技術(shù)核心還在手機(jī)上，所以高通的AI加速器是分離的，高通主打的是低功耗和高性價(jià)比。

今天我們主要來(lái)看高通AI加速器的新產(chǎn)品，即AI 100 Ultra，這是高通2023年11月底推出的產(chǎn)品，就是要挑戰(zhàn)英偉達(dá)的H100，高通號(hào)稱單張AI 100 Ultra可以對(duì)應(yīng)1000億參數(shù)的大模型，兩張可以對(duì)應(yīng)1750億參數(shù)的ChatGPT 3，功耗和價(jià)格遠(yuǎn)低于英偉達(dá)的H100，惠普和聯(lián)想已經(jīng)有基于AI 100 Ultra的服務(wù)器銷售。

上表是高通2020年9月推出AI 100的各個(gè)版本的性能表現(xiàn)。高通目前只有這兩款A(yù)I加速器，車載的AI加速器毫無(wú)疑問(wèn)是基于AI 100設(shè)計(jì)的。

從參數(shù)上看，當(dāng)然無(wú)法和英偉達(dá)H100相提并論，并且H100主打的是FP16精度，高通主打的是INT8精度，高通主要的信心來(lái)自其軟件優(yōu)化，即Polyhedral Mapper。

特色主要是核心/線程的并行性，明確的數(shù)據(jù)傳輸，以及SIMD的并行性。

上圖是一個(gè)具體的BERT優(yōu)化。

主要的挑戰(zhàn)一是如何讓核心、線程和矢量單元都處于最大利用狀態(tài)，二是如何利用好本地內(nèi)存，而不是外部昂貴的HBM內(nèi)存，三是減少數(shù)據(jù)搬運(yùn)。

高通AI加速器架構(gòu)

高通AI 100內(nèi)核

高通AI 100內(nèi)核是16個(gè)，AI 100 Ultra是64個(gè)，不過(guò)考慮到功耗，性能沒(méi)有增加4倍。

每個(gè)AI核心內(nèi)部架構(gòu)

大多數(shù)車載AI加速器只有張量Tensor計(jì)算單元，且只有INT8，高通的不僅包括張量還有標(biāo)量Scalar和矢量Vector單元。張量分INT8和FP16兩種，INT8有8192個(gè)MAC，F(xiàn)P16有4096個(gè)MAC。標(biāo)量與矢量單元都是VLIW指令集，跟高通手機(jī)芯片中的DSP完全一致。

每核心有1MB的L2緩存，有8MB的VTCM存儲(chǔ)，所謂VTCM是Vector Tightly-Coupled Memory緊耦合矢量存儲(chǔ)，合計(jì)每個(gè)AI核心有9MB的SRAM，64個(gè)內(nèi)核就是576MB的SRAM，SRAM的成本每MB約5美元，也就是2880美元，AI 100 Ultra至少一半以上的die size是SRAM，一半以上的成本也來(lái)自SRAM，估計(jì)AI 100 Ultra售價(jià)是6000美元左右。

矢量計(jì)算需要頻繁搬運(yùn)數(shù)據(jù)，特別是矢量矩陣運(yùn)算，Transformer里主要延遲都來(lái)自矢量矩陣運(yùn)算。

上圖是三星對(duì)GPT大模型workload分析，在運(yùn)算操作數(shù)量上，GEMV矩陣矢量乘法所占的比例高達(dá)86.53%，在大模型運(yùn)算延遲分析上，82.27%的延遲都來(lái)自GEMV；GEMM矩陣通用乘法所占僅為2.12%，非線性運(yùn)算也就是神經(jīng)元激活部分占的比例也遠(yuǎn)高于GEMM。

上圖是三星對(duì)GPU利用率的分析，可以看出在GEMV算子時(shí)，GPU的利用率很低，一般不超過(guò)20%，換句話說(shuō)80%的時(shí)間GPU都是在等待存儲(chǔ)數(shù)據(jù)的搬運(yùn)。所以芯片內(nèi)部的TCAM非常有必要，其效果要比芯片外部的HBM更好，缺點(diǎn)是容量遠(yuǎn)不能和HBM比，用于訓(xùn)練和汽車級(jí)模型推理比較好。

AI 100 Ultra的存儲(chǔ)系統(tǒng)升級(jí)不少，從原來(lái)的137GB/s升級(jí)至576GB/s，但還是用了老舊的LPDDR4，實(shí)際就是內(nèi)存控制器增加到了4路，每路128bit，合計(jì)512bit。接口方面，PCIe提升到第四代，Lane增加到16。

AI加速器硬件似乎已走到了盡頭，能做文章的只有存儲(chǔ)部分和制造工藝，更先進(jìn)的制造工藝容納更多的計(jì)算單元，更高bit的內(nèi)存控制器增加存儲(chǔ)帶寬或者升級(jí)HBM，像英偉達(dá)的H200，只是存儲(chǔ)部分更換成了HBM3，其余與H100完全一致。

免責(zé)說(shuō)明：本文觀點(diǎn)和數(shù)據(jù)僅供參考，和實(shí)際情況可能存在偏差。本文不構(gòu)成投資建議，文中所有觀點(diǎn)、數(shù)據(jù)僅代表筆者立場(chǎng)，不具有任何指導(dǎo)、投資和決策意見(jiàn)。

器件型號(hào)	數(shù)量	器件廠商	器件描述	ECAD模型	參考價(jià)格	更多信息
ADG736BRMZ-REEL7	1	Rochester Electronics LLC	DUAL 1-CHANNEL, SGL POLE DOUBLE THROW SWITCH, PDSO10, LEAD FREE, MO-187BA, MSOP-10		$2.26	查看
L9788	1	STMicroelectronics	Multifunction IC for Automotive Engine Management System	ECAD模型下載ECAD模型	暫無(wú)數(shù)據(jù)	查看
A4989SLDTR-T	1	Allegro MicroSystems LLC	Stepper Motor Controller, PDSO38, TSSOP-38	ECAD模型下載ECAD模型	$4.29	查看

器件型號(hào)

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊(cè)

ECAD模型

風(fēng)險(xiǎn)等級(jí)

參考價(jià)格

更多信息

ADG736BRMZ-REEL7

Rochester Electronics LLC

DUAL 1-CHANNEL, SGL POLE DOUBLE THROW SWITCH, PDSO10, LEAD FREE, MO-187BA, MSOP-10