?
- Nvidia X1功耗普遍被認(rèn)為是10W,但實(shí)際可能只有5W左右;
- 跟最新的GPU比,它的性能仍屬上乘;
- 移動(dòng)游戲需要進(jìn)行大量FP16運(yùn)算,這點(diǎn)對(duì)Nvidia和英特爾架構(gòu)是不利的;
- 新的Nvidia架構(gòu)和英特爾的驅(qū)動(dòng)器將能驅(qū)動(dòng)2倍的FP16運(yùn)算,同時(shí)有更好的能效表現(xiàn);
- 如果Nvidia能賣得更便宜,英特爾和Nvidia還有籌碼可以賭一賭。
大家可能認(rèn)為Nvidia已經(jīng)退出移動(dòng)領(lǐng)域的競(jìng)賽,尤其當(dāng)它憑Shield Android TV在主流電視機(jī)頂盒市場(chǎng)上一枝獨(dú)秀。與此同時(shí),英特爾一直在智能手機(jī)領(lǐng)域苦苦掙扎,僅在華碩Zenfone 2手機(jī)上成績(jī)不錯(cuò)。Nvidia最新Tegra X1產(chǎn)品以顯著的功耗為代價(jià)實(shí)現(xiàn)了極佳的圖形處理性能,但英特爾在類似GFXbench這些產(chǎn)品中卻表現(xiàn)欠佳。相反,如果采用典型X86架構(gòu),這些SoC的表現(xiàn)通常很好。
基于這個(gè)問題的特殊性,來分析下英特爾和Nvidia架構(gòu)的內(nèi)部特性,我們有一些有意思的發(fā)現(xiàn):
Nvidia Tegra X1的功耗
首先,Tegra X1明顯被低估了。通常在Shield Android TV中Tegra X1被當(dāng)作功耗10W的SoC來采用,但實(shí)際上這顆SoC功耗應(yīng)該更低。
Nvidia出示了一份測(cè)試報(bào)告,采用一個(gè)小的散熱片來處理近5W的熱源,復(fù)制了平板電腦的熱表現(xiàn)。Nvidia表示,相同條件下,與蘋果的A8X相比,X1可以實(shí)現(xiàn)每瓦80%的性能提升。這樣考慮到A8X僅有4~5W TDP,同時(shí)考慮到各種基準(zhǔn)值,Tegra X1有10W TDP是不太可能的。此外,Nvidia聲稱X1 GPU以最高速度進(jìn)行1024 GFLOPS(FP16)運(yùn)算時(shí)功耗僅為4W(GPU處理游戲時(shí),CPU負(fù)載和功耗很低,所以5W功耗是可信的)。
要知道Tegra K1是基于Kepler,而X1則基于Maxwell。X1采用20nm工藝,Cuda核增加了33%同時(shí)GPU頻率也提升了17%??紤]到與Kepler架構(gòu)相比,Maxwell架構(gòu)每瓦性能有了大幅提升,以及更先進(jìn)的工藝節(jié)點(diǎn)可極大降低功耗,很明顯,X1和K1應(yīng)該有相近的功耗表現(xiàn)(K1是一顆5W TDP SoC)。
Anandtech表示,當(dāng)Nvidia Shield Android TV要運(yùn)轉(zhuǎn)一些大型游戲時(shí)功耗為19.4W,這也是大家會(huì)認(rèn)為這款SoC的功耗約為10W的原因。但在這種情況下還要考慮到如下一些因素:
如果是80Plus規(guī)格的電源,大概要損失20%的效率,意味著實(shí)際器件功耗約為15W;
如果AC轉(zhuǎn)換器輸出電壓不夠低,轉(zhuǎn)換過程中主板會(huì)產(chǎn)生額外的功率損耗;
相對(duì)于智能手機(jī)的邏輯主板,帶有眾多連接器的大型主板會(huì)拉高功耗;
以太網(wǎng)端口的存在;
BT模式激活;
WiFi AC模式激活以及負(fù)載過輕;
HDMI 4K線纜連接和激活;
測(cè)試中2~4.5W SDD的連接和使用;
NAND存儲(chǔ)器在工作;
散熱風(fēng)扇。
還要考慮到Shield內(nèi)的WiFi和BT模塊會(huì)比一般的移動(dòng)模塊消耗更多的電量,因?yàn)椴皇茈娫磯勖南拗?。基于這些因素,大家應(yīng)該會(huì)同意X1的功耗遠(yuǎn)低于10W。
如果SoC開始工作時(shí)的溫度比較低,它的功耗可能會(huì)超過TDP的額定值,通常為TDP的1.5倍(大約為7~8W),如果散熱系統(tǒng)足夠好,SoC在全速運(yùn)轉(zhuǎn)下可能要花相當(dāng)長(zhǎng)的時(shí)間才能回復(fù)到正常的TDP。因?yàn)樯崞贿B接到一個(gè)厚的導(dǎo)熱管和一個(gè)活躍的散熱風(fēng)扇,X1很可能發(fā)生上面的情況:用一根活躍的散熱管來冷卻一個(gè)5W的CPU,這樣一個(gè)系統(tǒng)將保持全速、極低溫度以及低功耗。
說得更清楚些,即如果SoC在80℃下全速運(yùn)轉(zhuǎn)時(shí)功耗為5W,那么在60℃下全速運(yùn)轉(zhuǎn)時(shí)功耗只會(huì)更低。
這意味著什么?X1很有可能比我們此前想象的更高效,那么接下來的討論就有意思了。
?
?
FP16/32對(duì)移動(dòng)和PC/控制臺(tái)的支持
對(duì)實(shí)際游戲而言浮點(diǎn)運(yùn)算是很有意思的一個(gè)技術(shù)。通常,計(jì)算機(jī)和游戲控制器主要基于FP32運(yùn)算,這一運(yùn)算屬于耗電大戶,同時(shí)相比FP16效率更低但也更加精準(zhǔn)。移動(dòng)端的游戲標(biāo)準(zhǔn)則不同,通常采用大量的FP16運(yùn)算,因?yàn)镕P16運(yùn)算功率利用率更高,非常適用于功率受限的應(yīng)用。它一個(gè)明顯的問題是精密度不夠高,但對(duì)于一般游戲和小屏而言這點(diǎn)不構(gòu)成問題。
如3DMark這樣的計(jì)算機(jī)游戲基準(zhǔn)測(cè)試套件,更多關(guān)注在FP32運(yùn)算上,而像GFXBench這樣主要針對(duì)移動(dòng)游戲領(lǐng)域的基準(zhǔn)則比較關(guān)注FP16運(yùn)算。
此外,Android UX也采用一些FP16運(yùn)算,因此FP16在移動(dòng)設(shè)備中利用率較高。那么問題來了。
GPU FP16支持場(chǎng)景
Nvidia X1 GPU采用Maxwell架構(gòu),源于筆記本,意味著在其Cuda核中并沒有FP16單元。針對(duì)這一問題,Nvidia采用了雙速FP16解決方案,讓FP16運(yùn)算僅在有限的應(yīng)用場(chǎng)景下發(fā)揮作用。
通常一款無FP16支持的GPU會(huì)在一個(gè)FP32單元中集成一個(gè)FP16運(yùn)算單元,F(xiàn)P32單元完成運(yùn)算,然后轉(zhuǎn)換返給FP16單元,這樣會(huì)消耗很大電量并占用帶寬。X1的替代方案是采用兩格FP16運(yùn)算單元,但僅在特定條件下工作并且要求兩個(gè)運(yùn)算單元要完全一致。這讓X1可執(zhí)行遠(yuǎn)高于512 GFLOPS FP16的運(yùn)算,但在實(shí)際應(yīng)用中無法達(dá)到1024 GFLOPS的運(yùn)算能力。
在下一代架構(gòu)即Pascal中將提供真正的FP16單元,讓移動(dòng)游戲?qū)崿F(xiàn)更低功耗及更高性能。如果考慮到X1功耗約為5W,則意味著Nvidia推出的產(chǎn)品在智能手機(jī)領(lǐng)域?qū)⒕哂泻軓?qiáng)的競(jìng)爭(zhēng)力。
再關(guān)注下英特爾。英特爾的圖形產(chǎn)品同樣存在FP16運(yùn)算單元的問題。吊詭的是其架構(gòu)應(yīng)該可以支持FP16運(yùn)算,無奈驅(qū)動(dòng)開發(fā)有些落后,沒有考慮到移動(dòng)環(huán)境的特殊性。
這對(duì)英特爾意味著什么?英特爾圖形處理器只能將FP16運(yùn)算當(dāng)作FP32運(yùn)算來用,損失了一半性能,看下實(shí)際的移動(dòng)性能表現(xiàn),我們會(huì)發(fā)現(xiàn)英特爾圖形處理器產(chǎn)品在移動(dòng)終端上的性能表現(xiàn)確實(shí)很差。
上表可以看到幾款移動(dòng)GPU的實(shí)際性能??梢钥闯鯢P32性能較好的SoC產(chǎn)品在3DMark測(cè)試中表現(xiàn)都很好(PC基準(zhǔn)),但在GFXBench(移動(dòng)基準(zhǔn))中就很差。英特爾的產(chǎn)品在GFXBench中表現(xiàn)相對(duì)較差而在3DMark中就很好。Nvidia產(chǎn)品則表現(xiàn)出更好的平衡性,應(yīng)該是因?yàn)槠浼軜?gòu)更適用于移動(dòng)環(huán)境。而蘋果A9在能耗方面相對(duì)于A8表現(xiàn)則較差。
結(jié)論
Nvidia致力于在下一代架構(gòu)中加入FP16單元來改善能效表現(xiàn),同時(shí)實(shí)現(xiàn)更高性能并產(chǎn)生更少熱量。如果我們關(guān)于Tegra X1的分析是正確的,可以說X1仍頗具競(jìng)爭(zhēng)力,而Nvidia下一代采用Pascal架構(gòu)的產(chǎn)品在圖形處理市場(chǎng)上將成為一個(gè)強(qiáng)有力的競(jìng)爭(zhēng)者。可以看下Pixel C的性能表現(xiàn),這款產(chǎn)品采用Tegra X1,為了實(shí)現(xiàn)20~30%的功耗降低,其性能表現(xiàn)打了10~20%的折扣。
對(duì)于英特爾,同樣存在驅(qū)動(dòng)的問題,當(dāng)它運(yùn)行在FP32圖形測(cè)試環(huán)境,是極具競(jìng)爭(zhēng)力的。如果運(yùn)行FP16來進(jìn)行32位指令操作則才存在很大的能效障礙,還好英特爾已經(jīng)在著手解決這一問題。
Nvidia和英特爾將大幅提升其產(chǎn)品在移動(dòng)圖形處理領(lǐng)域的每瓦性能。接下來的幾年,如果Nvidia或英特爾在移動(dòng)領(lǐng)域?qū)崿F(xiàn)低功耗從而獲得領(lǐng)先地位,我一點(diǎn)都不感到奇怪。此外,Nvidia努力讓其Tegra X1產(chǎn)品被谷歌Pixel C采用,這也是對(duì)其舊款但也是很好的SoC產(chǎn)品的品牌宣傳。基于這些分析,我要重申Nvidia在移動(dòng)市場(chǎng)仍將有所表現(xiàn)。谷歌已經(jīng)對(duì)Nvidia做出了肯定,接下來在智能手機(jī)領(lǐng)域提供一些低功耗SoC相信也不是難事。
對(duì)于英特爾,這家公司在接下來的幾年都不會(huì)停止在移動(dòng)市場(chǎng)上的努力。英特爾正在Phablets上測(cè)試Core M架構(gòu)以開發(fā)出一款高端移動(dòng)SoC,同時(shí)他們也在下一代Atom處理器中移植Skylake和Kaby Lake處理器的創(chuàng)新技術(shù)。此外,英特爾也在開發(fā)對(duì)FP16運(yùn)算的驅(qū)動(dòng)支持以大幅提升移動(dòng)圖形處理的性能。同時(shí),SoFIA處理器將在2015年底和2016年發(fā)布,可以期待英特爾將在接下來的幾個(gè)月和幾年里贏得一些市場(chǎng),尤其是在中低端市場(chǎng)。
更多有關(guān)GPU的資訊,歡迎訪問 與非網(wǎng)GPU專區(qū)
與非網(wǎng)編譯,未經(jīng)許可,不得轉(zhuǎn)載!