作者:安森美高級總監(jiān),Aditya Jian
在加密貨幣和人工智能/機器學習(AI/ML)等新興應用的驅(qū)動下,數(shù)據(jù)中心的能耗巨大,并將快速增長以滿足用戶需求。根據(jù)國際能源署(IEA)的最新報告,2022 年數(shù)據(jù)中心的耗電量將達到 460 TWh(太瓦時),約占全球總用電量的 2%。在美國,擁有全球三分之一的數(shù)據(jù)中心,耗電量為 260 TWh,占總用電量的 6%。
預測未來具有挑戰(zhàn)性,這取決于部署了多少非常耗電的圖形處理單元(GPU)來應對人工智能技術(shù)的需求,當然還取決于進一步增加空調(diào)來降低數(shù)據(jù)中心的溫度。國際能源署的報告顯示,到 2026 年,數(shù)據(jù)中心的耗電量將至少增長到 650 TWh(40%),但也可能高達 1,050 TWh(128%)。
數(shù)據(jù)中心支持人工智能趨勢
人工智能是一項極其耗電的技術(shù),支持其運行的數(shù)據(jù)中心需要具備足夠的算力和電力輸送能力。 瑞典RISE研究機構(gòu)最近的一項研究清楚地展示了由于該技術(shù)迅速普及所帶來的巨大變化。例如,ChatGPT在2022年11月推出后僅五天內(nèi)就達到了100萬用戶。他們在兩個月內(nèi)就擁有了 1 億用戶,而TikTok達到同一用戶量級用了9個月,Instagram則用了兩年半的時間。
作為參考,在谷歌上進行一次搜索僅需 0.28 Wh,相當于讓一個60W的燈泡亮17秒。
相比之下,訓練 GPT-4 需要 1.7 萬億個參數(shù)和 13 萬億個tokens(單詞片段),這是一個完全不同的命題。要做到這一點,需要包含 25,000 個英偉達 A100 GPU的多臺服務器,每臺服務器的功耗約為 6.5 kW。OpenAI 表示,訓練耗時 100 天,耗能約 50 GWh,耗資 1 億美元。
顯然,人工智能將極大地改變數(shù)據(jù)中心的游戲規(guī)則,其所需的計算能力和能耗水平將遠遠超過我們迄今為止所看到的任何水平。
數(shù)據(jù)中心 48V 架構(gòu)
早期的數(shù)據(jù)中心采用集中式電源架構(gòu) (CPA),將主電源(電網(wǎng))電壓集中轉(zhuǎn)換為 12V(母線電壓),然后將其分配給各服務器,并使用相對簡單的轉(zhuǎn)換器在本地將其轉(zhuǎn)換為5V 或 3.3V邏輯電平。
然而,隨著功率需求的增長,12V 母線上的電流(以及相關(guān)損耗)變得高得令人無法接受,迫使系統(tǒng)工程師改用48V 母線布置。根據(jù)歐姆定律,電流減少了 4 倍,損耗則降低了 4 倍的平方。這種配置被稱為分布式電源架構(gòu) (DPA)。
與此同時,處理器和其他一些元器件的電壓也在不斷降低,最終降至亞伏特級別,導致需要多個次級電壓軌。為解決這一問題,采用了二階轉(zhuǎn)換技術(shù),通過DC-DC轉(zhuǎn)換器(稱為中間母線轉(zhuǎn)換器 - IBC)將 48V 電壓轉(zhuǎn)換為 12V 母線,再根據(jù)需要從 12V 母線輸出其他電壓。
圖1 服務器電源系統(tǒng)的結(jié)構(gòu)
對高能效 MOSFET的需求
數(shù)據(jù)中心內(nèi)部的電力損耗給運營商帶來了挑戰(zhàn)。首先,也是最明顯的一點是,他們正在為那些無助于服務器運行的電力付費。其次,任何浪費的能源都會轉(zhuǎn)化為熱量,這就必須設法處理。由于超大規(guī)模AI服務器的功率需求高達 120 kW(而且肯定會隨著時間推移而增加),即使在 50% 負載的情況下,以 97.5% 的峰值效率計算 2.5% 的損耗,每臺服務器也會浪費 1.5 kW的電力,相當于一臺全時運行的電加熱器。
處理熱量可能需要在功率轉(zhuǎn)換系統(tǒng)中采取散熱措施,如散熱器或風扇。這些措施會增大電源的體積,占用本可用于更多計算能力的空間,就風扇而言,還會耗費電能并增加成本。由于數(shù)據(jù)中心內(nèi)的溫度需要嚴格控制,過高的損耗也會使環(huán)境溫度升高,這意味著需要更多的空調(diào)來降溫。這既是資本支出,也是運營成本,同時還占用空間。
顯然,盡可能高效地將主(電網(wǎng))電壓轉(zhuǎn)換為驅(qū)動人工智能 GPU 和其他設備供電所需的電壓,對數(shù)據(jù)中心運營商來說大有裨益。
因此,多年來人們在電源拓撲結(jié)構(gòu)方面做了大量工作,在前端 PFC 階段引入了圖騰柱PFC (TPPFC) 等技術(shù),以提高其效率。此外,為了提高效率,二極管整流器已被 MOSFET 所取代,并引入了同步整流等技術(shù)。
優(yōu)化拓撲結(jié)構(gòu)只是其中的一半,要優(yōu)化效率,所有元件也必須盡可能高效,尤其是對轉(zhuǎn)換過程至關(guān)重要的 MOSFET。
當 MOSFET 用于開關(guān)電源轉(zhuǎn)換時,主要有兩種形式的損耗:導通損耗和開關(guān)損耗。導通損耗由漏極和源極之間的電阻(RDS(ON))造成,在電流流動時一直存在。開關(guān)損耗是由柵極電荷 (Qg)、輸出電荷 (QOSS) 和反向恢復電荷 (Qrr) 共同造成的,這些電荷在每個開關(guān)周期都會得到補充。由于目前的趨勢是提高開關(guān)頻率以減小磁性元件的尺寸,因此隨著補充頻率的增加,這種損耗也會變得相當顯著。
顯然,特定 MOSFET 的導通損耗和開關(guān)損耗越低,電源系統(tǒng)的整體轉(zhuǎn)換效率就越高。
PowerTrench? T10 MOSFET 簡介
同步整流現(xiàn)在已成為所有高性能、大電流、低壓電源轉(zhuǎn)換應用中的關(guān)鍵技術(shù),特別是在數(shù)據(jù)中心服務器的應用中更是如此。在這種應用中,包括RDS(ON)、Qg、QOSS和Qrr在內(nèi)的幾個MOSFET參數(shù)會直接影響轉(zhuǎn)換效率,器件制造商正努力尋求減小這些影響的方法。
安森美的 PowerTrench T10 MOSFET 采用新型屏蔽柵極溝道設計,實現(xiàn)了超低的 Qg 值,且 RDS(ON) 低于 1mOhm 。最新的 PowerTrench T10 技術(shù)不僅減少了振鈴、過沖和噪聲,其業(yè)界先進的軟恢復體二極管還降低了 Qrr。這在導通電阻性能和恢復特性之間實現(xiàn)了良好的折中平衡,同時還可實現(xiàn)具有良好反向恢復特性的低損耗快速開關(guān)。
總體而言,PowerTrench T10 器件在參數(shù)方面的改進提高了中低壓、大電流開關(guān)電源解決方案的效率。通常情況下,開關(guān)損耗比上一代器件最多可降低 50%,而導通損耗可降低 30%-40%。
安森美推出了PowerTrench T10技術(shù)的40V系列和80V系列產(chǎn)品。NTMFWS1D5N08X(80V、1.43mΩ、5mm x 6mm SO8-FL 封裝)和 NTTFSSCH1D3N04XL(40V、1.3mΩ、3.3mm x 3.3mm 源下雙冷卻封裝)為人工智能數(shù)據(jù)中心應用中的電源單元(PSU)和中間母線轉(zhuǎn)換器(IBC)提供了同類極佳的效率(FOM)。它們達到了開放式機架(Open Rack) V3 規(guī)范要求的 97.5% 的 PSU 效率和 98% 的 IBC 效率。
圖 2 PowerTrench T10 MOSFET 的優(yōu)勢
結(jié)語
人工智能革命已經(jīng)到來,沒有人能夠完全確定它對數(shù)據(jù)中心未來的電力輸送需求究竟意味著什么。不過,可以肯定的是,一系列新的挑戰(zhàn)已經(jīng)出現(xiàn)。房地產(chǎn)資源稀缺和電網(wǎng)的限制使得很難找到容量充足的新地點。關(guān)鍵 IT 方面的總體電力需求激增,給電力成本帶來沉重負擔。為了滿足這些需求,數(shù)據(jù)中心業(yè)主不僅要建設新設施,還要將現(xiàn)有設施推向極限,力求實現(xiàn)每平方英尺兆瓦級的高密度配置。
隨著功率水平肯定會超過 100 kW,功率轉(zhuǎn)換將成為關(guān)鍵重點,以實現(xiàn)高效運行,確保散熱,可靠地提高功率密度,并在狹窄的現(xiàn)代數(shù)據(jù)中心中節(jié)省空間。
安森美的 PowerTrench T10 技術(shù)提供了業(yè)界先進的 RDS(ON)、更高的功率密度、降低開關(guān)損耗,以及更好的熱性能,從而降低總系統(tǒng)成本。PowerTrench T10 等創(chuàng)新功率半導體技術(shù)將成為未來的關(guān)鍵組成部分。