AIDC专题之电源管理篇:“算力守护者”走向台前
【导语】随着AIDC(智算中心)产业的蓬勃发展,地方政府与互联网巨头共同推动其建设,科技企业积极布局,核心供应商成为坚实后盾。然而,功耗急剧上升成为AIDC运营商面临的重大挑战。《中国电子报》特此推出AIDC专题,聚焦基础建设、运营调度、应用服务等环节,探讨电源管理的新要求与特点。在AI、云计算的推动下,数据中心供电架构正在升级,高能效、高功率密度的电源管理产品成为市场主流。本文将深入探讨AIDC电源管理的现状、挑战及创新解决方案,展现从“能量转换者”到“算力守护者”的变革之路。
编者按:当前,AIDC(智算中心)产业正在(zài)迎(yíng)来(lái)新(xīn)的(de)发(fā)展(zhǎn)高(gāo)峰(fēng)。AIDC建(jiàn)设(shè)逐(zhú)步(bù)形(xíng)成(chéng)“地(de)方(fāng)政(zhèng)府(fǔ)主导(dǎo)+互(hù)联(lián)网(wǎng)巨(jù)头主导”的两条主线,国内外科技企业不断加大在AIDC领域的布局,一批核心供应商成为推动AIDC建设和运营的坚实后盾,从上下游产业链的硬(yìng)件(jiàn)制造、软件开发到应用服务的多个环节正在协同发力。为此,《中国电子报》推出AIDC专题,从AIDC领域涉及的基础建设、运营调度、应用服务等重点环节,阐述其中的应用案例、所解决的关键问题以及成果。
智算中心(AIDC)作为部署和调用AI大模型的基础设施,正面临功耗急剧上升的挑战。从成本和环境的角度来看,高密度服务器机架及集群导致用电量大幅增加,给AIDC运营商带来了沉重的压力。那么,面向AIDC的电源管理,有何新要求和新特点?相关企业应如何抓住机遇为行业赋能?
智算浪潮下,电力“降本”成刚需
伴随AI、云计算和高性能计算的高速发展,传统数据中心(通算中心)亟需朝着智能化方面升级,面向AI时代的智算中心迎来建设高峰。在这一轮升级与建设浪潮中,如何为数据中心高效供电成为一项复杂且关键的任务,对电源管理策略进行创新的需求呼之欲出。
据了解,数据中心供电正在从交流供电向HVDC、SST直流架构升级,400V/800V高压总线成为主流。直流方案通过减少逆变环节提升传输效率,同时节省占地面积和铜材用量,以适配单机柜20kW-100kW的高功率需求。
“如今,AI数据中心正从‘算力中心’向‘智算中心’转型,面向AIDC领域的电源管理产品市场(chǎng)前(qián)景(jǐng)广(guǎng)阔(kuò)。”安(ān)森(sēn)美(měi)高(gāo)级(jí)现(xiàn)场(chǎng)应用工程师陈熙表示,随着算力需求持续增长,AIDC规模会不断扩大,对电源管理产品在数量和(hé)性(xìng)能(néng)上(shàng)的(de)需(xū)求(qiú)都(dōu)会(huì)稳(wěn)步(bù)上(shàng)升(shēng)。
尤(yóu)其(qí)是(shì)在(zài)追(zhuī)求(qiú)绿(lǜ)色(sè)数(shù)据(jù)中(zhōng)心(xīn)、降(jiàng)低(dī)能(néng)耗(hào)的(de)大(dà)趋(qū)势(shì)下(xià),高(gāo)能(néng)效(xiào)、高(gāo)功(gōng)率(lǜ)密(mì)度(dù)的(de)电(diàn)源(yuán)管(guǎn)理(lǐ)产(chǎn)品(pǐn)将(jiāng)成为市场主流(liú)需(xū)求(qiú)。数(shù)据显示,从2022年到2026年,全球数据中心电力消耗将从460太瓦时(TWh)增长至近1000太瓦时(TWh),几乎翻了一番。这意味着,1%的电源节约能够为全球带来每年超过6.53亿美元的电力成本节约。
如今,数据中心设备的性能和能耗正在同步攀升,功率需求正呈现指数级增长。过去,服务器电源主要围绕CPU运行。如今,算力逐渐向AI云端集中,数据中心开始大量采用对功率和功耗需求更大的GPU等芯片作为负载。德州仪器系统经理游声扬指出,这就要求电源管理器或(huò)电(diàn)池(chí)备(bèi)用(yòng)单元必须具备更高的功率密度与效率,以充分发挥服务器机架上CPU和GPU的性能。此外,供电安全的额外保护至关重要,面对系统卡增多的情况(kuàng),提(tí)升(shēng)系(xì)统(tǒng)可(kě)靠(kào)性(xìng)也(yě)迫(pò)在(zài)眉(méi)睫(jié)。
以(yǐ)传(chuán)统(tǒng)服(fú)务(wu)器(qì)到(dào)AI服(fú)务(wu)器(qì)的(de)变(biàn)化(huà)为(wèi)例(lì),据(jù)英(yīng)飞(fēi)凌(líng)相(xiāng)关负(fù)责(zé)人(rén)向(xiàng)记(jì)者(zhě)介(jiè)绍(shào),在(zài)机(jī)柜(guì)里(lǐ)面(miàn),GPU、CPU功(gōng)耗(hào)从(cóng)不(bù)足(zú)1KW逐(zhú)渐(jiàn)提(tí)升(shēng)到(dào)了1kW,现在甚至会超过2kW;而整个(gè)机(jī)柜(guì)的(de)功(gōng)耗(hào),从(cóng)原(yuán)来(lái)不(bù)到(dào)60kW提(tí)升(shēng)至(zhì)现(xiàn)在(zài)的(de)150kW。这(zhè)意(yì)味(wèi)着(zhe)AI服(fú)务(wu)器(qì)对(duì)于(yú)电(diàn)力(lì)供(gōng)应(yīng)有(yǒu)着(zhe)极(jí)高(gāo)要(yào)求(qiú),需(xū)要(yào)采用(yòng)恰(qià)当(dāng)的(de)方(fāng)式(shì)去(qù)提(tí)高(gāo)效(xiào)率(lǜ)。因(yīn)为(wèi)低效率会导致高损耗,释放出的大量热能会使机器无法正常运转。
面向AI服务器的能效要求,电源架构加速向高功率、高效率和高功率密度的方向演进。纳芯微电子技术市场工程师刘建栋向《中国电子报》记者强调,AI服务器对电源管理产品提出了更严苛的技术要求。比如,整机架功率迈入兆瓦级,PSU单机功率突破10kW;二次电源频率升至MHz,功率密度超5kW/in³;高压直流、固态变压器、垂直供电等新型架构得到采用。
“目前,一台典型的AI服(fú)务(wu)器(qì)机(jī)架(jià),功(gōng)耗(hào)可(kě)以(yǐ)达(dá)到(dào)150kW。但(dàn)不(bù)久(jiǔ)的(de)将(jiāng)来(lái),其(qí)功(gōng)耗(hào)可(kě)以(yǐ)达(dá)到(dào)800 kW,甚(shén)至(zhì)于(yú)1000kW。”英(yīng)飞(fēi)凌(líng)负(fù)责(zé)人(rén)说(shuō)道(dào)。
从(cóng)“能(néng)量(liàng)转(zhuǎn)换(huàn)者(zhě)”到(dào)“算(suàn)力(lì)守护者”
电源管理芯(xīn)片(piàn)(PMIC)是模拟芯片领域的最大细分市场之一,其类别繁多,集成了多种功能,负责管理和控制电子设备的电源系统。在传统数据中心时期,电源管理芯片更多是充当着电压转换、调节等电源管理基础功能的“能力转换者”,而AIDC阶段,电源管理芯片需要以“算力守护者”的身份承担更多的功能。
当前,面向AIDC的电源管理产品还存在一些需求痛点。比如,在散热方面,尽管提高电源转换效率可减少热量产生,但数据中心散热系统电力消耗占比约40%,芯片在进一(yī)步(bù)降(jiàng)低(dī)热(rè)损(sǔn)耗(hào)、配(pèi)合(hé)散(sàn)热(rè)系(xì)统(tǒng)优(yōu)化(huà)方(fāng)面(miàn)还(hái)有(yǒu)提(tí)升(shēng)空(kōng)间(jiān)。另(lìng)外,在实现高功率密度时,如何在缩小芯片尺寸、提高集成度的同时,保证芯片的可靠性和稳定性,也是亟待解决的(de)问(wèn)题(tí)。
刘(liú)建(jiàn)栋(dòng)坦(tǎn)言(yán),AIDC建(jiàn)设(shè)对(duì)高(gāo)性(xìng)能(néng)电(diàn)源(yuán)系(xì)统(tǒng)的(de)持(chí)续需求,为厂商(shāng)带来了巨大的增量市场,同时也提出了产品高性能与高可靠性并存的挑战,特别是在驱动IC、同步整流、电流采样等关键环节。以电源系统中的关键芯片——栅极驱动芯片为例,随着AI模型日益复杂、电力成本关注提升,以及绿色数据中心趋势明确,栅极驱动芯片将持续向高效率、高集成度、智能化发展,市场前景广阔。
“AIDC旨在提供高性能和高可靠性,其对电源管理的核心需求始终围绕‘高性能、高可靠性、高效能’展开。这需要打通技术创新、配套服务与产业链协同创新的价值闭环。”陈熙从能效、功率密度、可靠性这三大方(fāng)面(miàn)作(zuò)出(chū)了(le)分(fēn)析(xī)。
首(shǒu)先(xiān)是(shì)能(néng)效(xiào)方(fāng)面(miàn)。提(tí)升(shēng)数(shù)据(jù)中(zhōng)心(xīn)能(néng)效(xiào)不(bù)仅(jǐn)能(néng)显(xiǎn)著(zhe)降(jiàng)低(dī)运(yùn)营(yíng)成(chéng)本,更能减少碳排放。以人工智能数据中心核心子系统PSU(电源供应单元)为例,应满足严格的Open Rack V3 (ORV3) 基本规范,要求30%到100%负载下的峰值效率达到97.5%以上,并且10%到30%负载下的最低效率达到94%。要实现这一目标,必须配备更高效的电源拓扑结构,并与高效功率器件深度协同(tóng),从(cóng)而(ér)提(tí)高(gāo)能(néng)量(liàng)转(zhuǎn)换(huàn)效(xiào)率(lǜ)。
其(qí)次(cì)是(shì)功(gōng)率(lǜ)密(mì)度(dù)。数(shù)据(jù)中(zhōng)心(xīn)内(nèi)功(gōng)率(lǜ)密(mì)度(dù)正(zhèng)呈(chéng)现(xiàn)爆发式增长,从十年前的每个1U机架通常只有5 kW,增加到现在的20kW、30kW或更高。而电源存放及散热空间有限,这就要求电源管理芯片在高功率输出的同时,还需要有紧凑的设计。
最后是极致可靠性。AI模型训练成本极高,任何断电都可能导致训练中断、数据丢失,造成巨大损失。因此数据中心架构采用“市电+UPS+备用电源”的架构,这对电源管理芯片的稳定性提出了较高要求——必须确保在负载波动等复杂场景下,始终保持输出稳定。
直击痛点,行业创新“应时而生”
在AIDC加速建设的浪潮下,面向电源管理的新需求,相关芯片厂商积极布局,通过创新技术与产品为数据中心电源系统的高效运行保驾护航。
例如,在智算中心中,AI服务器需要精确控制多个电源模块,推动电源管理芯片向高集成度发展,而智能功率模块(IPM)集成驱动电路和保护功能,满足数据中心对可靠性和可维护性的双重要(yào)求(qiú)。此(cǐ)外(wài),随(suí)着数据中心的数量和规模不断增长,预计对电子换向(EC)风机的需求也将随之增加。这些冷却风机可为数据中心的所有设备维持理想的运行环境,对于准确、无误的数据传送至关重要。而SiC IPM可确保EC风机以更高能效可靠运行。
如今,越来越多面向智算中心的电源管理方案正在落地。其中,如何实现效率、功率密度和系统成本之间的平衡是智算中心面临的重点问题之一。
为此,安森美为数据中心提供了从电网到GPU的一整套电源解决方案(从3kW到25-30kW HVDC)。据了解,安森美通过整合尖端技术实现协同效应,方案融合了先进的硅基(Si)、碳化硅(SiC)和氮化镓(GaN)功率开关技术,同时集成栅极驱动器、多相控制器及48V控制器、智能功率级(SPS)模块、智能熔丝以及负载点(PoL)降压转换器等多种元器件。以提升数据中心系统能效的电压控制元件为例,安森美的EliteSiC 650V MOSFET提供了更佳的开关性能和更低的器件电容。从数据上看,通过使用T10 PowerTrench系列和EliteSiC 650V解决方案,数据中心能够减少约1%的电力损耗。
在智算中心供电架构不断升级的趋势下,栅极驱动IC已成为电源系统中除主控芯片和功率器件之外最为关键的芯片。刘建栋表示,栅极驱动芯片需具备更高的抗干扰能力(如200V/ns CMTI)、更小尺寸封装、更高集成度和可靠性,以及更好地支持宽禁带半导体。
为此,纳芯微推出了多款高性能栅极驱动产(chǎn)品(pǐn)。例(lì)如(rú),高(gāo)可(kě)靠(kào)双(shuāng)通(tōng)道(dào)隔(gé)离(lí)驱(qū)动(dòng)产(chǎn)品(pǐn)NSI6602V具(jù)备(bèi)增(zēng)强(qiáng)抗(kàng)干(gàn)扰(rǎo)能(néng)力(lì),适(shì)用(yòng)于(yú)2MHz以(yǐ)内(nèi)的(de)高(gāo)频(pín)电(diàn)源(yuán)系(xì)统(tǒng);NSI67xx系(xì)列(liè)拥(yōng)有(yǒu)集成(chéng)采样(yàng)通(tōng)道(dào)和(hé)保(bǎo)护(hù)功能,能够适配高集成度设计需求。“未来,我们将围绕高频、高功率密度场景,拓展专用驱动、同步整流、采样、接口等全链路产品,打造系统级解决方案。”刘建栋告诉记者。
确保AI系统不间断供电对于保持运算过程的连续性与无缝运行至关重要。为了确保智算中心的不间断运行,避免断电和数据丢失风险。英飞凌推出了新一代AI数据中心电池备份单元(BBU)解决方案路标。据了解,BBU除了可确保供电不间断,还可以保护敏感的AI硬件免受电压尖峰、浪涌和其他电源异常情况的影响。
“随着技术进步,电源管理产品的智能化、集成化程度会不断提高,能够更好地与数据中心其他系统协同工作,进一步提升数据中心整体运行效率,这类创新型产品将拥有良好的市场前景。”陈熙表示。