我们为什么仍然需要十万卡集群？——管窥“后DeepSeek时代”算力芯片市场的变与不变

发布时间：2025-04-11 15:00:43

【导语】DeepSeek-V3以2048张H800GPU的训练规模震撼智能算力市场，引发了关于算力集群Scaling Law（尺度规律）的广泛讨论。尽管这一消息对智算行业传统信念产生动摇，但业界对尺度规律的认可度依然坚挺。与此同时，DeepSeek的发布推动了推理算力市(shì)场(chǎng)的(de)迅(xùn)猛增长，多家国产算力芯片公司将业务发展重点转向推理领域。然而，未来的算力集群部署将形成训练与推理的双重路线竞争，呈现出“双轨并行”的新格局。一方面，头部企业将继续加码超大规模集群，实现训练性能突破；另一方面，地方和中小企业则将着眼算法高效化与推理优化，以更(gèng)低(dī)成(chéng)本(běn)参(cān)与(yǔ)竞(jìng)争(zhēng)。

算(suàn)力(lì)集群(qún)Scaling Law（尺(chǐ)度(dù)规(guī)律(lǜ)）还(hái)奏(zòu)效(xiào)么(me)？万(wàn)卡(kǎ)级(jí)智(zhì)算(suàn)集群(qún)还(hái)是(shì)全球(qiú)AI大(dà)模(mó)型(xíng)竞(jìng)争(zhēng)的(de)“入(rù)场(chǎng)券(quàn)”么(me)？十(shí)万(wàn)卡(kǎ)智(zhì)算(suàn)集群(qún)仍(réng)然(rán)是(shì)算(suàn)力(lì)备战的目标么？

今年年初，DeepSeek-V3训练只使用了2048张H800GPU的消息传出，像一颗核弹，给长期信奉规模取胜的智能算力市场带来了不小的震憾。智算行业曾经坚信不移的Scaling Law——智算集群规模将沿着千卡、万卡、十万卡顺序部署的路线，也因此产生了动摇。但几个月过去，记者发现，DeepSeek的出现的确给算力芯片市场带来了不小的变化，但业界对尺度规律的认可度仍然坚挺。

推理算力市场迎猛增

毫无疑问，DeepSeek给推理芯片和推理算力市场注入了一针强心剂。

某业内人士表示，2024年，多地建设的智算中心普遍存在空置的现象。但在DeepSeek发布后，各地算力中心资源的利用率实现了大幅提升。

市场报告.png

图片来源：2025 中国人工智能计算力发展评估报告

市场分析机构发布数据显示，中国人工智能服务器工作负载中，推理算力的占比将在未来几年大幅增长，预(yù)计(jì)到(dào) 2028 年(nián)中(zhōng)国(guó)推(tuī)理(lǐ)算(suàn)力(lì)的(de)市(shì)场(chǎng)份(fèn)额(é)将(jiāng)从(cóng)2024年(nián)的(de)65%增(zēng)长(zhǎng)到(dào)73%。

浪(làng)潮(cháo)高(gāo)级(jí)副(fù)总(zǒng)裁(cái)刘(liú)军(jūn)也(yě)表(biǎo)示(shì) ：“在(zài) DeepSeek 发(fā)布(bù)后(hòu)，推(tuī)理(lǐ)算(suàn)力(lì)的(de)需(xū)求(qiú)量(liàng)正(zhèng)在(zài)迅(xùn)速(sù)超(chāo)过(guò)训(xun)练(liàn)算(suàn)力(lì)，市(shì)场(chǎng)结(jié)构(gòu)发(fā)生(shēng)了(le)根(gēn)本(běn)性(xìng)变(biàn)化(huà)。”

感(gǎn)受(shòu)到(dào)市(shì)场(chǎng)需(xū)求(qiú)的(de)牵(qiān)引(yǐn)，多(duō)家(jiā)国(guó)产(chǎn)算(suàn)力(lì)芯(xīn)片(piàn)公(gōng)司(sī)今(jīn)年(nián)将(jiāng)业(yè)务(wu)发(fā)展(zhǎn)重(zhòng)点(diǎn)放(fàng)在(zài)了(le)推(tuī)理(lǐ)领(lǐng)域。例(lì)如(rú)，今(jīn)年(nián)2月(yuè)，燧(suì)原(yuán)宣(xuān)布(bù)其(qí)庆(qìng)阳(yáng)智(zhì)算(suàn)中心部署的万卡集群为美图AI推理业务提供算力；今年3月，沐曦科技宣布联合清华大学KVCache.AI团队加速DeepSeek满血版单卡C500异构推理等。

但截至目前，推理市场实际上并不存在对“真万卡集群”的刚需。根据阿里研究院副院长安筱鹏的理解，只有一万张AI加速卡部署在同一个数据中心，并且能通过大规模资源调度技术，让万卡作为“一台”计算机，支持单一模型在一万张卡上同时进行训练，才能被认为是“真万卡集群”。但推理任务更多是分布式实现的，其算力规模需求远低于万卡。[XZ1]

规模定律仍在训练领域奏效

“大模型本地部署有望成为国产算力芯片的重要增长拉动力。” 联通元景大模型负责人在接受《中国电子报》记者采访时如是说。

DeepSeek之所以能撬动巨大的推理算力市场，本质上得益于其底层基础模型V3的高质量训练。而强大的算力，是支撑该模型乃至后续其他模型迭代的基础。

联通云相关负责人介绍，大模型参数规模从千亿级迈向万亿级，训练数据量也呈指数级增长。大规模训练集群能够通过并行计算和分布式处理，显著缩短训练周期，为模型快速迭代提供基础设施支撑。但从当前的情况来看，万卡集群在训练效率上已经不足以支持大模型的迭代速度。而十万卡集群，能够通过更高并行度和分布式优化，在万卡集群基础上实现训练效率的再度提升。

但建设大规模训练集群，仍存在诸多待解的技术问题。多地域部署、多芯混训、集群稳定性都给集群建设带来了挑战。集群稳定性要求高，快速容(róng)错(cuò)和(hé)恢(huī)复(fù)是(shì)关键；能(néng)耗(hào)与(yǔ)散(sàn)热(rè)、数(shù)据(jù)管(guǎn)理(lǐ)和(hé)运(yùn)维(wéi)管(guǎn)理(lǐ)等(děng)问(wèn)题(tí)同(tóng)样(yàng)重(zhòng)要(yào)——集群(qún)每(měi)日(rì)能(néng)耗(hào)甚(shén)至(zhì)将(jiāng)高(gāo)达(dá)300万(wàn)千(qiān)瓦(wǎ)时(shí)，与(yǔ)一(yī)个(gè)小(xiǎo)型(xíng)机(jī)械(xiè)厂(chǎng)一(yī)年(nián)的(de)用(yòng)电(diàn)量(liàng)相(xiāng)当(dāng)。

在(zài)中(zhōng)国(guó)联(lián)通(tōng)相(xiāng)关业(yè)务(wu)人(rén)员(yuán)看(kàn)来(lái)，综(zōng)合(hé)考(kǎo)虑(lǜ)企(qǐ)业(yè)需(xū)求(qiú)、行(xíng)业(yè)应(yīng)用(yòng)和(hé)区(qū)域分(fēn)布(bù)，中(zhōng)国(guó)可(kě)能(néng)需(xū)要(yào)3—5个(gè)“真(zhēn)十(shí)万(wàn)卡(kǎ)集群(qún)”，这些集群应具备高效能、低能耗、高稳定性的特点，并支持多任务并发和动态资源调度，以(yǐ)最(zuì)大(dà)化算力利用率。

双重路线竞争

可以预见，未来的算力集群部署，将以训练与推理为界，形成巨大分野，呈现出“双轨并行”新格局：

一方面，头部企业持续加码超大规模集群，集中力量实现训练性能突破。

调度方面，百度、腾讯等企业开发了面向超大集群的自动切分、任务容错系统；能源管理上，液冷、浸没式等新型冷却技术成为数据中心标配，PUE（能源利用效率）持续优化；多芯融合层面，一些平台已实现“国产+进口”GPU、NPU、ASIC的调度统一，个别厂商甚至宣布支持六芯异构协同训练。

与此同时，“以训练反哺调度优化”成为技术演进的新方向(xiàng)。通(tōng)过(guò)AI自(zì)身(shēn)参(cān)与(yǔ)任(rèn)务(wu)调(diào)度、负载均衡，集群可以实现自动化资源编排——这正是AI基础设施向“智能化操作系统”演进的表现。某种意义上，十万卡不再只是“计算力的集合”，而是“算力+AI控制力”的系统体。

“十万卡集群”的比拼，最终将落脚于如何将堆卡用好、用足、用出性价比。

另一方面，各地方、中小企业在智算赛道的着眼点将转向算法高效化与推理优化。越来越多企业开始选择用数百张卡构建私有化小型训练集群，结合开源模型做定制化微调。通过模型蒸馏、芯片定制和边缘算力部署，在特定场景下以更低成本参与竞争，推动AI技术下沉至垂直领域。

联发科技总经理陈冠州：智能体AI体验应当具备五大关键特征

半导体先进制程巨头“联姻”，一场怎样的“阳谋”？