达摩院首席科学家孟建熠:模型创新为算力架构带来新机会

AI时代架构创新不断(duàn)涌(yǒng)现(xiàn),而(ér)DeepSeek的(de)出(chū)现(xiàn)为(wèi)整(zhěng)个(gè)AI市(shì)场(chǎng)带(dài)来(lái)了(le)全新(xīn)活(huó)力(lì)。近(jìn)日(rì),达(dá)摩(mó)院(yuàn)首(shǒu)席(xí)科(kē)学(xué)家(jiā)、知(zhī)合(hé)计(jì)算(suàn)CEO孟(mèng)建(jiàn)熠(yì)在(zài)2025玄(xuán)铁(tiě)RISC-V生(shēng)态(tài)大(dà)会(huì)上(shàng)表(biǎo)示(shì),DeepSeek在(zài)一(yī)定(dìng)程(chéng)度(dù)上(shàng)改(gǎi)变(biàn)了(le)行(xíng)业(yè)对(duì)AI硬(yìng)件(jiàn)架(jià)构(gòu)的(de)诉(su)求(qiú),模(mó)型(xíng)持(chí)续(xù)创(chuàng)新(xīn)是(shì)所(suǒ)有(yǒu)算(suàn)力(lì)架(jià)构(gòu)的(de)机(jī)会(huì)。对(duì)RISC-V发(fā)展(zhǎn)而(ér)言(yán),打(dǎ)造(zào)标(biāo)杆(gān)产(chǎn)品(pǐn)是(shì)关键。

DeepSeek让(ràng)大(dà)模(mó)型(xíng)从(cóng)云(yún)走(zǒu)向(xiàng)端(duān)

孟(mèng)建(jiàn)熠(yì)表(biǎo)示,DeepSeek问世之后,业界中产生了三方面不同观点的争论:一是开源架构与闭源架构谁更好。DeepSeek证明了开源架构也有很好的表现。二是该用Dense模型还是MoE模型。前者是通用全能的模型,后者是更好的专家模型,二者各有所长。三是算力敏感与内存容量敏感之争。之前模型对算力的需求非常大,现在是容量很大,算力下降了,所以内存容量成为一项关键指标。

“DeepSeek在一定程度上改变了大家对AI硬件架构的诉求。”孟建熠认为。

模型深度优化为算力架构带来了全新可能。具体而言,一是MoE模型,以更低激活比达成更低的计算成本,并使模型的单机部署成为可能。二是稀疏计算与模型压缩技术,识别并跳过模型中不重要的计算节点(如权重接近零的部分节点),同时结合模型压信技术减少参数量。三是混合精度计算与量化技术,浮点计算转化为低精度计算(如INT8、FP8、FP16),同时保持模型精度。四是动态计算图优代技术,实时调整计算结构减少冗余计算。五是内存优化与数据流重构技术,减少内存访问延迟以及數掘传输开销。六是分布式计算与负载均衡技术,将大规模模型推理任务拆分到多个计算节点,并通过负载均衡技术优化任务分配。

DeepSeek的出现,推动行业更加关注底层硬件能力的适配。“在很长一段时间里,大家都喜欢喜欢‘大炮打蚊子’,当然这样是效率很高。但是今天我们有了一个新思路——可以用软硬件融合的视角来看待整个AI的发展。”孟建熠强调,算力、内存、互联之间原有的平衡发生了剧变,对于新的算力架构机会而言,大家再次进入同一起跑线。同时,开源大模型单机部署成为可能,进一步推动实际应用落地。

另一个趋势是大模型走向趋同,帮助算子收敛。值得关注的是,大(dà)模(mó)型(xíng)的(de)参数量和计算(suàn)量(liàng)巨(jù)大(dà),但(dàn)如(rú)今(jīn)算(suàn)子(zi)的(de)个(gè)数(shù)在(zài)逐(zhú)步(bù)收(shōu)敛(liǎn),主要(yào)以(yǐ)矩(ju)阵(zhèn)计(jì)算(suàn)为(wèi)中(zhōng)心(xīn),而(ér)且(qiě)通(tōng)过(guò)开(kāi)源(yuán)相(xiāng)互(hù)学(xué)习(xí)正(zhèng)在(zài)走(zǒu)向(xiàng)趋(qū)同(tóng)。

从云端协同的层面,DeepSeek帮(bāng)助(zhù)大(dà)模(mó)型(xíng)从(cóng)云走向端,由此也带来了几个变化:一是从算力瓶颈变为存储的带宽和容量瓶颈,容量瓶颈成为全量大模型最关键的因素,比如671B大模型。二是降低计算资源(yuán)需(xū)求(qiú),让(ràng)几T、几十T和几百T的算力成为可能。三是实现单机部署的可能,能够让开源模型被更多私有数据优化,形成私有解决方案。四是支持边缘设备,使得高性能AI应用能够在边缘设备上顺利运行。“大模型在云端的话(huà),实(shí)施(shī)成(chéng)本(běn)比(bǐ)较(jiào)高(gāo),只(zhǐ)有(yǒu)有(yǒu)限(xiàn)的(de)企(qǐ)业(yè)可(kě)能(néng)在(zài)部(bù)分(fēn)领(lǐng)域去(qù)应(yīng)用(yòng),而(ér)一(yī)旦(dàn)到(dào)了(le)端(duān)侧(cè),就(jiù)有(yǒu)大(dà)量(liàng)的(de)应(yīng)用(yòng)都(dōu)会(huì)发(fā)展(zhǎn)起(qǐ)来(lái)。”孟(mèng)建(jiàn)熠(yì)表(biǎo)示(shì)。

模型创新是算力架构的机会

当前算力基础是以GPU(CUDA)为代表的传统闭源硬件与生态,而DeepSeek、Llama、Grok等开源大模型不断涌现,给算力架构带来了新机会。当然,这个机会对所有架构都有效,并非(fēi)只(zhǐ)对(duì)RISC-V而(ér)言(yán)。如(rú)今(jīn),这(zhè)些(xiē)开(kāi)源(yuán)模(mó)型(xíng)正(zhèng)在(zài)吸(xī)引(yǐn)更(gèng)多(duō)算(suàn)力(lì)架(jià)构(gòu),包(bāo)括(kuò)X86、Arm这(zhè)样(yàng)的(de)传(chuán)统(tǒng)CPU架(jià)构(gòu),DSA、ASIC这(zhè)样(yàng)的(de)自(zì)研(yán)架(jià)构(gòu),以(yǐ)及(jí)以(yǐ)RISC-V为(wèi)代(dài)表(biǎo)的(de)开(kāi)源(yuán)架(jià)构(gòu)。“我(wǒ)们(men)都(dōu)在(zài)一(yī)个(gè)新(xīn)的(de)起(qǐ)点(diǎn)上(shàng),现(xiàn)在(zài)就(jiù)看(kàn)谁(shuí)能(néng)够(gòu)跑(pǎo)得(de)快(kuài)。”孟(mèng)建(jiàn)熠(yì)说(shuō)道。

作为三大主流指令集架构中最灵活、最开放的一个,RISC-V适应了AI时代的技术创新节奏。它在原生AI支持上,拥有开源与开放架构、更易实现的软硬件协同设计、更优的能效比,以及覆盖全球、不断成熟的生态。在孟建熠看来,“RISC-V架构+AI”是以AI原生成为架构创新的最终答案。随(suí)着(zhe)开(kāi)源(yuán)RISG-V架(jià)构(gòu)的(de)快(kuài)速(sù)发(fā)展(zhǎn),重(zhòng)新(xīn)自(zì)研(yán)架构已意义不大,以RISC-V为基础构建处理芯片是未来的主流。

RISC-V在AI领域具备很高的包容性,可以支持做CPU/DSA,也支持做GPU、多核产品或者近内存计算。“大家可以在硬件上不断创新,而生态上统一在(zài)RISC-V。尽(jǐn)管(guǎn)目(mù)前(qián)有(yǒu)不(bù)同(tóng)的(de)实(shí)践方案,但最终(zhōng)一(yī)定(dìng)会(huì)走(zǒu)向(xiàng)生(shēng)态(tài)统(tǒng)一(yī)。”孟(mèng)建(jiàn)熠(yì)表(biǎo)示(shì)。

RISC-V如(rú)何(hé)真(zhēn)正(zhèng)走(zǒu)出(chū)来(lái),是(shì)备(bèi)受(shòu)业(yè)界(jiè)关注(zhù)的(de)一(yī)个(gè)问(wèn)题(tí)。发(fā)展(zhǎn)至(zhì)今(jīn),RISC-V生(shēng)态(tài)已(yǐ)经(jīng)慢(màn)慢(màn)建(jiàn)立(lì)起(qǐ)来(lái),从(cóng)IoT等(děng)功(gōng)耗(hào)敏(mǐn)感(gǎn)型场景向服务器等高算力场景成长,从纯通用计算向AI计算与通用计算融合成长,其中已经有了一些标杆性产品。

打造标杆产品是RISC-V成长路径的关键环节。孟建熠指出,RISC-V发展中的一个新趋势是从“小标杆产品”向“大标杆产品”成长,引领软件生态加速配适,吸引产业资源加大倾斜。

实际上,国内外企业都在尝试打造RISC-V的标杆产品。比如,国内的达摩院2022年发布了基于玄铁C910 RISC-V核(hé)的(de)4核产品,推动了包括安卓在内的软件厂商加入RISC-V生态。国际上,Tenstorrent、Vantana和SiFive等企业也推出一些标杆产品。其中,Tenstorrent最新的RISC-V核“Ascalon”采用了CPU中少见的8-Wide指令集解码器设计。孟建熠认为,下一代RISC-V标杆产品在服务器场景、AI PC场景、AI场景有着一些关键指标。要真正从产业中走出来,性价比很重要。

“标准建设是RISC-V下阶段发展的重中之重。”孟建熠表示,国内产业需要在标准建设中尽快形成合力。目前,国际上在指令架构上的贡献明显高于国内,国内力量的参与度还不够。国内已经建立多个组织,都在进行相关的指令集的制定工作,需要联合起来统一到(dào)一(yī)个平台工作。另外,技术路线上要考虑相对集中,以AI为目标先做一轮国内制定标准的尝试。此(cǐ)外,计算原语是相类似,所以CPU、GPU、TPU在扩展上要形成一定的梯度,不能把指令集做成(chéng)很(hěn)多(duō)套并行大而全的扩展,这样生态无法形成。

友情链接 集成电路有限公司 - 芯片模拟器网站入口