每经记者|王晶 每经编辑|马子卿 “昇腾算力到底能不能给大家底气和信心,有些人将信将疑,甚至认为昇腾训练不出先进的大模型。”华为专家开场的这句话,揭示出人们对国产AI(人工智能)算力的焦虑:在美国芯片禁令的阴影下,这支国产算力舰队究竟能否突破算力封锁、重构AI产业格局? 答案正随着盘古Pro MoE模型、盘古Ultra MoE模型、昇腾384超节点等各种实践的落地而变得清晰。 近日,记者从一位华为专家处获悉,华为发布的昇腾384超节点已经开始发货,这不仅是目前业界规模最大的超节点,更是一项技术突破:华为将384颗昇腾AI芯片连接在一起组成了集群,通过全对等高速互联的架构,基于系统工程的方法,对计算、内存、通信的极致优化调度,可提供高达300 PFLOPs的密集BF16算力,该性能表现接近英伟达GB200 NVL72系统的两倍。 这引出一个关键问题:在单芯片工艺暂时落后的情况下,昇腾是如何实现算力超越的? “集群”绝非简单的“芯片堆叠”,而是华为在极端压力下,以系统工程思维进行的一次“突围”。“华为内部有个算力会战,把华为云、模型、底座、芯片、硬件工程、基础软件的人集结在一起,深度协同。打造复杂、先进的超节点系统,需要通过这样的环境和机制,把华为几十年积累的‘大杂烩’的能力整合在一起。”华为专家说道。 几乎在昇腾加速研发的同时,美国对华芯片出口管制持续加码。今年4月,美国芯片制造商英伟达发布通知称,美国政府于4月9日告知,公司H20芯片出口到中国需要许可证,此后又于4月14日告知,这些规定将无限期实施。据悉,这一新规将影响英伟达共计约55亿美元的季度费用,涉及H20的库存、采购承诺和相关储备。 外部环境急剧收紧下,以昇腾为代表的国产算力正不断突破,其战略意义远超商业价值本身。 从被迫替代到主动选择,黄仁勋称“性能上超越了英伟达”人工智能的浪潮席卷全球,巨量的模型训练与实时推理需求对算力提出了前所未有的要求。在此领域,英伟达凭借其CUDA生态和强大的GPU(图形处理单元)单卡性能,长期占据统治地位,其最新的GB200 NVL72系统集成了72块Blackwell GPU,单柜算力惊人。 国产算力阵营中,昇腾无疑是具有实力的代表之一。 2018年10月,华为全联接大会正式发布首款采用华为自研达芬奇架构的AI芯片昇腾910与昇腾310。其中,昇腾310是SoC(系统级芯片)小芯片,和人们的手机芯片差不多,只有指甲盖那么大;昇腾910是大芯片,和人们的掌心差不多大,主要面向云端高性能计算。 2019年昇腾芯片正式投入商用,华为还推出了昇腾AI计算架构,包括昇腾处理器、昇腾AI加速模块和昇腾AI开发环境,初步形成AI计算解决方案。截至目前,昇腾计算产业已发展为包括昇腾系列芯片、硬件、CANN(异构计算架构)、AI计算框架、开发工具链等全产业链的体系。 不过,受限于先进制程的获取,单颗昇腾芯片的算力约为英伟达Blackwell GPU的三分之一。“过去客户用昇腾,并不认为昇腾很先进,有的是因为被美国断供,被迫用昇腾。”专家坦诚介绍的这个情况,事实上,也是中国算力突围最真实的起点。 转折正在发生。昇腾384超节点的发布与交付,标志着昇腾通过系统级创新实现了算力能效的跃迁,其意义正如英伟达CEO(首席执行官)黄仁勋所表达的,“从技术参数看,华为的CloudMatrix 384超节点,性能上超越了英伟达”。 华为专家透露,“目前,众多头部客户已经采购了昇腾,部分客户已将其投入核心大模型训练。并且在华为首次、密集披露围绕昇腾训练和推理的一系列技术白皮书后,更多的客户主动联系我们做技术交流。”为帮助客户用好昇腾,华为还组建了由中高级专家构成的“小灵巧突击队”,深入客户现场,为关键信息基础设施行业的客户提供支持,确保昇腾算力发挥最大价值。 硬件、软件、材料⋯⋯多重攻坚,打造基于中国标准的“爱马仕”然而,要让384张芯片协同作战,必须解决一些致命难题,比如通信传输、散热等。 当前,大模型发展呈现参数与效率交替演进的态势。一方面,Scaling Law(规模化法则)不断推动模型能力突破极限;另一方面,以DeepSeek(深度求索)为代表的创新架构与工程技术,正加速模型能力在千行万业的落地应用。 在此背景下,MoE(混合专家模型)成为主流模型结构,其复杂的混合并行策略带来巨大挑战,TP(张量并行)、SP(序列并行)、EP(专家并行)单次通信量高达GB级且难以掩盖。随着并行规模持续扩大,传统服务器跨机带宽已成为训练的核心阻碍,亟须计算架构的创新升级以适配未来模型发展。 传统服务器依赖以太网络实现跨机互联,通信带宽较低。实践表明,当TP、SP或EP等分布式策略的混合并行域超过8卡时,跨机通信带宽便成为性能瓶颈,导致系统性能大幅下降。 对此,华为昇腾超节点打破了以CPU为中心的冯诺依曼架构,而是建立了自有标准的“全对等互联架构”,凭借高速总线互联技术,把总线从服务器内部,扩展到整机柜,甚至跨机柜。 “西方是继承发展,任总(指华为创始人任正非)形象地比喻为‘百衲衣’,就是衣服破了以后不断地打补丁,协议不同,互通需要转换,有效载荷会变小。我们不会完全跟在西方标准的后面修修补补,我们内部重新定义了对等架构的互联总线,统一了所有的通信协议,提升了有效载荷,并且与外部可以是标准的接口互通,打造了基于中国标准的‘爱马仕’。”华为专家说道。 此外,为实现超大规模集群,华为还采用跨机架纵向扩展方案,并为此引入光通信技术。在昇腾384超节点中,共使用了3168根光纤和6912个400G光模块。光模块具有高带宽和高速率的优势,损耗低,适合更长距离传输。 除了硬件创新外,超高密度芯片集成也带来了散热难题。“大量的芯片堆到一起有巨大的热量,热散不掉系统就会瘫痪,我们超节点是用液冷散热,效率很高。针对一体机和不具备液冷条件的机房,也有高效的风冷散热方案。”华为专家说道。 他还强调:“热是一门科学,散热更是一门复杂的工程能力。散热首先要把热导出来,导热垫紧贴芯片的表面,其导热效率至关重要,核心是材料科学,我们设计了精妙的微结构材料,适合液态或气态,以实现更高效的热传导。” 技术突破的背后,是华为在基础研究上的积淀。据悉,大概10年前华为就在海外设立了研究所,专门研究热理论和热工程,而像这样的基础技术实验室,华为在全球有86个,并且还有8个材料实验室,这种“用数学补物理”“非摩尔补摩尔”“用系统补单点”等核心思想在业务所依赖的基础理论、材料、制备工艺、软件工具链等方面构建起系统工程创新的能力。 产业生态不是简单的“1+1”如果说硬件性能的突破是基础,那么繁荣的软件生态就是昇腾能否赢得开发者真心、支撑产业长期繁荣的关键。 科技公司决定将其系统从英伟达CUDA软件框架开发的训练代码移植到华为CANN(Compute Architecture for Neural Networks)平台,面临移植成本高、周期长、调试复杂等痛点。事实上,英伟达的CUDA系统像Windows一样成熟,全球90%的AI框架都基于它开发。 华为专家也坦言:“生态方面我们劣于英伟达CUDA。”但他表示,近两年情况有所好转。“业界的模型从各种各样的模型逐渐收敛到Transformer架构,以前的算子有几万个,加上衍生的算子有十万以上,而现在主流的模型聚焦到Transformer、Diffusion以后,核心的算子大概就几百个。” 华为快速补齐了高质量的基础算子,并向头部客户深度开放,客户可基于这些基础算子开发定制自己的算子和算法,并适配自己的模型和应用,大幅加速了模型适配进程。这次围绕昇腾的技术披露,既是开放高性能基础算子,也赋能昇腾客户如何高效开发他们需要的高性能算子。 当生态根基日益稳固,昇腾要把兼容性作为下一步重要的事情,使其在更广泛的场景得以应用。当前,许多企业采用“混合策略”:在英伟达平台上进行部分训练,同时将推理负载或增量训练迁移至昇腾平台。这种路径既降低迁移风险,又为国产替代积累经验。对此,昇腾也提供了Day0迁移和一键部署等工具链,支撑客户高效迁移到昇腾平台上。 用功耗换性能,构筑AI时代的核心竞争力客观来看,集群也面临诸如能耗、占比面积大等问题。昇腾384超节点在超越英伟达NVL72的同时,功耗也达到后者的4.1倍,每FLOP功耗高出2.5倍。 不过,功耗缺陷在国内并非限制性因素。资讯机构SemiAnalysis指出,过去十年间,西方致力于将主要依赖煤炭的电力基础设施转向更环保的天然气和可再生能源发电,并提高人均能源使用效率,而中国则因生活方式提升和持续大规模投资,面临巨大的发电需求。中国能源体系不仅有煤炭驱动,并且太阳能、水电、风电装机量均居全球首位,当前更在核电部署领域占据领先地位。因此,电力相对充裕而无需受限于能耗约束。 但同时,华为也关注到能耗是一个永久的问题。“未来是人工智能的时代,AI是最普遍的计算,将是无处不在的。我们会持续通过技术的进步,来改进能源的消耗,构筑AI时代的核心竞争力,实现可持续发展。”华为专家说道。 可以看到,在算力主权争夺的战场上,华为已经开辟了一条不同于西方的创新路径——不简单追求单点技术的路线,而是“以面积换能力、以堆叠增容量、以集群扩规模,通过超节点的系统工程创新,实现规模算力的领先和效能的最优。”这也是目前中国算力的现实突围路径。 事实上,昇腾384超节点的出现,不仅构建了英伟达之外的可靠第二选择,也打破了国产算力“无法训练大模型”的质疑。 封面图片来源:视觉中国-VCG211478193393 |