近日,深圳河套学院Al西宾平台花样团队,聚会哈尔滨工业大学(深圳)、深圳市大数据洽商院、华为关系团队,协同深智城AI算力平台,面向国产算力大模子西宾开展聚会攻关。依托昇腾910C国产AI算力集群,完成1.6万亿参数大模子DeepSeek-V4-Pro全参数后西宾。
这次实行动群众第三方机构在国产算力平台上完成该级别模子西宾的联系探索,鸠合了垂死素养,也印证了国产AI芯片可支合手寰宇级超大参数模子西宾责任。

优化建模SFT数据飞轮经由
万亿参数大模子是东说念主工智能范畴的主流前沿模子,在逻辑推理、数理筹划、代码编写、长文才调略等方面表现越过。这类模子的全参数西宾,对硬件算力、集群长远性、算法适配优化均有严苛条款。
长久以来,群众范围内万亿级大模子西宾多聘任国际高端算力居品,国内国产算力此前主要用于模子推理、小幅微调,难以完玉成参数深度西宾,这亦然行业发展中大批濒临的时间清苦。
万亿级参数的AI大模子西宾难在哪?
要是把西宾一个万亿级参数的AI大模子比作解一都超等复杂的数学题,那么每一张筹划卡就像别称解题员。他们不仅要单干明确、昼夜束缚地连轴转,还不成有东说念主偷懒、不成有东说念主出错,更不成有东说念主掉队。
这次西宾的DeepSeek-V4-Pro聘任的是搀杂大家模子(MoE)架构,不错把它想象成一个庞大的“大家团”:平素恢复问题只激活少数几位大家,看似高效,但后西宾时,“大家们”之间的疏导量却是粗俗模子的几十倍。再加上动态切换的把稳力机制,这对芯片算力的颐养和显存资源的经管提议了极其尖刻的条款。
粗陋来说,夙昔的国产算力更多是让大模子“能用”(即推理部署),就像给模子修了一条单行说念,输入一个问题,输出一个谜底。而这次的“全参数后西宾”,世界杯(中国)则是要让模子学会自我反想和诊疗,十分于在单行说念的基础上,又增多了复杂的立交桥和多条反映回路,筹划量和通讯量一会儿翻了好几倍。
三大硬核冲突让国产算力“跑得稳”
面对如斯极限的挑战,科研团队在国产AI算力集群上罢了了三大硬核冲突:
一是“显存拼图”。万亿级大模子不可能只塞进一张卡,团队假想了精密的散播式承载决策,把庞大的模子参数像拼图同样,精准地分派到千卡集群的每一张卡上,算力颐养清结拜白。
二是“负载平衡”。为了幸免MoE模子中有的“大家”忙得够呛、有的却在“闲荡”,团队成心优化了颐养计谋,保证了每位“大家”单干合理,跨卡通讯不再“堵车”。
三是“有东说念主‘守夜’”。全参数后西宾最怕跑着跑着系统骤然崩溃。本次西宾团队搭建了齐全的监控体系,全部罢了可视可控,确保了长达1500多步的西宾过程中,莫得出现一次中断或报错。

花样团队开展时间复盘与学生实战培养
本次探索是国产算力适配超大参数大模子过程中的一次垂死进展,有助于进步国内AI产业链自主化水平,裁汰行业应用资本,为东说念主工智能时间落地应用提供更多支合手。当今,花样已罢了模子算力哄骗率(MFU)跳动30%,关键西宾算子效果进步14%,各项主义均达到工业级初始尺度。
从时间应用角度来看,调用已有模子开展业务推理世界杯官网线上平台,与从零完成模子全参数西宾分属不同时间范例,二者在时间难度、硬件条款上存在彰着永别。本次检会限度标明,国产AI算力已可承担顶级大模子西宾任务,联系时间旅途具备可行性。