刘聪2026最新动态(比DeepSeek更快?科大讯飞研究院院长:我们在国产算力上完成模型训练)

大家好,今天小编来为大家解答刘聪2026最新动态这个问题,刘聪2026最新动态很多人还不知道,现在让我们一起来看看吧!

此前,DeepSeek-V4在技术报告中表示,在英伟达GPU和华为昇腾NPU两个平台上均验证了细粒度 EP(专家并行)方案。根据DeepSeek官网,下半年昇腾950超节点批量上市有望继续推动DeepSeek-V4 Pro降价。

值得注意的是,科大讯飞在算力国产化进程上,似乎走得比DeepSeek更快。刘聪表示,DSA稀疏注意力与MTP(多token预测)结合的长文本高效训练,目前只有科大讯飞能够在国产算力上完成。

业绩层面,科大讯飞2025年实现营收271.05亿元,同比增长16.12%;归母净利润8.39亿元,同比增长49.85%。进入2026年,一季度营收52.74亿元,同比增长13.23%;归母净利润仍亏损1.7亿元,但较上年同期的1.93亿元亏损有所收窄。

全国产算力训练难度大

相比推理环节,模型训练对底层算力体系的要求更为严苛:不仅涉及更高的计算复杂度,还对算子覆盖与精度、工程调度效率,以及万卡级集群的互联稳定性提出系统性挑战。

目前,行业中更常见的路径仍是“英伟达训练 + 国产芯片推理”的折中方案。在训练阶段依赖成熟生态保证效率,在推理侧以国产芯片压低Token成本。

硬件差距直接体现在训练难度上。以昇腾910B与英伟达H200为例,前者显存容量约64GB,明显低于后者的141GB;带宽方面,910B约1.6TB/s,也低于H200的4.8TB/s。

刘聪指出,这些差异导致在新模型训练过程中遇到很大困难,有的是由于算子差异和模型分布式策略,造成训练推理精度一致性对齐的难题;有的是一致性对齐但训练效率很低导致难以训练,例如在智能体强化学习训练阶段的采样推理操作效率,因为910B的通信机制设计导致显著低于H200。

在这一背景下,全栈国产化训练更接近一项系统工程,而非简单替换芯片。

事实上,科大讯飞与华为昇腾的合作可追溯至2023年。当年,华为徐直军在1024全球开发者节宣布,科大讯飞联合华为正式发布基于昇腾生态的“飞星一号”平台,尝试打通从底层算力到大模型再到应用开发的完整链路。科大讯飞董事长刘庆峰也表示,在华为派出专门工作组在讯飞成立专班工作优化的背景下,华为GPU可对标英伟达A100。

但这一路径并非没有代价。由于底层生态尚未成熟,讯飞早期模型效果一度受到影响。刘庆峰在2023年曾表示,“假如我们现在不是用国产平台,而是用已经成型的英伟达平台,那么发布的星火3.0的效果可能还会更好,但这一步非走不可。”

时间成本是更现实的约束。刘庆峰在最新业绩说明会上表示,当国际主流算法出来之后,如在英伟达卡上直接就可以做,但在国产卡上需要额外解决算子库效率优化等一系列问题,需要额外3-6个月的适配周期。

但反过来看,适配的过程也在积累壁垒。长期的适配与调优,科大讯飞发现并解决了许多底层bug,刘庆峰认为,这种能力已开始转化为商业竞争力。在央国企招投标中,其星火大模型获得了较高市场份额。

随着训练侧逐步向国产算力迁移,头部互联网公司也开始转向。

模型侧的变化,与硬件迭代形成同步。

2026年3月,华为发布昇腾950PR芯片。据介绍,其单卡算力较英伟达对华特供版H20提升约2.87倍,但与更高端的H200仍存在差距。此外,华为计划于2026年第四季度推出Atlas 950 SuperPoD超节点,单集群规模达到8192卡,试图在集群级能力上缩小差距。

对模型厂商而言,硬件代际变化意味着策略空间的扩大。科大讯飞方面表示,当前已经与华为团队针对950芯片进行深度对接,在昇腾950平台上联合攻坚更高效模型结构、混合Attention机制、智能体强化学习等关键技术。

因为950系列相对于910系列的显存、带宽算力等方面都有较大提升,科大讯飞预计,当前的算法迁移过去之后可以很大加速训练流程。公司有望在今年1024开发者节上,基于昇腾950平台发布对标国际主流先进水平的旗舰模型。

相关信息就介绍到这里,刘聪2026最新动态的问题希望对你有所帮助。

未经本网站书面授权,任何单位或个人不得擅自复制、转载、摘编、修改、传播、展示、引用本网站原创内容,不得用于商业用途。如需合法使用,须提前联系本网站获得授权,并注明来源为“创汇资讯网(cvqjhh.cn)”,同时完整保留原文版权信息。

本文链接:https://sd.cvqjhh.cn/cvtt/6574.html

发表评论

评论列表

还没有评论,快来说点什么吧~