您的当前位置:首页>科技咨询>资讯详情

DeepSeek“开源周”,连续掏出两大核心武器

发表于:2025-02-25 13:00:12 浏览:18次 发布者: 网易互联网

今天是DeepSeek“开源周”第二日,DeepSeek宣布开源DeepEP,第一个用于MoE模型训练和推理的开源EP通信库。

昨天,DeepSeek则开源了代码库Flash MLA,这是针对Hopper GPU优化的高效MLA解码内核,针对可变长度序列作了优化。

MoE(混合专家架构)和MLA(多头潜在注意力机制)被认为是DeepSeek以低成本实现杰出表现的核心原因。

简单理解,MoE架构是由多个专注于垂直技能的专家模型分工协作来实现最终输出结果,训练成本和推理成本更低。有消息称,GPT-4就使用了MoE架构,由8个220B模型组成。但MoE架构的缺点之一是会增加通信成本。

DeepEP通信库就是针对通信环节的优化,其特点包括:高效、优化的全员沟通;节点内和节点间均支持 NVLink 和 RDMA;用于训练和推理预填充的高吞吐量内核;用于推理解码的低延迟内核;原生 FP8 调度支持;灵活的 GPU 资源控制,实现计算-通信重叠。

MLA则是让模型预测更远位置的token,从而增强语义理解能力。DeepSeek的Flash MLA专为英伟达Hopper GPU打造了高效MLA解码内核,特别针对变长序列进行了优化。

本文系观察者网独家稿件,未经授权,不得转载。

猜你喜欢

希音、Temu告知美国消费者4月25日起涨价
希音、Temu告知美国消费者4月25日起涨价
发表于:2025-04-18 浏览:9 发布者: 网易互联网
“如果微信出了已读功能”引热议 腾讯张军微博
“如果微信出了已读功能”引热议 腾讯张军微博
发表于:2025-05-30 浏览:9 发布者: 网易互联网
被曝逼商家“选边站”,亚马逊急了?
被曝逼商家“选边站”,亚马逊急了?
发表于:2024-12-26 浏览:25 发布者: 网易互联网
长视频为什么在广告市场上节节败退?
长视频为什么在广告市场上节节败退?
发表于:2024-11-09 浏览:54 发布者: 网易互联网
机构:“双11”出境游活动商品销量占比同比增长
机构:“双11”出境游活动商品销量占比同比增长
发表于:2024-11-12 浏览:50 发布者: 网易互联网
B站连续六年举办毕业歌会
B站连续六年举办毕业歌会
发表于:2025-06-06 浏览:2 发布者: 网易互联网
《移动互联网未成年人模式建设指南》发布
《移动互联网未成年人模式建设指南》发布
发表于:2024-11-16 浏览:32 发布者: 网易互联网
蚂蚁集团第二季净利75亿 给阿里贡献近25亿投资收益
蚂蚁集团第二季净利75亿 给阿里贡献近25亿投资收益
发表于:2024-11-19 浏览:52 发布者: 雷递网
DeepSeek开源周第二日:开源EP通信库
DeepSeek开源周第二日:开源EP通信库
发表于:2025-02-25 浏览:15 发布者: 网易互联网
罗永浩直播间卖“资源机”:称买二手是年轻人更
罗永浩直播间卖“资源机”:称买二手是年轻人更
发表于:2025-05-26 浏览:7 发布者: 网易互联网