您的当前位置:首页>科技咨询>资讯详情

闪电快讯|开源周第二天,DeepSeek公开MoE架构

发表于:2025-02-25 17:00:05 浏览:21次 发布者: 网易互联网



记者|董温淑

编辑|高宇雷

2月25日上午,DeepSeek放出了其开源周中的第二个技术成果“DeepEP”。

掀起全球大模型浪潮的OpenAI曾在2024年举办过的开源周(OpenSourceWeek)活动做法,而DeepSeek自蛇年春节爆火后,也采取了类似做法。

2月21日,DeepSeek在其官方X账号宣布,计划在接下来一周中举办开源周活动,陆续开源5个代码库。

2月24日,针对NVIDIA Hopper GPU开发的MLA(Multi-head Latent Attention,多头潜在注意力)高效解码内核 “FlashMLA”在开源周中打了头阵。

简而言之,FlashMLA是DeepSeek专门针对NVIDIA Hopper系列高端加速卡(H800)所做的深度优化;而25日最新亮相的DeepEP,是一款专为混合专家模型(MoE)训练推理过程中采用专家并行策略(Expert Parallel ,EP)所设计的通信库。

MoE架构的核心思想是将一个复杂的问题分解、分类成多个更小、更易于管理的子问题,并由不同的专家网络分别处理,不同的专家网络所擅长处理的问题不同,以此节省计算成本,最终再将所有专家的输出结果汇总。这也是GPT-4等模型采用的设计方法。然而,MoE架构中核心的专家并行、不同专家网络之间同步参数等步骤,则会引来更高的通信成本。

EP策略本质上即是把MoE架构下的各个“专家”子模型部署到不同的GPU或计算节点上,让它们可以独立地运算、进行前向和反向传播。

根据公开信息,本次开源的DeepEP可以实现高效且优化的全对全通信,支持包括FP8在内的低精度运算,适配现代高性能计算需求。

同时,DeepEP针对NVLink到RDMA的非对称带宽转发场景进行了深度优化,不仅提供了高吞吐量,还支持SM(Streaming Multiprocessors)数量控制,兼顾训练和推理任务的高吞吐量表现。

相较其他竞品,DeepSeek-V3和R1模型的一大特点是在保证性能的前提下训练成本极低。

按每 GPU 小时 2 美元的价格计算,DeepSeek-V3 的整体训练成本约为 557.6 万美元。而Claude 3.5 Sonnet训练成本在数千万美元,GPT-4 的训练成本则大约为7800 万美元。

本次DeepSeek开源的两大代码库,都体现了其节省训练成本的独特思路。接下来,还有三项技术成果等待公布。

猜你喜欢

菜鸟CTO李强:着眼全球市场,加快菜鸟物流技术
菜鸟CTO李强:着眼全球市场,加快菜鸟物流技术
发表于:2025-02-22 浏览:22 发布者: 网易互联网
怎样的元宇宙才能引领“数字未来”? 盘和林:
怎样的元宇宙才能引领“数字未来”? 盘和林:
发表于:2025-07-10 浏览:8 发布者: 网易科技
亚马逊计划在美国佐治亚州投资约110亿美元扩大
亚马逊计划在美国佐治亚州投资约110亿美元扩大
发表于:2025-01-08 浏览:37 发布者: 网易互联网
「AI新世代」涨幅最高达400%!DeepSeek涨价背后
「AI新世代」涨幅最高达400%!DeepSeek涨价背后
发表于:2025-02-12 浏览:27 发布者: 网易互联网
网红带货降温,专业主播登台
网红带货降温,专业主播登台
发表于:2024-11-08 浏览:53 发布者: 微资讯
中国厂商重塑全球高端电视市场
中国厂商重塑全球高端电视市场
发表于:2024-11-24 浏览:33 发布者: 环球网
云营收狂飙,阿里重金砸向AI
云营收狂飙,阿里重金砸向AI
发表于:2025-02-25 浏览:25 发布者: 网易互联网
自动驾驶汽车遭肆意纵火 谷歌Waymo暂停洛杉矶市
自动驾驶汽车遭肆意纵火 谷歌Waymo暂停洛杉矶市
发表于:2025-06-10 浏览:11 发布者: 网易互联网
动真格!美团广西启动新一轮试点 “外卖骑手超
动真格!美团广西启动新一轮试点 “外卖骑手超
发表于:2025-02-15 浏览:28 发布者: 网易互联网
被大量侵权!胖东来发文求助 律师:冒用商标构
被大量侵权!胖东来发文求助 律师:冒用商标构
发表于:2024-12-18 浏览:35 发布者: 网易互联网