您的当前位置:首页>科技咨询>资讯详情

闪电快讯|开源周第二天,DeepSeek公开MoE架构

发表于:2025-02-25 17:00:05 浏览:22次 发布者: 网易互联网



记者|董温淑

编辑|高宇雷

2月25日上午,DeepSeek放出了其开源周中的第二个技术成果“DeepEP”。

掀起全球大模型浪潮的OpenAI曾在2024年举办过的开源周(OpenSourceWeek)活动做法,而DeepSeek自蛇年春节爆火后,也采取了类似做法。

2月21日,DeepSeek在其官方X账号宣布,计划在接下来一周中举办开源周活动,陆续开源5个代码库。

2月24日,针对NVIDIA Hopper GPU开发的MLA(Multi-head Latent Attention,多头潜在注意力)高效解码内核 “FlashMLA”在开源周中打了头阵。

简而言之,FlashMLA是DeepSeek专门针对NVIDIA Hopper系列高端加速卡(H800)所做的深度优化;而25日最新亮相的DeepEP,是一款专为混合专家模型(MoE)训练推理过程中采用专家并行策略(Expert Parallel ,EP)所设计的通信库。

MoE架构的核心思想是将一个复杂的问题分解、分类成多个更小、更易于管理的子问题,并由不同的专家网络分别处理,不同的专家网络所擅长处理的问题不同,以此节省计算成本,最终再将所有专家的输出结果汇总。这也是GPT-4等模型采用的设计方法。然而,MoE架构中核心的专家并行、不同专家网络之间同步参数等步骤,则会引来更高的通信成本。

EP策略本质上即是把MoE架构下的各个“专家”子模型部署到不同的GPU或计算节点上,让它们可以独立地运算、进行前向和反向传播。

根据公开信息,本次开源的DeepEP可以实现高效且优化的全对全通信,支持包括FP8在内的低精度运算,适配现代高性能计算需求。

同时,DeepEP针对NVLink到RDMA的非对称带宽转发场景进行了深度优化,不仅提供了高吞吐量,还支持SM(Streaming Multiprocessors)数量控制,兼顾训练和推理任务的高吞吐量表现。

相较其他竞品,DeepSeek-V3和R1模型的一大特点是在保证性能的前提下训练成本极低。

按每 GPU 小时 2 美元的价格计算,DeepSeek-V3 的整体训练成本约为 557.6 万美元。而Claude 3.5 Sonnet训练成本在数千万美元,GPT-4 的训练成本则大约为7800 万美元。

本次DeepSeek开源的两大代码库,都体现了其节省训练成本的独特思路。接下来,还有三项技术成果等待公布。

猜你喜欢

奥迪上汽携手发布全新品牌AUDI 首款概念车正式发布
奥迪上汽携手发布全新品牌AUDI 首款概念车正式发布
发表于:2024-11-09 浏览:43 发布者: CNMO
电商之外,618的“暗战”
电商之外,618的“暗战”
发表于:2025-06-12 浏览:10 发布者: 网易互联网
亚马逊(AMZN.US)或将收购Lyft(LYFT.US) 未来能
亚马逊(AMZN.US)或将收购Lyft(LYFT.US) 未来能
发表于:2025-01-03 浏览:38 发布者: 网易互联网
中航工业 AR-500C 大型无人直升机救援平台交付
中航工业 AR-500C 大型无人直升机救援平台交付
发表于:2024-12-23 浏览:32 发布者: 网易科技
618 收官观察:李佳琦直播间六成销量为国货,多
618 收官观察:李佳琦直播间六成销量为国货,多
发表于:2025-06-20 浏览:7 发布者: 网易互联网
京东,换一种方式做低价
京东,换一种方式做低价
发表于:2024-11-07 浏览:43 发布者: 网易互联网
百度App内测极简版:一级页面隐藏Feed流
百度App内测极简版:一级页面隐藏Feed流
发表于:2025-01-03 浏览:36 发布者: 网易互联网
确认!微信测试接入DeepSeek
确认!微信测试接入DeepSeek
发表于:2025-02-16 浏览:24 发布者: 网易互联网
IBM和Hugging Face联合开源多模态小模型SmolDoc
IBM和Hugging Face联合开源多模态小模型SmolDoc
发表于:2025-03-20 浏览:22 发布者: 网易互联网
月活破亿,同比增长1045.9%!红果短剧大力出奇
月活破亿,同比增长1045.9%!红果短剧大力出奇
发表于:2024-11-06 浏览:91 发布者: 网易互联网