闪电快讯｜开源周第二天，DeepSeek公开MoE架构

发表于：2025-02-25 17:00:05 浏览：24次发布者：网易互联网

记者｜董温淑

编辑｜高宇雷

2月25日上午，DeepSeek放出了其开源周中的第二个技术成果“DeepEP”。

掀起全球大模型浪潮的OpenAI曾在2024年举办过的开源周（OpenSourceWeek）活动做法，而DeepSeek自蛇年春节爆火后，也采取了类似做法。

2月21日，DeepSeek在其官方X账号宣布，计划在接下来一周中举办开源周活动，陆续开源5个代码库。

2月24日，针对NVIDIA Hopper GPU开发的MLA（Multi-head Latent Attention，多头潜在注意力）高效解码内核 “FlashMLA”在开源周中打了头阵。

简而言之，FlashMLA是DeepSeek专门针对NVIDIA Hopper系列高端加速卡（H800）所做的深度优化；而25日最新亮相的DeepEP，是一款专为混合专家模型（MoE）训练推理过程中采用专家并行策略（Expert Parallel ，EP）所设计的通信库。

MoE架构的核心思想是将一个复杂的问题分解、分类成多个更小、更易于管理的子问题，并由不同的专家网络分别处理，不同的专家网络所擅长处理的问题不同，以此节省计算成本，最终再将所有专家的输出结果汇总。这也是GPT-4等模型采用的设计方法。然而，MoE架构中核心的专家并行、不同专家网络之间同步参数等步骤，则会引来更高的通信成本。

EP策略本质上即是把MoE架构下的各个“专家”子模型部署到不同的GPU或计算节点上，让它们可以独立地运算、进行前向和反向传播。

根据公开信息，本次开源的DeepEP可以实现高效且优化的全对全通信，支持包括FP8在内的低精度运算，适配现代高性能计算需求。

同时，DeepEP针对NVLink到RDMA的非对称带宽转发场景进行了深度优化，不仅提供了高吞吐量，还支持SM（Streaming Multiprocessors）数量控制，兼顾训练和推理任务的高吞吐量表现。

相较其他竞品，DeepSeek-V3和R1模型的一大特点是在保证性能的前提下训练成本极低。

按每 GPU 小时 2 美元的价格计算，DeepSeek-V3 的整体训练成本约为 557.6 万美元。而Claude 3.5 Sonnet训练成本在数千万美元，GPT-4 的训练成本则大约为7800 万美元。

本次DeepSeek开源的两大代码库，都体现了其节省训练成本的独特思路。接下来，还有三项技术成果等待公布。

闪电快讯｜开源周第二天，DeepSeek公开MoE架构

猜你喜欢