您的当前位置:首页>科技咨询>资讯详情

DeepSeek开源第四弹来了!梁文锋参与研发

发表于:2025-02-27 17:00:14 浏览:25次 发布者: 网易互联网

2025.02.27


本文字数:1709,阅读时长大约3分钟

导读:通过这些分享可以清晰了解DeepSeek是如何最大限度利用GPU能力的。

作者 |第一财经 刘晓洁

2月27日,DeepSeek开源周(OpenSourceWeek)第四弹来了,DeepSeek在X上宣布这次开源的是三项优化并行策略,并在Github上详细展开了DeepSeek-V3和R1模型背后的并行计算优化技术,通过这些阐述可以清晰了解团队是如何精细地优化计算和通信,最大限度利用GPU能力的。


这三项优化并行策略其中包括DualPipe,这是一种用于V3/R1模型训练中计算与通信重叠的双向流水线并行算法,这种算法能够完全重叠前向和后向计算通信阶段,与传统方法相比减少了“流水线气泡”(设备在某些时刻的空闲等待)。在DualPipe的开发团队署名中,包括创始人梁文锋

优化并行策略第二项是EPLB(Expert Parallelism Load Balancer,专家并行负载均衡器),它针对V3/R1模型,解决MoE(混合专家)模型在分布式训练和推理中的负载不平衡问题。

当使用专家并行(EP)时,不同的专家被分配到不同的GPU。由于不同专家的负载可能会根据当前的工作负载而变化,因此保持不同GPU的负载平衡非常重要。DeepSeek曾在V3论文中提到,团队采用冗余专家策略来重复重载专家,他们创新地将重复的专家打包到GPU上,以确保不同GPU之间的负载平衡。

在第三部分,DeepSeek直接分享了来自训练和推理框架的性能分析数据,以帮助社区更好地了解通信计算重叠策略和低级实现细节。这些数据是用PyTorch Profiler采集的,下载后可以直接在Chrome或Edge浏览器中打开,进行可视化分析,DeepSeek还模拟了绝对平衡的MoE 路由策略用于性能分析。

DeepSeek这四天的发布都与Infra层的算法有关,分享团队最大限度利用GPU能力的技术细节。大模型生态社区OpenCSG(开放传神)创始人陈冉此前对第一财经举例表示,“相当于以前DeepSeek是直接给一辆车,告诉大家这辆车续航900公里,但是现在DeepSeek在深挖,用什么方式能够开到900公里。”DeepSeek的模型为什么能够实现较好的效果,对应有一些算法和相应的框架,而这些“脚手架”的开源有利于之后的生态搭建。

陈冉判断,DeepSeek的代码开源或许会影响一批做AI Infra层的从业者,“AI Infra层的人要找新的方向。”但他同时表示,这种开源是一把双刃剑,如果能将DeepSeek开源的内容用好可能也会得利,“用不好就被冲击”。

此前三日,DeepSeek陆续开源了让大模型在GPU上跑得更快的MLA解码核FlashMLA,用于MoE模型训练和推理的DeepEP通信库,以及可支持MoE的FP8 GEMM代码库DeepGEMM。

从GitHub上获得的星标来看,这些项目颇受欢迎,截至发稿,FlashMLA已在GitHub获得超过1万星标,DeepEP的星标已有6000,DeepGEMM目前超过3700,最新发布的DualPipe星标超过700。

就在昨日,DeepSeek还在海内外同时宣布了API错峰优惠,自2月26日起,北京时间每日00:30至08:30的夜间空闲时段,API调用价格大幅下调:DeepSeek-V3降至原价50%,DeepSeek-R1更低至25%。DeepSeek鼓励用户充分利用这一时段,享受更经济更流畅的服务体验。

另外,也有消息称,DeepSeek正寻求巩固自身优势,尽早推出R2模型,消息提到DeepSeek原本计划在5月初发布R2模型,目前会加快这一速度。DeepSeek目前并未对此回应。

此前DeepSeek在R1论文中提到,R1 的性能将在下一个版本得到改善,因为相关的RL(强化学习)训练数据还很少。随着RL数据的增加,模型解决复杂推理任务的能力持续稳定提升,且会自然涌现出一些复杂行为能力。

业界认为,DeepSeek-R2的发布可能是AI行业的一个关键节点。

微信编辑| 生产队的驴(拉磨版)

猜你喜欢

超过6000万人在淘宝许下新年愿望
超过6000万人在淘宝许下新年愿望
发表于:2025-01-23 浏览:21 发布者: 网易互联网
2025跨境新生代③丨速卖通要做本土品牌“出海经
2025跨境新生代③丨速卖通要做本土品牌“出海经
发表于:2025-03-14 浏览:21 发布者: 网易互联网
移远通信:AI+AR眼镜业务已实现量产
移远通信:AI+AR眼镜业务已实现量产
发表于:2024-12-20 浏览:34 发布者: 网易科技
暑期消费多元繁荣,顺丰同城全场景即配彰显服务
暑期消费多元繁荣,顺丰同城全场景即配彰显服务
发表于:2025-07-12 浏览:8 发布者: 网易互联网
机构预计我国公共电动汽车充电桩今年将达到360万个 占全球近7成
机构预计我国公共电动汽车充电桩今年将达到360万个 占全球近7成
发表于:2024-11-22 浏览:40 发布者: TechWeb
定义下一代广告规则?谷歌详解“AI模式”如何商
定义下一代广告规则?谷歌详解“AI模式”如何商
发表于:2025-05-22 浏览:19 发布者: 网易IT
专家模型不要专家并行!微软开源MoE新路径
专家模型不要专家并行!微软开源MoE新路径
发表于:2024-11-11 浏览:54 发布者: 网易互联网
独家|B站小店上线,闯出电商新天地?
独家|B站小店上线,闯出电商新天地?
发表于:2025-01-22 浏览:31 发布者: 网易互联网
分析师:中国内地企业明年在美国和香港IPO数量
分析师:中国内地企业明年在美国和香港IPO数量
发表于:2024-10-30 浏览:55 发布者: 网易IT
余承东,来抖音抢雷军的车圈网红一哥
余承东,来抖音抢雷军的车圈网红一哥
发表于:2024-12-23 浏览:39 发布者: 网易互联网