您的当前位置:首页>科技咨询>资讯详情

DeepSeek开源大餐来了!解锁H800,带飞GPU推理

发表于:2025-02-24 13:00:04 浏览:16次 发布者: 网易互联网


智东西
作者|程茜
编辑|心缘

智东西2月24日报道,刚刚,DeepSeek开源周第一天重磅更新来了,开源首个代码库——FlashMLA,发布一小时GitHub Star数冲上1700

FlashMLA指的是DeepSeek针对Hopper GPU的高效MLA解码内核,针对可变长度序列进行了优化,现已投入生产。目前已发布的内容包括:采用BF16,以及块大小为64的分页kvcache(键值缓存)


使用CUDA 12.6,在H800 SXM5上,其性能指标是:

3000 GB/s内存带宽(内存限制性能),支持快速数据访问和传输。

580 TFLOPS计算性能(计算约束性能),为AI工作负载提供高计算吞吐量。

这种优化可以确保FlashMLA在高性能硬件上有效地处理大语言模型和其他AI应用程序的密集计算需求

快速启动安装:


用法:


FlashMLA的使用基准为:Hopper GPU、CUDA 12.3及以上版本、PyTorch 2.0及以上版本

DeepSeek介绍称,FlashMLA受到FlashAttention 2&3CUTLASS项目的启发。

其中,FlashAttention是斯坦福联合纽约州立大学在22年6月份提出的一种具有IO感知,且兼具快速、内存高效的新型注意力算法;CUTLASS是由英伟达开发和维护的开源项目,CUTLASS提供了更高级别的灵活性和可配置性,允许用户自定义和优化矩阵运算的细节。

DeepSeek开源FlashMLA的推文发布不到一小时,就已经吸引了超10万人关注,上百条评论。


已有海外开发者第一时间研究起了FlashMLA的代码库,他感叹道:“真是纯粹的工程,太爱了!”


有一位英伟达股民跑到DeepSeek的评论区祈祷,希望DeepSeek能在不影响英伟达股价的前提下,让GPU更为高效。


更多海外网友已经迫不及待,开启了催更模式,有人让DeepSeek抓紧研发语音模式,也有人猜想第五天发布的开源产品会不会是AGI。



拉踩OpenAI已经成为DeepSeek评论区中的常见现象,这位网友就称,OpenAI应该干脆就把域名无偿捐赠给DeepSeek:


GitHub地址:https://github.com/deepseek-ai/FlashMLA

结语:DeepSeek开源周,后四弹蓄势待发

DeepSeek开源周开启,本周首个重磅发布FlashMLA瞬间点燃AI圈的热情。本周后续,DeepSeek还将开源四个代码库,或许会与AI算法优化、模型轻量化、应用场景拓展等相关,涵盖多个关键领域。

期待接下来的四场技术盛宴,向开源者们致敬。

猜你喜欢

沃尔玛全球电商在成都设点,深入产业带挖掘“四
沃尔玛全球电商在成都设点,深入产业带挖掘“四
发表于:2025-04-23 浏览:9 发布者: 网易互联网
月之暗面发布k1.5多模态思考模型
月之暗面发布k1.5多模态思考模型
发表于:2025-01-21 浏览:26 发布者: 网易互联网
阿里云在泰国启用第二座数据中心
阿里云在泰国启用第二座数据中心
发表于:2025-02-13 浏览:22 发布者: 网易互联网
外卖平台“二选一”?美团已辟谣 京东最新喊话
外卖平台“二选一”?美团已辟谣 京东最新喊话
发表于:2025-04-21 浏览:10 发布者: 网易互联网
京东家政业务计划今年拓展至100城
京东家政业务计划今年拓展至100城
发表于:2025-01-07 浏览:42 发布者: 网易互联网
正对着DeepSeek狂抄?Meta被曝整个AI部门深陷恐
正对着DeepSeek狂抄?Meta被曝整个AI部门深陷恐
发表于:2025-01-24 浏览:24 发布者: 网易科技
谷歌AR眼镜用的是中国芯 来自浦东这家黑马企业
谷歌AR眼镜用的是中国芯 来自浦东这家黑马企业
发表于:2025-05-21 浏览:5 发布者: 网易科技
新研究:电动汽车电池实际使用寿命可能比预期长
新研究:电动汽车电池实际使用寿命可能比预期长
发表于:2024-12-18 浏览:30 发布者: 网易IT
网友直呼今年618“手推波”!今晚8点正式开启
网友直呼今年618“手推波”!今晚8点正式开启
发表于:2025-05-16 浏览:9 发布者: 网易互联网
从内卷到破局:小红书启动运营服务商招募带来的
从内卷到破局:小红书启动运营服务商招募带来的
发表于:2025-02-25 浏览:15 发布者: 网易互联网