您的当前位置:首页>科技咨询>资讯详情

DeepSeek发布Prover-V2模型 参数量达6710亿

发表于:2025-04-30 21:00:08 浏览:14次 发布者: 网易互联网

《科创板日报》30日讯,DeepSeek今日于AI开源社区Hugging Face上发布了一个名为DeepSeek-Prover-V2-671B的新模型。据悉,DeepSeek-Prover-V2-671B使用了更高效的safetensors文件格式,并支持多种计算精度,方便模型更快、更省资源地训练和部署,参数达6710亿,或为去年发布的Prover-V1.5数学模型升级版本。在模型架构上,该模型使用了DeepSeek-V3架构,采用MoE(混合专家)模式,具有61层Transformer层,7168维隐藏层。同时支持超长上下文,最大位置嵌入达16.38万,使其能处理复杂的数学证明,并且采用了FP8量化,可通过量化技术减小模型大小,提高推理效率。

猜你喜欢

阿里开源WebSailor网络智能体 机构称智能体经济
阿里开源WebSailor网络智能体 机构称智能体经济
发表于:2025-07-09 浏览:8 发布者: 网易互联网
当外卖成必需品市场 规范化可持续发展也成必然
当外卖成必需品市场 规范化可持续发展也成必然
发表于:2025-05-15 浏览:16 发布者: 网易互联网
DeepSeek-R1-0528更新官方详解:思考更深、推理
DeepSeek-R1-0528更新官方详解:思考更深、推理
发表于:2025-05-29 浏览:12 发布者: 网易互联网
饿了么:近1/4礼品晚间送达,手办、葡萄酒等品
饿了么:近1/4礼品晚间送达,手办、葡萄酒等品
发表于:2025-02-14 浏览:24 发布者: 网易互联网
学而思首发超级学习应用“随时问”,深度融合De
发表于:2025-02-14 浏览:20 发布者: 网易互联网
共1451家,最新版互联网新闻信息稿源单位名单发
共1451家,最新版互联网新闻信息稿源单位名单发
发表于:2025-07-03 浏览:7 发布者: 网易互联网
微信史诗级更新!“瘦身”功能来了,小内存用户
微信史诗级更新!“瘦身”功能来了,小内存用户
发表于:2025-03-05 浏览:19 发布者: 网易互联网
极兔速递二季度包裹量同比增长23.5%
极兔速递二季度包裹量同比增长23.5%
发表于:2025-07-08 浏览:7 发布者: 网易互联网
不想出钱了!微软不再是OpenAI独家云供应商
不想出钱了!微软不再是OpenAI独家云供应商
发表于:2025-01-22 浏览:26 发布者: 网易互联网
独家丨京东健康加码线下店
独家丨京东健康加码线下店
发表于:2025-01-09 浏览:35 发布者: 网易互联网