您的当前位置:首页>科技咨询>资讯详情

DeepSeek小版本大升级,新R1模型代码能力媲美Op

发表于:2025-05-29 13:00:04 浏览:6次 发布者: 网易互联网

5月28日晚,第一财经记者获悉,DeepSeek小助手在官方交流群中通知,DeepSeek R1模型已完成小版本试升级,紧接着就在29日凌晨,官方在开源平台HuggingFace上发布了DeepSeek-R1-0528。

目前官方还未更新模型卡以及公告介绍,但不少开发者已经第一时间进行了测试,发现这个“小版本升级”并不小,海外开发者感慨“一如既往的DeepSeek低调风格”。

众多测试发现,DeepSeek-R1-0528目前提升最为明显的是代码能力,在代码测试平台Live CodeBench中,其性能几乎媲美OpenAI重量级的o3-high模型。


有开发者表示,这是“开源的巨大胜利”。

不过,或许受限于测试的速率限制,目前开发者群体中公认编程能力最强的Claude-4系列模型并不在测试榜单中。

AI博主同时也是KCORES开源硬件项目联合创始人@karminski-牙医进行了个人的测试,基于最新的DeepSeek-R1模型和Claude-4-Sonnet进行测试,测试内容是用一个橙色小球撞击物体,从效果显示,平面的橙色漫反射、 撞击效果方面是R1模型更好。


但有开发者对第一财经表示,这类能力看个例是不准的,或许要等评测榜单和一个月后的口碑见分晓。

除了代码能力,有开发者总结了DeepSeek这次更新其他亮点,包括改进了写作任务,更自然、格式更好。也有用户反映,用最新模型写作正常很多,没有强烈的“量子力学元素”了。

@karminski-牙医同时对最新模型进行了文本召回测试,发现在上下文32K以内比之前的R1模型要好不少,但是在60K的上下文中效果下降了不少。这意味着在32K以内针对给定的材料使用新R1模型提问,回答的准确度会更好。

在RI这次“小版本试升级”后,有海外网友表示,如果这是R1,那么R2会有多好?DeepSeek官方针对此前的V3模型和R1模型都做了一次迭代,但仍未放出大家期待的R2模型的消息。

此前3月,DeepSeek也是在hugging face默默上新DeepSeek-V3-0324迭代版本模型,DeepSeek介绍,新版V3模型借鉴R1模型训练过程中所使用的强化学习技术,大幅提高了在推理类任务上的表现水平,此外在前端开发、中文写作等方面进行了能力优化。

有业内人士猜测,是否模型架构不更新,只是增加或调整了训练数据,DeepSeek就不将更新定义为大版本升级,而业内其他模型给出明显的版本号迭代则是一种品牌营销需求。目前DeepSeek并未对此进行任何解释。

除了上述模型能力,开发者也希望未来DeepSeek R2若进行升级能大幅提升上下文长度,以及增加多模态的能力,毕竟这两个方面的能力对于生产使用很重要。

猜你喜欢

亚马逊AGS大调整背后:越南何以成为东南亚业务
亚马逊AGS大调整背后:越南何以成为东南亚业务
发表于:2025-03-06 浏览:12 发布者: 网易互联网
红极一时的聚美优品“凉凉”,留下一地烂摊子 | BUG
红极一时的聚美优品“凉凉”,留下一地烂摊子 | BUG
发表于:2024-11-06 浏览:42 发布者: 新浪科技
Find X8系列防护能力极佳,全系IP68防尘防水
Find X8系列防护能力极佳,全系IP68防尘防水
发表于:2024-10-26 浏览:46 发布者: PChome
言短意长|All in Ai?百度不如All in User
言短意长|All in Ai?百度不如All in User
发表于:2025-03-23 浏览:14 发布者: 网易互联网
所谓推荐算法“有罪论”,是真相还是背锅?
所谓推荐算法“有罪论”,是真相还是背锅?
发表于:2025-04-18 浏览:9 发布者: 网易互联网
美国邮政停收中国内地和中国香港包裹,跨境商家
美国邮政停收中国内地和中国香港包裹,跨境商家
发表于:2025-02-05 浏览:24 发布者: 网易互联网
三博主网络一兵、小蒜苗长、饭团先生在开车被禁
三博主网络一兵、小蒜苗长、饭团先生在开车被禁
发表于:2025-05-21 浏览:7 发布者: 网易互联网
搭车DeepSeek 腾讯C端发力
搭车DeepSeek 腾讯C端发力
发表于:2025-02-18 浏览:17 发布者: 网易互联网
跨境电商“搭台” 湖南特色产业寻路全球市场
跨境电商“搭台” 湖南特色产业寻路全球市场
发表于:2025-03-06 浏览:14 发布者: 网易互联网
斯纳普申请用于AR可穿戴设备的受语音控制的UI专
斯纳普申请用于AR可穿戴设备的受语音控制的UI专
发表于:2025-04-29 浏览:9 发布者: 网易科技