您的当前位置:首页>科技咨询>资讯详情

DeepSeek“偷偷”发布新版本,最新测评来了

发表于:2025-03-25 15:00:16 浏览:19次 发布者: 网易互联网

(文/张广凯 编辑/吕栋)

昨晚,DeepSeek 以非常低调的方式,带来了最新版本的大模型 V3-0324。


没有官方新闻稿,没有技术报告,甚至在Hugging Face上传的最初文件中,连README文档都是空的,看上去,这只是V3模型的一次版本升级。

不过由于DeepSeek自带的极高话题性,这次版本升级还是引发了大量讨论和测评,并且果然没有令人失望——很多专业人士都指出,V3-0324模型在编程能力上有了显著提升。

在大模型编程能力测试Aider LLM中,V3-0324的多语言基准测试得分为55%,相较于此前版本不到50%的水平有明显进步,并且超越了OpenAI的o3-mini,接近于自家的R1,但仍然稍稍落后于以编程见长的Claude 3.7 sonnet。


考虑到V3-0324并非推理模型,能够在编程能力上接近R1,算得上是自身短板的精准补强。

另一位博主Xeophon自建的测试集上,V3-0324在综合能力上超越了Claude 3.5 sonnet,排在它身前的DeepSeek R1,o3-mini和阿里通义的qwq-32b则都是推理模型。


知名的大模型竞技场Chatbot Arena也已经开始将V3-0324纳入测试,但还具体成绩还要等待几天时间。

在目前的Chatbot Arena排行榜上,GPT-4.5-Preview和Grok-3-Preview-02-24并列排在榜首,而DeepSeek R1则排在第6位。


随着今年以来OpenAI推出最后一代非推理模型GPT-4.5,以及推理模型o3的升级,再加上Grok、Claude和Gemini等模型的持续迭代,外界对于DeepSeek何时能够再次升级也有了更高期待。

此前路透社消息称,DeepSeek下一代推理模型R2可能会比预期的5月更早发布。

考虑到DeepSeek R1是以V3作为基础模型训练而来,此次V3-0324的亮相,或许也意味着R2愈发临近了。

本文系观察者网独家稿件,未经授权,不得转载。

猜你喜欢

全国“丝路云品”电商周启动,推动伙伴国共享中
全国“丝路云品”电商周启动,推动伙伴国共享中
发表于:2024-11-07 浏览:41 发布者: 网易互联网
OpenAI升级其推理模型o3-mini思维链
OpenAI升级其推理模型o3-mini思维链
发表于:2025-02-07 浏览:22 发布者: 网易互联网
京东补贴100亿扶持1万家产业带工厂 京喜自营全
京东补贴100亿扶持1万家产业带工厂 京喜自营全
发表于:2024-11-09 浏览:49 发布者: 网易互联网
美团将建立算法公开机制,骑手“超时扣款”将逐
美团将建立算法公开机制,骑手“超时扣款”将逐
发表于:2024-12-30 浏览:28 发布者: 网易互联网
DeepSeek开源首个代码库FlashMLA
DeepSeek开源首个代码库FlashMLA
发表于:2025-02-24 浏览:26 发布者: 网易互联网
对话中国新就业形态研究中心主任:确保平台与骑
对话中国新就业形态研究中心主任:确保平台与骑
发表于:2025-01-26 浏览:28 发布者: 网易互联网
“618”直播间,“买一送一”藏套路?
“618”直播间,“买一送一”藏套路?
发表于:2025-06-12 浏览:10 发布者: 网易互联网
QuestMobile报告:鸿蒙生态潜力巨大,鲸鸿动能
QuestMobile报告:鸿蒙生态潜力巨大,鲸鸿动能
发表于:2024-12-31 浏览:25 发布者: 网易互联网
快手的出海征程:多年探索,一朝突围
快手的出海征程:多年探索,一朝突围
发表于:2024-11-11 浏览:36 发布者: 网易互联网
外卖大战重大变局:淘宝闪购来了,联合饿了么补
外卖大战重大变局:淘宝闪购来了,联合饿了么补
发表于:2025-04-30 浏览:17 发布者: 网易互联网