您的当前位置:首页>科技咨询>资讯详情

DeepSeek逼出谷歌新推理模型:40分优势超GPT4.5

发表于:2025-03-26 11:00:06 浏览:14次 发布者: 网易互联网

鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI

又双叒,抢在OpenAI直播之前,谷歌Gemini 2.5系列来了。

首个版本Pro Experimental一登场就抢下大模型竞技场第一名,并且整整比GPT-4.5高出40分



Gemini 2.5同样是推理模型,用Jeff Dean的说法是:

这是我们最智能的模型,具有令人印象深刻的高级推理和编码能力。

Be like,给出一段提示词:

帮我制作一款吸引人的无尽跑酷游戏。屏幕上要有关键操作说明。使用p5js,不要用HTML。我喜欢像素风格的恐龙和有趣的背景。

1分钟左右,就能得到:





谷歌“最先进复杂任务模型”

谷歌介绍,相较于Gemini 2.0 Flash Thinking这个谷歌首个推理模型,Gemini 2.5在基础模型和后训练技术上都有改进。

不仅是在大模型竞技场上一举拿下高分,在各种推理、数学、科学、编程基准上,Gemini 2.5 Pro都表现出色,属于是编程能跟Claude 3.7 Sonnet掰手腕,数学能跟Grok 3相媲美。



更详细测试结果看这里:



Gemini 2.5 Pro的上下文窗口是1M tokens,并且支持原生多模态:可以理解庞大数据集并处理来自不同信息源的复杂问题,包括文本、音频、图像、视频,甚至是整个代码库。

在推理能力之外,谷歌官方还强调了一把Gemini 2.5 Pro的编程性能:

2.5 pro擅长创造视觉上引人注目的Web应用程序和智能体代码。

谷歌DeepMind研究员们也释出了更多案例,比如把“六边形内旋转小球”这事整得更加酷炫:



Jeff Dean则兴奋地放出了一个编程+数学的用例,还说:

我记起了小时候第一次了解到曼德布罗特集时的兴奋之情。

(曼德布罗特集:一种在复平面上形成的分形集合)



p.s. 距离谷歌上新Gemini 2.0家族,也不过一个多月时间,怕不是让DeepSeek给逼急了(doge)。

目前,Gemini 2.5 Pro已经面向Gemini Advanced付费用户开放,开发人员也可以在Google AI Studio中试用。谷歌表示,未来几周内还将在Vertex AI上推出该模型。

不过,当我们拿最新大模型难题“竹竿问题”测试Gemini 2.5 Pro时,它并没能顺利通关。





试玩地址:
http://aistudio.google.com/app/prompts/new_chat?model=gemini-2.5-pro-exp-03-25

参考链接:
https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025

猜你喜欢

全球肥胖人口暴涨,上海六院重磅新研究:戴上VR
全球肥胖人口暴涨,上海六院重磅新研究:戴上VR
发表于:2025-06-24 浏览:7 发布者: 网易科技
爱奇艺CEO龚宇:爱奇艺内容电商今日上线
爱奇艺CEO龚宇:爱奇艺内容电商今日上线
发表于:2025-04-23 浏览:15 发布者: 网易互联网
多部门联合行动打击盗版:拦截删除盗版内容210.
多部门联合行动打击盗版:拦截删除盗版内容210.
发表于:2025-03-04 浏览:22 发布者: 网易互联网
联想骆金星:AIPC未来应成为PC核心主力
联想骆金星:AIPC未来应成为PC核心主力
发表于:2024-11-01 浏览:41 发布者: 新浪科技
腾讯与荣耀达成战略合作
发表于:2024-12-20 浏览:38 发布者: 网易互联网
一个让你假装网红的App,凭什么两年赚200万刀?
一个让你假装网红的App,凭什么两年赚200万刀?
发表于:2025-07-10 浏览:10 发布者: 网易互联网
谷歌发布旗舰推理模型:单次可处理百万token
谷歌发布旗舰推理模型:单次可处理百万token
发表于:2025-03-26 浏览:20 发布者: 网易IT
马斯克称其社交媒体平台X遭大规模网络攻击,攻
马斯克称其社交媒体平台X遭大规模网络攻击,攻
发表于:2025-03-11 浏览:20 发布者: 网易互联网
人形机器人大战,苹果和Meta都来了
人形机器人大战,苹果和Meta都来了
发表于:2025-02-17 浏览:27 发布者: 网易科技
当心!这样创作短视频作品会构成侵权
当心!这样创作短视频作品会构成侵权
发表于:2025-04-26 浏览:12 发布者: 网易互联网