您的当前位置:首页>科技咨询>资讯详情

OpenAI开源BrowseComp 重塑Agent浏览器评测

发表于:2025-04-11 12:00:03 浏览:21次 发布者: 网易互联网

《科创板日报》11日讯,今日凌晨,OpenAI开源了专门用于智能体浏览器功能的测试基准——BrowseComp。这个测试基准非常有难度,连OpenAI自己的GPT-4o、GPT-4.5准确率只有0.6%和0.9%几乎为0,即便使用带浏览器功能的GPT-4o也只有1.9%。但OpenAI最新发布的Agent模型Deep Research准确率高达51.5%,在自主搜索、信息整合、准确性校准方面非常优秀。

猜你喜欢

小红书:70%月活用户有主动搜索习惯,每月1.7亿
小红书:70%月活用户有主动搜索习惯,每月1.7亿
发表于:2025-04-10 浏览:15 发布者: 网易互联网
一键生成完整海报,这个AI是要革PS和Canva的命。
一键生成完整海报,这个AI是要革PS和Canva的命。
发表于:2024-11-08 浏览:42 发布者: 微资讯
停止在华运营?微软中国回应:不实!
发表于:2025-04-07 浏览:19 发布者: 网易互联网
浙江首票“TIR+跨境电商”货物启程 最快8天抵达
浙江首票“TIR+跨境电商”货物启程 最快8天抵达
发表于:2025-02-21 浏览:27 发布者: 网易互联网
京东外卖一周涌入近20万商家 刘强东能否拿到市
京东外卖一周涌入近20万商家 刘强东能否拿到市
发表于:2025-02-21 浏览:22 发布者: 网易互联网
7月7日外媒科学网站摘要:中国加速推进脑机接口
7月7日外媒科学网站摘要:中国加速推进脑机接口
发表于:2025-07-07 浏览:8 发布者: 网易科技
抖音最新发布!
抖音最新发布!
发表于:2025-02-06 浏览:27 发布者: 网易互联网
淘宝闪购提前4天全量上线
淘宝闪购提前4天全量上线
发表于:2025-05-02 浏览:17 发布者: 网易互联网
OpenAI离职员工自曝:干了一年就润了!007压力
OpenAI离职员工自曝:干了一年就润了!007压力
发表于:2025-07-16 浏览:12 发布者: 网易互联网
Gemini 2.5弯道超车背后的灵魂人物
Gemini 2.5弯道超车背后的灵魂人物
发表于:2025-06-05 浏览:10 发布者: 网易互联网