您的当前位置:首页>科技咨询>资讯详情

OpenAI开源BrowseComp 重塑Agent浏览器评测

发表于:2025-04-11 12:00:03 浏览:12次 发布者: 网易互联网

《科创板日报》11日讯,今日凌晨,OpenAI开源了专门用于智能体浏览器功能的测试基准——BrowseComp。这个测试基准非常有难度,连OpenAI自己的GPT-4o、GPT-4.5准确率只有0.6%和0.9%几乎为0,即便使用带浏览器功能的GPT-4o也只有1.9%。但OpenAI最新发布的Agent模型Deep Research准确率高达51.5%,在自主搜索、信息整合、准确性校准方面非常优秀。

猜你喜欢

今天,打开小红书首页全是外国人
今天,打开小红书首页全是外国人
发表于:2025-01-15 浏览:31 发布者: 网易互联网
小米推出“超级小爱”:随时可唤醒 彻底变革交互
小米推出“超级小爱”:随时可唤醒 彻底变革交互
发表于:2024-10-31 浏览:34 发布者: 快科技官方
微信社交电商野心:突击上线“送礼物”,微盟一
微信社交电商野心:突击上线“送礼物”,微盟一
发表于:2024-12-19 浏览:27 发布者: 网易互联网
DeepSeek开源为MoE和EP量身定制的通信库!暂和
DeepSeek开源为MoE和EP量身定制的通信库!暂和
发表于:2025-02-25 浏览:16 发布者: 网易互联网
阿里大文娱与华为达成鸿蒙战略合作,探索全场景
阿里大文娱与华为达成鸿蒙战略合作,探索全场景
发表于:2025-04-01 浏览:10 发布者: 网易互联网
Lazada上线商家AI助手Lazzie Seller
Lazada上线商家AI助手Lazzie Seller
发表于:2025-04-14 浏览:14 发布者: 网易互联网
新开普:公司在VR领域已有布局,相关业务收入占
新开普:公司在VR领域已有布局,相关业务收入占
发表于:2024-12-18 浏览:26 发布者: 网易科技
苹果遭4000万英国iCloud用户集体诉讼,面临276亿元索赔
苹果遭4000万英国iCloud用户集体诉讼,面临276亿元索赔
发表于:2024-11-16 浏览:66 发布者: 媒体滚动
DeepSeek开源周第四弹!3大猛料一口气发完,梁
DeepSeek开源周第四弹!3大猛料一口气发完,梁
发表于:2025-02-27 浏览:15 发布者: 网易互联网
更优商品、更新体验!第七届双品网购节南京都市
更优商品、更新体验!第七届双品网购节南京都市
发表于:2025-04-30 浏览:10 发布者: 网易互联网