您的当前位置:首页>科技咨询>资讯详情

阿里云通义开源最强过程奖励PRM模型,7B尺寸比G

发表于:2025-01-16 19:00:03 浏览:25次 发布者: 网易互联网

1月16日,阿里云通义开源全新的数学推理过程奖励模型Qwen2.5-Math-PRM,72B及7B尺寸模型性能均大幅超越同类开源过程奖励模型;在识别推理错误步骤能力上,Qwen2.5-Math-PRM以7B的小尺寸就超越了GPT-4o。同时,通义团队还开源首个步骤级的评估标准ProcessBench,填补了大模型推理过程错误评估的空白。


在当前大模型推理过程中,不时存在逻辑错误或编造看似合理的推理步骤,如何准确识破过程谬误并减少它,对增强大模型推理能力、提升推理可信度尤为关键。过程奖励模型(Process Reward Model, PRM)为解决这一问题提供了一种极有前景的新方法:PRM对推理过程中的每一步行为都进行评估及反馈,帮助模型更好学习和优化推理策略,最终提升大模型推理能力。

基于PRM的理念,通义团队提出了一种简单有效的过程奖励数据构造方法,将PRM模型常用的蒙特卡洛估计方法(MC estimation)与大模型判断(LLM-as-a-judge)创新融合,提供更可靠的推理过程反馈。通义团队基于Qwen2.5-Math-Instruct模型进行微调,从而得到72B及7B的Qwen2.5-Math-PRM模型,模型的数据利用率和评测性能表现均显著提高。


在包含GSM8K、MATH、Minerva Math等7个数学基准测试的Best-of-N评测中,Qwen2.5-Math-PRM-7B性能表现超越了同尺寸的开源PRMs;Qwen2.5-Math-PRM-72B的整体性能在评测中拔得头筹,优于同尺寸ORM(Outcome Reward Model)结果奖励模型Qwen2.5-Math-RM-72B。

同时,为更好衡量模型识别数学推理中错误步骤的能力,通义团队提出了全新的评估标准ProcessBench。该基准由3400个数学问题测试案例组成,其中还包含奥赛难度的题目,每个案例都有人类专家标注的逐步推理过程,可综合全面评估模型识别错误步骤能力。这一评估标准也已开源。


在ProcessBench上对错误步骤的识别能力的评估中,72B及7B尺寸的Qwen2.5-Math-PRM均显示出显著的优势,7B版本的PRM模型不但超越同尺寸开源PRM模型,甚至超越了闭源GPT-4o-0806。这印证了过程奖励模型PRM可有效提升推理可靠性,对未来推理过程监督技术的研发提供新思路。

猜你喜欢

透视2025|庄帅:直播电商赋能产业带多元创新发
透视2025|庄帅:直播电商赋能产业带多元创新发
发表于:2025-01-24 浏览:25 发布者: 网易互联网
QuestMobile:2024年互联网广告市场规模超7500
QuestMobile:2024年互联网广告市场规模超7500
发表于:2025-04-01 浏览:14 发布者: 网易互联网
2024, 网易的「革命」,不是请客吃饭
2024, 网易的「革命」,不是请客吃饭
发表于:2025-01-13 浏览:27 发布者: 网易互联网
出口成了增长“大头”  家电海外市场太火了
出口成了增长“大头” 家电海外市场太火了
发表于:2024-11-10 浏览:48 发布者: 艾肯家电网
新版Siri跳票一年,苹果员工痛诉AI危机:我们正
新版Siri跳票一年,苹果员工痛诉AI危机:我们正
发表于:2025-05-19 浏览:9 发布者: 网易IT
饿了么宣布即日起开启平台“饿补超百亿”大促
饿了么宣布即日起开启平台“饿补超百亿”大促
发表于:2025-04-30 浏览:14 发布者: 网易互联网
东华软件:与腾讯深化AI等领域合作 加入OpenClo
东华软件:与腾讯深化AI等领域合作 加入OpenClo
发表于:2025-02-26 浏览:24 发布者: 网易互联网
内蒙古“不包邮”正成为过去式
内蒙古“不包邮”正成为过去式
发表于:2025-04-10 浏览:13 发布者: 网易互联网
TikTok可能被禁之际  美国网红们推广字节“小黄
TikTok可能被禁之际 美国网红们推广字节“小黄
发表于:2025-01-09 浏览:30 发布者: 网易互联网
下载榜排位攀升,腾讯元宝投放量超过豆包与Kimi
下载榜排位攀升,腾讯元宝投放量超过豆包与Kimi
发表于:2025-02-24 浏览:17 发布者: 网易互联网