您的当前位置:首页>科技咨询>资讯详情

阿里云通义开源最强过程奖励PRM模型,7B尺寸比G

发表于:2025-01-16 19:00:03 浏览:36次 发布者: 网易互联网

1月16日,阿里云通义开源全新的数学推理过程奖励模型Qwen2.5-Math-PRM,72B及7B尺寸模型性能均大幅超越同类开源过程奖励模型;在识别推理错误步骤能力上,Qwen2.5-Math-PRM以7B的小尺寸就超越了GPT-4o。同时,通义团队还开源首个步骤级的评估标准ProcessBench,填补了大模型推理过程错误评估的空白。


在当前大模型推理过程中,不时存在逻辑错误或编造看似合理的推理步骤,如何准确识破过程谬误并减少它,对增强大模型推理能力、提升推理可信度尤为关键。过程奖励模型(Process Reward Model, PRM)为解决这一问题提供了一种极有前景的新方法:PRM对推理过程中的每一步行为都进行评估及反馈,帮助模型更好学习和优化推理策略,最终提升大模型推理能力。

基于PRM的理念,通义团队提出了一种简单有效的过程奖励数据构造方法,将PRM模型常用的蒙特卡洛估计方法(MC estimation)与大模型判断(LLM-as-a-judge)创新融合,提供更可靠的推理过程反馈。通义团队基于Qwen2.5-Math-Instruct模型进行微调,从而得到72B及7B的Qwen2.5-Math-PRM模型,模型的数据利用率和评测性能表现均显著提高。


在包含GSM8K、MATH、Minerva Math等7个数学基准测试的Best-of-N评测中,Qwen2.5-Math-PRM-7B性能表现超越了同尺寸的开源PRMs;Qwen2.5-Math-PRM-72B的整体性能在评测中拔得头筹,优于同尺寸ORM(Outcome Reward Model)结果奖励模型Qwen2.5-Math-RM-72B。

同时,为更好衡量模型识别数学推理中错误步骤的能力,通义团队提出了全新的评估标准ProcessBench。该基准由3400个数学问题测试案例组成,其中还包含奥赛难度的题目,每个案例都有人类专家标注的逐步推理过程,可综合全面评估模型识别错误步骤能力。这一评估标准也已开源。


在ProcessBench上对错误步骤的识别能力的评估中,72B及7B尺寸的Qwen2.5-Math-PRM均显示出显著的优势,7B版本的PRM模型不但超越同尺寸开源PRM模型,甚至超越了闭源GPT-4o-0806。这印证了过程奖励模型PRM可有效提升推理可靠性,对未来推理过程监督技术的研发提供新思路。

猜你喜欢

翻译界新王诞生,居然碾压谷歌、苹果
翻译界新王诞生,居然碾压谷歌、苹果
发表于:2024-11-18 浏览:69 发布者: 网易互联网
巴西人的钱,该怎么赚?
巴西人的钱,该怎么赚?
发表于:2025-06-22 浏览:8 发布者: 网易互联网
美团:“取消骑手超时扣款”测试区域有消费者体
美团:“取消骑手超时扣款”测试区域有消费者体
发表于:2025-02-12 浏览:24 发布者: 网易互联网
AR普及临门一脚差在哪?XREAL创始人徐驰三维度
AR普及临门一脚差在哪?XREAL创始人徐驰三维度
发表于:2025-07-24 浏览:1 发布者: 网易科技
雷军要警惕“胜利病”吗
雷军要警惕“胜利病”吗
发表于:2025-04-02 浏览:14 发布者: 网易互联网
“丝路电商过大年”活动在上海启动
“丝路电商过大年”活动在上海启动
发表于:2025-01-22 浏览:33 发布者: 网易互联网
谷歌AI解决IMO中84%的几何问题,o1一道没对!已
谷歌AI解决IMO中84%的几何问题,o1一道没对!已
发表于:2025-02-08 浏览:22 发布者: 网易互联网
阿里云将投超4亿元支持国际生态建设
阿里云将投超4亿元支持国际生态建设
发表于:2025-07-03 浏览:9 发布者: 网易互联网
京东:广东荔枝成交额同比增超五倍
京东:广东荔枝成交额同比增超五倍
发表于:2025-06-06 浏览:10 发布者: 网易互联网
《恶魔之魂RE》专为PS5 Pro打造,引入视觉升级优化
《恶魔之魂RE》专为PS5 Pro打造,引入视觉升级优化
发表于:2024-10-26 浏览:36 发布者: ZOL中关村在线