阿里云通义开源最强过程奖励PRM模型，7B尺寸比GPT-4o更能发现推理错误

日期：2025-01-16 评论：0

标签：

今日，阿里云通义开源全新的数学推理过程奖励模型Qwen2.5-Math-PRM，72B及7B尺寸模型性能均大幅超越同类开源过程奖励模型。

据了解，在识别推理错误步骤能力上，Qwen2.5-Math-PRM以7B的小尺寸超越了GPT-4o。同时，通义团队还开源了首个步骤级的评估标准ProcessBench，此项评估标准填补了大模型推理过程错误评估的空白。

阿里云通义开源最强过程奖励PRM模型 7B尺寸比GPT-4o更能发现推理错误

与此同时，为更好衡量模型识别数学推理中错误步骤的能力，通义团队还提出了全新的评估标准ProcessBench。该基准由3400个数学问题测试案例组成，其中还包含奥赛难度的题目，每个案例都有人类专家标注的逐步推理过程，可综合全面评估模型识别错误步骤能力。这一评估标准也已开源。

阿里云通义开源最强过程奖励PRM模型 7B尺寸比GPT-4o更能发现推理错误

此外，在ProcessBench上对错误步骤的识别能力的评估中，72B及7B尺寸的Qwen2.5-Math-PRM均显示出显著的优势，7B版本的PRM模型不但超越同尺寸开源PRM模型，甚至超越了闭源GPT-4o-0806。这证明了过程奖励模型（PRM）能够显著提高推理的可靠性，为未来开发推理过程监督技术开辟了新的途径。

声明：凡开云电子链接来源注明为其他媒体来源的信息，均为转载自其他媒体，并不代表本网站赞同其观点，也不代表本网站对其真实性负责。您若对该文章内容有任何疑问或质疑，请立即与开云客户(www.www.wykobounce.com)联系，本网站将迅速给您回应并做处理。
电话：021-39553798-8007

更多> 相关开云电子链接

0条 相关评论

推荐图文

迅雷将在杭州成立AI全	加州大学科学家发明了
深圳又一制造业总部基	水下机器人在渔业中的
哈工程水下机器人再夺	里程碑！荆州市首台机

推荐开云电子链接

点击排行

• 亿航智能无人驾驶载人电动垂直起降飞行器完成试	• TCL实业揽获多项CES 2025科技大奖，蝉联全球消
• 国产GPU芯片独角兽公司“沐曦集成”启动A股IPO	• 大疆在美国不再有禁飞区：控制权重新交给操作员
• Adobe发布新生成式AI工具：一次可处理1万张图片	• 填补国内空白：中国发布智能网联汽车用 DDS 测
• 中医机器人也能“望闻问切”，实现AI辅助诊疗	• 天奇股份具身智能机器人应用取得新突破
• 北京将举办世界开云入口网页版 “一会一赛” 机器人	• 现阶段华为智驾系统排第一

恰佩克奖	机器人高峰论坛	机气林	开云入口网页版生态大会	ITES深圳工业展	广西工博会	顺企网
优气压缩机（上海）有限公司	机器人研究院	库卡机器人	中国传动网	索比光伏网	数控机床市场网	国家标准化委员会
国际现代工厂/过程自动化技术与装备展览会