爆点资讯

这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究，发表于2025年9月29日的arXiv预印本平台（论文编号：arXiv:2509.24981v1）。研究团队提出了一种名为ROVER的全新AI训练方法，颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时，大多数人可能会想象这需要极其复杂的算法和精密的计算。然而，香港科技大学的研究团队却发现了一个令人意外的现象：有时候，最简单的方法反而能产生最好的效果。这就像在烹饪界，有些大厨经过多年探索后发现，最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前，训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题：先让学生尝试解题，如果答对了就给奖励，答错了就给惩罚，然后不断调整学生的解题策略。在AI领域，这种方法被称为PPO（Proximal Policy Optimization）或GRPO（Group-Relative Policy Optimization）等算法。

这

香港科大：用＂随机策略＂训练AI数学推理，效果竟然超越复杂算法

站在4000...

售9.98万...

宝马车商场停...

国投瑞银被起...

卡拉格：如果...

硅谷的「十万...

女网红被＂开盒＂收大量骚扰信息全家被迫搬离本人发声

2026春夏八大流行趋势，早穿早美！

博纳老板于冬被澳门赌场追债400多万

独家对话旺仔小乔“榜一大哥”：一场直播曾打赏7万元，让自己别为她难过而改名“别难过”

8年青春换来丈夫出轨，如今张嘉倪让前夫高攀不起

光峰科技“认领”闪极AI显示眼镜S1：采用蜻蜓G1 mini光机

演技炸裂，今年奥斯卡影帝，直接给他得了

热搜上消失的女明星，正在偷偷养鸡

业绩承压下的豪赌：时空科技跨界收购存储芯片厂商嘉合劲威

今年冬天流行的“露袜”穿法，时髦又减龄！

德转意甲身价涨幅榜：帕莱斯特拉+1650万，巴尔泰萨吉+1500万

美国强掳马杜罗做法引发岛内担忧国台办回应

搭载增程系统大众ID. ERA 9X将于年内上市

＂福特＂级航母电磁弹射器困住美军重设计需数十亿美元

H-1B签证费涨至10万美元分析人士:将重创美科技行业

怒批赵睿破坏民族团结后，新疆官媒明着夸胡金秋疑暗讽男篮队长

卓正医疗通过IPO备案：年营收6.9亿腾讯与H Capital是股东

女子开宝马住高端小区却偷榴莲保安提醒后她又拿2件

河南田地积水玉米发霉农民：夏天求的雨下在了秋天

2025中国金帅奖候选名单：邵佳一、于根伟在列，常卫魏入选

女子应聘疑遭老板性暗示涉事企业法人：出于工作需要

男子带1650个苹果到烈士陵园：想让每名烈士都能吃5个

国安部门破获一起直播泄露军事秘密案

高德杀入美团百度腹地，马云其实要和刘强东大决战？