爆点资讯

这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究，发表于2025年9月29日的arXiv预印本平台（论文编号：arXiv:2509.24981v1）。研究团队提出了一种名为ROVER的全新AI训练方法，颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时，大多数人可能会想象这需要极其复杂的算法和精密的计算。然而，香港科技大学的研究团队却发现了一个令人意外的现象：有时候，最简单的方法反而能产生最好的效果。这就像在烹饪界，有些大厨经过多年探索后发现，最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前，训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题：先让学生尝试解题，如果答对了就给奖励，答错了就给惩罚，然后不断调整学生的解题策略。在AI领域，这种方法被称为PPO（Proximal Policy Optimization）或GRPO（Group-Relative Policy Optimization）等算法。

这

香港科大：用＂随机策略＂训练AI数学推理，效果竟然超越复杂算法

张馨予减肥致...

50+女人秋...

重庆女子乘＂...

售37.99...

创维抄袭格力...

微软团队突破...

美联储主席最热人选哈塞特：CPI报告好得令人震惊，美联储有很大空间可以降息

埃尔多安指责以色列违反加沙停火协议

女子卷走公司2000万欲跑路最后一刻害怕被抓放弃登机

中信金融资产副总裁就位张健正式履职

马杜罗预计5日在纽约＂首次出庭＂

具身智能开启汽车产业万亿新赛道

全国第二个提前还债的省份，出现在西部

三星美国泰勒晶圆厂3月测试EUV光刻机，加速2nm GAA工艺部署

AI快速生成抗体设计图，大卫·贝克最新研究或改变传染病应对模式

会是后手奇兵吗？本届U23亚洲杯外场球员中仅毛伟杰还未出场

44岁前TVB花旦有望跟前未婚夫复合

山东省首家国际顶尖科学家工作室启动，聚焦阿秒激光技术领域

上海独居女子离世引关注，超百万元房产无人继承，记者实探→

猛龙109-97逆转老鹰，英格拉姆20分，巴雷特19+5+4

吉林长春中东新天地购物公园：丰富多元体验焕新商业地标

音乐人袁惟仁去世享年57岁此前曾摔倒成植物人数年

痛惜！资深音乐人突发意外去世，很多人听过他的歌...

生涯之夜！邹阳35+7三分创新高福建大胜送四川开局9战全败

中俄最后一刻没保住伊朗制裁重启哈梅内伊政权危险了

短剧女神郭宇欣让多少白幼瘦女星脸红？

7年联姻终止！蔚来合资公司注销

羽绒服+阔腿裤：今年冬天最火搭配，松弛又时髦！

英国防大臣称想＂绑架＂普京俄方：痴人说梦

华为，最新发布！易烊千玺点赞！