
这项由腾讯优图实验室的Yuzheng Cai、Siqi Cai、Yuchen Shi等讨论团队设备的Training-Free GRPO时期,于2025年1月发表在arXiv预印本平台(论文编号:arXiv:2510.08191v1),为大说话模子的优化带来了全新想路。想要深入了解时期细节的读者可以通过该编号查询完好论文。
想象你有一位相配明智的一又友,他险些什么齐知说念,但在某些专科领域发扬得不太好。传统的措置方法就像送他去上补习班,通过大齐训诲来转换他的想维形态。但这么作念不仅费时忙绿,还可能让他在其他方面变差。咫尺,腾讯优图团队找到了一种全新的方法,就像给这位一又友一个随身佩戴的小札记本,里面纪录着各式实用的阅历和技巧。当他碰到难题时,只需翻翻札记本,就能找到措置问题的灵感,而不需要转换我方的基本想维模式。
这种立异性的方法被称为"Training-Free GRPO"(无教授组相对政策优化),它透澈颠覆了咱们对东说念主工智能学习形态的贯通。传统的AI教授就像重新塑造一个东说念主的大脑,需要大齐时分、财富和野心资源。而这项新时期则像是给AI配备了一个智能助手,通过积存和期骗阅历来普及发扬,通盘这个词过程既高效又经济。
讨论团队在数学推清楚通聚搜索两个领域进行了深入测试。摒弃浮现,使用DeepSeek-V3.1-Terminus这个大型说话模子时,新方法在AIME数学竞赛题目上的发扬普及了2.7%到5.4%,而资本仅为传统方法的几十分之一。更令东说念主诧异的是,这种方法只需要几十个教授样本就能取得显贵摒弃,而传统方法频繁需要数千个样本。
一、传统AI教授的窘境:像重建屋子一样复杂
为了贯通这项讨论的进犯性,咱们开端需要了解传统AI教授靠近的挑战。咫尺的大说话模子就像是一位博学的通才,在各式话题上齐有可以的发扬,但当需要在特定领域表露专科水平时,常常力不从心。
传统的措置决策是通过"微调"来更正模子,这个过程就像重新装修一栋屋子。你需要拆掉一些墙壁,重新布线,调理房间布局,通盘这个词过程不仅耗时耗力,还可能险阻原有的优秀结构。在AI领域,这意味着需要大齐的野心资源、高质地的教授数据,以及承担模子可能在其他任务上发扬变差的风险。
更具体地说,传统的强化学习方法需要修改模子里面的数十亿个参数,这个过程就像是重新编程一个东说念主的通盘这个词常识体系。即使是相对较小的32亿参数模子,进行一次完好的教授也需要消耗约1万好意思元的野心资本。而且教授完成后,你得到的是一个有益化的模子,就像培养了一位专科大夫,天然在特定领域很犀利,但在其他方面可能不如蓝本的全科大夫。
这种方法还靠近着数据稀缺的问题。在许多专科领域,获取高质地的教授数据就像采集罕有的古董一样长途且不菲。而且,当教授数据有限时,模子很容易出现"过拟合"兴隆,就像一个学死活记硬背测验题目,天然能搪塞测验,但碰到稍稍不同的问题就无法可想。
二、立异性的新想路:用阅历而非教授来普及能力
腾讯优图团队提倡的Training-Free GRPO方法全齐转换了这个游戏规定。他们不再试图转换AI的"大脑结构",而是给AI配备了一个束缚更新的"阅历手册"。这就像是为一位阅历丰富的大夫配备了最新的医学指南,让他大致在保持原有手段的同期,在特定情况下作念出更好的判断。
这种方法的中枢想想是让AI通过对比不同措置决策的摒弃来积存阅历。讨论团队联想了一个玄机的机制:关于每个问题,AI会生成多个不同的解答决策,然后通过比较这些决策的优劣来索求出有价值的阅历训导。这些阅历以天然说话的形势保存下来,就像是一册束缚更新的颖悟宝典。
举个具体例子,当AI在措置几何问题时碰到长途,传统方法会调理AI的里面参数来改善几何推理能力。而新方规则会让AI分析我方在几何问题上的收效和失败案例,从中索求出诸如"在处理圆形联系问题时,要至极提防点的共线性"这么的阅历规则。下次碰到访佛问题时,AI就会参考这些阅历来携带我方的想考过程。
这种方法的上风不言而谕。开端,它保持了原始模子的完好性和通用性,就像在不转换汽车引擎的情况下为司机提供更好的导航系统。其次,它的资本极低,讨论浮现通盘这个词过程的用度仅相配于几顿午餐的价钱。最进犯的是,这种方法具有很强的通用性,并吞套阅历可以在不同的任务中重叠使用。
三、时期完好意思:若何让AI学会从阅历中得回颖悟
Training-Free GRPO的具体完好意思过程就像是组织一场有序的接头会。关于每个待措置的问题,系统开端让AI生成多个不同的解答决策,这就像邀请几位巨匠各自提倡我方的不雅点。
接下来是重要的对比分析阶段。系统不是浅薄地给这些决策打分,而是让AI我方分析为什么某些决策更好,为什么另一些决策存在问题。这个过程就像是让巨匠们相互点评,找出收效和失败的压根原因。通过这种深入的分析,AI大致索求出具有普遍携带意旨的阅历训导。
这些阅历训导以天然说话的形势保存在一个动态更新的常识库中。与传统方法不同,这些阅历不是综合的数字参数,而是可以被东说念主类贯通的颖悟归来。举例,在数学推理领域,系统可能会学到"当碰到几何交点问题时,要考据解是否在有界区域内,幸免外推解答"这么的阅历。
常识库的更新机制也很风趣风趣。系统会依期审查现存的阅历,说明新的学习情况来修改、合并或删除不再有用的阅历条件。这就像是惊奇一册个东说念主札记,束缚地整理和完善其中的内容。通盘这个词过程全齐自动化,不需要东说念主工打扰。
最令东说念主印象长远的是,这种方法大致在一丝的样本上取得显贵摒弃。讨论浮现,只是使用100个教授样本,系统就能在复杂的数学竞赛题目上取得卓著传统方法的发扬。这就像是一个学生只看了100说念题目,就掌抓了解题的精髓,而传统方法可能需要数千说念题看法反复训诲。
四、实验考据:在数学推理中的惊东说念主发扬
为了考据新方法的有用性,讨论团队遴荐了AIME(好意思国数学邀请赛)这个极具挑战性的测试平台。AIME被合计是数学竞赛中的顶级赛事,其题目难度远超庸碌测验,即使是数学专科的大学生也赓续感到吃力。
实验使用了DeepSeek-V3.1-Terminus这个领有671亿参数的大型说话模子行为基础。在莫得任何优化的情况下,这个模子在AIME24和AIME25测试中的发扬永诀为68.6%和52.9%。天然这个收获还是相配可以,但距离东说念主类数学巨匠的水平还有彰着差距。
应用Training-Free GRPO时期后,情况发生了显贵变化。在纯文本推理模式下,模子的发扬普及到了72.6%和54.0%。更令东说念主惊喜的是,当统一ReAct器用使用框架(允许模子调用野心器等外部器用)时,性能进一步跃升至82.7%和73.3%。这种普及幅度在AI讨论领域是相配陌生的,至极是议论到所使用的教授样本一丝。
为了更好地贯通这种更正的实践,讨论团队仔细分析了系统学到的阅历。他们发现,AI如实掌抓了一些具有普遍携带意旨的解题政策。举例,在处理几何问题时,系统学会了"当碰到点在线段上的问题时,要考据解是否在合理的畛域范围内"。在处理复杂的代数方程时,系统学会了"优先议论简化抒发式,而不是径直进行数值野心"。
更风趣风趣的是,系统还学会了若何更高效地使用器用。数据浮现,经过优化后的模子在措置一样问题时,调用外部器用的次数显贵减少。这标明AI不仅学会了更好的解题方法,还学会了若何幸免无谓要的野心方法,这种服从普及对实践应用具有进犯意旨。
五、会聚搜索应用:让AI成为更好的信息猎手
除了数学推理,讨论团队还在会聚搜索任务上测试了新方法的摒弃。在信息爆炸的期间,若何快速准确地找到所需信息还是成为一项重要手段。传统的AI搜索常常存在两个问题:要么过度依赖搜索摒弃的片断信息,要么破钞大齐时分浏览不联系的页面。
讨论团队使用了WebWalkerQA数据集进行测试,这是一个有益用于评估AI会聚搜索能力的范例测试集。测试任务包括查找特定的时期信息、公司公告、居品战胜等复杂的信息检索任务。这些任务模拟了真确天下顶用户的搜索需求,需要AI大致贯通搜索意图、制定搜索政策、筛选信息来源,并整合多个信息源的内容。
在未使用新方法的情况下,DeepSeek-V3.1-Terminus模子的搜索准确率为63.2%。应用Training-Free GRPO后,这个数字普及到了67.8%,普及幅度达到4.6个百分点。天然这个普及看似不如数学推理那么显贵,但在信息检索领域,即使是几个百分点的更正也能带来用户体验的显贵普及。
通过分析具体的搜索案例,讨论团队发现AI学到了一些相配实用的搜索政策。举例,系统学会了"优先检讨官方网站的公告页面,而不是依赖第三方媒体的转述"。在处理复杂查询时,系统学会了"先进行日常搜索确定范围,然后使用精准重要词进行深入挖掘"。这些政策听起来很浅薄,但对普及搜索服从和准确性具有进犯意旨。
更进犯的是,系统还学会了若何判断信息的可靠性。在一个充满误导信息的会聚环境中,这种能力显得尤为罕有。AI学会了通过交叉考据多个信息源、检讨信息发布时分、识别泰斗来源等形态来提高信息的真实度。
六、资本效益分析:极低资本带来的巨大申报
Training-Free GRPO最令东说念主印象长远的特色之一即是其极低的资本。讨论团队进行了小心的资分内析,摒弃浮现这种方法的经济效益远超传统教授方法。
以数学推理任务为例,使用传统的强化学习方法教授一个32亿参数的模子大要需要2万GPU小时,按市集价钱野心约需1万好意思元。而Training-Free GRPO方法在DeepSeek-V3.1-Terminus上的通盘这个词优化过程只需要6小时,消耗3800万个输入token和660万个输出token,总资本仅约18好意思元。这意味着新方法的资本是传统方法的不到千分之二。
资本各异如斯巨大的原因在于两种方法的压根不同。传统方法需要修改模子的通盘参数,这需要大齐的野心资源和时分。而新方法只是在输入时添加一些阅历携带,就像在文档前边加上一页使用讲明,险些不加多野心使命。
更进犯的是,这种资本上风在实践部署中会进一步放大。传统的微调方法需要为每个特定任务惊奇一个孤立的模子,这意味着需要多套部署环境和惊奇资本。而Training-Free GRPO方法可以在并吞个基础模子上通过切换不同的阅历库来处理不同任务,大大镌汰了部署和惊奇的复杂性。
从使用资本来看,传统微调模子天然单次推理资本较低(约每个问题0.005好意思元),但需要防守专用的GPU集群,在使用频率不高时显得很不经济。比较之下,Training-Free GRPO方法汲取按需付费的模式,单次使用资本天然稍高(约每个问题0.02好意思元),但无需防守固定的基础设施,在许多实践应用场景中愈加经济。
七、跨领域通用性:一套方法措置多种问题
Training-Free GRPO的另一个进犯上风是其出色的跨领域适应能力。传统的微调方法常常会让模子在特定领域发扬优异,但在其他领域的发扬可能会下落。这就像培养了一位专科大夫,天然在腹黑病颐养方面很犀利,但可能在其他疾病的会诊上不如蓝本的全科大夫。
讨论团队有益测试了这种跨领域移动能力。他们对比了在数学领域教授的专用模子ReTool和在会聚搜索领域教授的专用模子MiroThinker的发扬。摒弃发现,ReTool在数学竞赛中发扬出色,但在会聚搜索任务中的准确率只消18.3%,远低于未经教授的基础模子。一样,MiroThinker在会聚搜索方面发扬细致无比,但在数学推理方面彰着失色。
比较之下,使用Training-Free GRPO优化的DeepSeek-V3.1-Terminus模子在两个领域齐保持了优秀的发扬。在数学推理方面达到了82.7%和73.3%的高分,同期在会聚搜索方面也达到了67.8%的细致无比收获。这种跨领域的踏实发扬对实践应用具有进犯意旨,因为真确天下的AI助手常常需要处理各式不同类型的任务。
这种通用性的完好意思旨趣很风趣风趣。由于Training-Free GRPO不修改模子的中枢参数,而是通过外部阅历库来携带行动,模子的基础能力得以完好保留。不同领域的阅历可以共存于并吞个系统中,甚而可以相互补充。举例,数学推理中学到的逻辑分析能力可能对会聚搜索中的信息筛选有所匡助。
八、具体案例解析:看AI若何从很是中学习
为了更直不雅地展示Training-Free GRPO的办事旨趣,讨论团队提供了一些具体的案例分析。这些案例明晰地展示了AI是若何通过比较收效和失败的尝试来积存颖悟的。
在一个复杂的几何问题中,AI最初的解题方法存在彰着很是。问题波及两个矩形和一个圆的几何联系,要求野心某个线段的长度。未经优化的AI在成就坐标系时出现了标的很是,将某些点的垂直坐标成就为恰好而非负值,导致通盘这个词野心过程偏离正轨。最终天然得到了一个看似合理的数值谜底,但实践上是很是的。
经过Training-Free GRPO优化后,AI的发扬发生了显贵变化。系统开端学会了更仔细地分析几何联系,明确了点的成列设施和坐标成就。更进犯的是,AI学会了一套系统性的考据历程,在得出谜底后会检验通盘几何敛迹是否齐得到悠闲。这种自我考据能力极地面提高了解题的可靠性。
在会聚搜索的案例中,对比一样很彰着。未经优化的AI常常过度依赖搜索摒弃的摘录信息,很少主动点击进入泰斗网站检讨完好内容。这就像一个学生只看教科书的目次和摘录,而不深入阅读具体章节内容。摒弃是天然大致找到一些联系信息,但常常不够准确或完好。
优化后的AI展现出了更老练的信息搜索政策。它学会了优先检讨官方网站的原始文档,而不是依赖第三方的转述。在搜索过程中,AI会有看法地寻找具有泰斗性的信息源,况兼会交叉考据多个来源的信息。这种方法天然需要更多的搜索方法,但最终得回的信息质地要高得多。
九、时期上风的深层原因:为什么这种方法如斯有用
Training-Free GRPO之是以大致取得如斯显贵的摒弃,背后有着深层的时期旨趣。开端,这种方法充分利用了大说话模子的固有能力。当代的大说话模子经过海量数据的教授,还是具备了强盛的推理和贯通能力,只是在特定任务上缺少针对性的携带。新方法通过提供允洽的阅历携带,就像为一位有才华的学生配备了优秀的导师。
其次,阅历开端的学习形态更合适东说念主类的剖析模式。东说念主类在学习生手段时,常常是通过不雅察收效案例、分析失败原因,然后归来阅历法例来普及能力的。Training-Free GRPO模拟了这种天然的学习过程,让AI大致像东说念主类一样从阅历中得回颖悟。
说话化的阅历存储亦然重要身分之一。与传统方法将常识编码为综合的数值参数不同,新方法将阅历以天然说话的形势保存。这不仅使得阅历更容易被模子贯通和应用,也便于东说念主类讨论者分析和更正。讨论团队发现,AI学到的许多阅历规则齐具有很强的可解释性,有些甚而可以径直用于携带东说念主类措置访佛问题。
种种性采样政策也表露了进犯作用。通过在每个问题上生成多个不同的措置决策,系统大致更全面地探索措置空间,识别出最优的政策模式。这就像一个科学家通过屡次实验来考据假定,比单次尝试大致得回更可靠的论断。
十、实践应用远景:这项时期能为咱们带来什么
Training-Free GRPO时期的实践应用远景相配渊博。在教训领域,这种时期可以为在线学习平台提供更智能的请示系统。传统的AI教学助手常常只可提供范例化的回应,而使用新时期的系统可以说明学生的具体很是模式来积存针对性的教学阅历,提供更个性化的携带。
在企业应用中,这种时期可以大大镌汰AI部署的门槛。企业不再需要参预巨资进行模子微调,而是可以通过采集业务场景中的收效案例来快速优化AI助手的发扬。这对中小企业尤其有价值,因为它们常常莫得满盈的资源进行大范畴的AI教授。
在科研领域,这种方法可以匡助讨论东说念主员快速构建有益化的AI器用。举例,生物学家可以通过提供一些收效的实验联想案例,让AI学会若何协助联想新的实验决策。化学家可以通过分析收效的合成旅途,让AI学会展望最有但愿的化学响应蹊径。
更进犯的是,这种时期镌汰了AI定制化的时期门槛。传统的模子微调需要深厚的机器学习专科常识,而Training-Free GRPO方法相对浅薄易懂。即使是莫得AI布景的专科东说念主士,也可以通过提供领域内的优秀案例来更正AI的发扬。
说到底,Training-Free GRPO代表了AI发展的一个进犯标的转化。它从"重新教授"转向了"智能携带",从"转换AI的大脑"转向了"为AI提供更好的想考器用"。这种方法不仅更经济高效,也更合适实践应用的需求。
讨论团队的办事讲明注解了一个进犯不雅点:偶然候措置问题的最佳方法不是让器用变得更复杂,而是让器用的使用形态变得更智能。就像一把庸碌的锤子在阅历丰富的木工手中大致创造遗址一样,一个联想细致无比的阅历携带系统大致让现存的AI模子表露出远超预期的能力。
这项讨论的意旨不仅在于时期层面的创新,更在于它为AI时期的普及和应用开辟了新的旅途。它让咱们看到,AI的最初不一定需要更大的模子或更多的野心资源,偶然候需要的只是更明智的使用方法。关于通盘这个词AI行业来说,这无疑是一个令东说念主荧惑的发现,它预示着AI时期将变得愈加经济实用,也更容易被浩瀚用户所秉承和应用。
Q&A
Q1:Training-Free GRPO是什么?它和传统AI教授有什么不同?
A:Training-Free GRPO是腾讯优图团队设备的一种AI优化时期,它不修改AI模子的里面参数,而是给AI配备一个"阅历手册"。传统方法就像重新装修屋子一样复杂耗时,而新方法只是给AI提供智能携带,资本镌汰到传统方法的千分之二,但摒弃更好。
Q2:这种方法的确只需要很少的教授数据吗?
A:是的,Training-Free GRPO只需要100个傍边的教授样本就能取得显贵摒弃,而传统方法频繁需要数千个样本。这就像一个学生只看100说念题就掌抓了解题精髓,而传统方法需要数千说念题的反复训诲。
Q3:Training-Free GRPO能在哪些领域应用?
A:这种时期具有很强的通用性,已在数学推清楚通聚搜索领域考据有用。将来可应用于教训请示、企业AI助手、科研器用等多个领域。重要是它不需要为每个领域单独教授模子,并吞个系统可以通过切换不同的阅历库来处理不同任务。