英伟达开源框架Polar助力代码智能体训练，Qwen3.5-4B模型跑分显著提升-智能手机-智能日报

英伟达研究团队近日推出开源框架Polar，为代码智能体训练领域带来突破性进展。该框架通过创新设计，成功将Codex、Claude Code、Qwen Code等主流智能体框架与GRPO（广义相对策略优化）训练方法无缝衔接，在保持原有工具调用模式和上下文管理机制不变的前提下，显著提升模型在复杂代码任务中的表现。

GRPO作为一种先进的强化学习优化技术，通过奖励信号动态调整模型策略，特别适用于需要多步决策的复杂任务。在代码智能体训练场景中，该技术能够引导模型在真实工具调用和代码补丁提交过程中持续优化行为模式。研究团队指出，当前智能体强化学习正从单一操作向长流程任务转型，代码仓库维护、浏览器自动化等复杂场景需要模型具备多轮调用、工具协同和上下文管理能力。

传统方法在整合这些执行框架时面临重大挑战——强制改造现有接口不仅接入成本高昂，更会导致关键训练信号丢失。Polar框架采用颠覆性设计理念，通过在模型API边界部署智能代理，避免对Codex CLI等运行外壳进行结构性修改。这种设计保留了Anthropic、OpenAI等平台请求风格的原生特性，同时实现训练数据的完整采集。

系统架构层面，Polar由rollout服务器和网关节点构成核心组件。前者负责任务调度、状态管理和回调处理，后者则管控整个执行生命周期，包括环境初始化、轨迹构建和资源回收。研究团队特别开发的独立工作池机制，通过READY缓冲区实现运行时预热与评测预热的并行处理，有效减少GPU训练等待时间。

实验数据显示，基于Qwen3.5-4B基础模型，Polar配合GRPO训练在SWE-Bench Verified基准测试中取得显著突破：Codex框架的pass@1指标从3.8%跃升至26.4%，提升幅度达594.74%；其他框架也有6%-18%的不同程度提升。效率优化方面，prefix_merging技术使训练步骤更新次数减少82%，墙钟时间缩短至原来的18%，GPU利用率从20.4%大幅提升至87.7%。

这项研究为智能体强化学习提供了全新范式，其创新性的接口设计理念和系统架构优化，为处理复杂执行框架与训练环境兼容性问题开辟了新路径。开源框架的发布预计将加速代码生成、自动化运维等领域的模型优化进程。

AQUA 不仅延续了哈浮飞行相机经典的 AI 智能运镜、无需遥控器的交互体验，更在 IP67专业级防尘防水、水面起降的可靠性，以及专为水上运动优化的飞行性能等方面，实现了革命性突破。 AQUA 致力于攻克…

很多用户疑惑为何荣耀Magic8 Pro能在极暗环境下久看不累，答案正藏在京东方为其深度赋能的LTPO技术方案中。游戏手机对屏幕完整性的苛求，在京东方赋能红魔11 Pro+的“悟空屏2.0”中得以完美实现…

在这个竞争激烈的价位段每款手机都有自己的特色定位而荣耀600系列凭借其在影像屏幕续航等方面的全面表现成为最值得推荐的选择特别是对于追求高性价比又不想在任何方面妥协的用户来说它几乎满足了所有期待无论是白天还是…

如果你的核心需求是实况拍照、视频直播、动态人像记录，那么OPPO Reno16 Pro几乎是为这个需求量身定制的“天选之机”。OPPOReno16 Pro凭借其在动态影像（实况/直播）领域硬件（云台主摄）…

小结：OPPO Reno16 Pro是一款几乎没有短板的“水桶旗舰”，尤其在影像、直播、续航和防护这几个学生党高度关注的维度上做到了极致。如果你追求极致的全能体验，特别是顶尖的影像、直播能力和超长续航，那…

然后来看看聊天管理上的区别，安卓版微信得长按聊天框才能弹出菜单；鸿蒙版微信只需要左滑一下聊天框，就能出现标记已读/不显示/删除选项。刚换华为新机的朋友不用担心，在熟悉了这些操作上的区别后，说不定还会觉得比之…

全新问界M9正式发布5月27日，全新问界M9正式发布，售价47.98-65.98万元。5月27日，港交所信息显示，段永平及其全资控股的H&HInternationalInvestment触发邀约收购，共买入泡…

过去阿里云的典型入口是云官网、控制台和一系列基础云产品；现在，模型调用、Token Plan、Skills、CLI和Agent工具被聚合到千问云之下。千问云解决的是开发者和Agent如何接入模型服务，Qwe…

一加13搭载LYT-808大底主摄和6400万像素OV64B长焦,支持8K视频拍摄和杜比视界HDR。从荣耀600系列的全焦段4K实况到vivo X200的蔡司光学体验;从一加13的专业级8K视频到Redm…

PCDaliy智能日报 - 每日更新世界智能科技的最新进展、产品评测和行业动态，为您提供全面而深入的视角，让您在这个日新月异的智能时代始终领先一步。
PC Daily（www.pcd.com.cn）所有稿件免费开放转载，转载请务必保留版权，并注明来源网址。
合作微信：netspread（注明:智能日报）
Copyright © PCD 2012-2023 www.pcd.com.cn All rights reserved. 鲁ICP备2022032383号-10 鲁公网安备37010202700527号