阿里近日在人工智能领域取得重要进展,正式推出首个原生语言世界模型(LWM)Qwen-AgentWorld。该模型专为AI智能体研发设计,提供35B-A3B与397B-A17B两种参数规模版本,旨在通过内部环境模拟增强智能体的决策能力,而非替代真实交互场景。
与传统训练方式不同,Qwen-AgentWorld在预训练阶段即引入环境建模目标,贯穿CPT→SFT→RL全流程。此前通用模型通常在训练后期才加入环境理解模块,而新模型通过早期整合实现更高效的能力迁移。其核心突破在于单模型覆盖文本类(MCP、Search、Terminal、SWE)与GUI类(Web、OS、Android)共七大交互环境,支持跨领域知识共享。例如在模拟手机系统时,模型能准确预测点击删除图标后的界面变化;在电脑系统模拟中,可完整呈现从菜单栏选择"文件-打印"的操作路径。
研究团队同步发布配套评测基准AgentWorldBench,该基准基于5个前沿模型在9个成熟评测集上的真实交互数据构建,采用开放式评分体系从格式、事实性、一致性等五个维度评估模型表现。测试结果显示,397B-A17B版本以58.71分的综合得分超越GPT-5.4(58.25分)、Claude Opus 4.8及Gemini 3.1 Pro,在代码执行(Terminal)和工具调用(SWE)领域优势尤为显著。35B-A3B版本通过三阶段训练流水线提升8.66分,性能超越Claude Sonnet 4.6。
深入分析129条文本类交互数据后,研究人员发现模型涌现出三种独特推理模式:在自我修正方面,模型通过"Wait!"信号触发中止,平均每轮交互修正10.4次错误;信息防护机制可防止搜索场景中的答案泄露,当查询与预设答案无关时自动屏蔽敏感信息;多步因果推理能力体现在复杂命令模拟中,如预测"curl -s localhost:3000 | python3 -m json.tool"需构建包含服务器状态、端口监听等6个环节的推理链。
该模型已通过GitHub、ModelScope和Hugging Face平台开源,包含模型权重与评估基准。研究团队强调,语言世界建模并非要取代真实环境交互,而是通过可控性、可扩展性及内化预测能力,为智能体训练提供互补路径。这种技术路线有望突破现有智能体在复杂场景中的能力边界,为构建更强大的通用AI系统奠定基础。










