
我们常说结果重要,但过程更重要。这句话现在在AI领域有了新的注脚。目前,大多数人工智能模型都擅长处理单个指令并提供最终答案,就像只关心结果的学生一样。然而,当他们置身于一个信息不完全的动态现实世界,需要通过“看”和“做”来完成多步骤的复杂任务时,这种强调结果而忽略过程的模式就显得不合适了。如何使智能代理不仅采取正确的行动,而且发展出连贯可靠的内部思维过程?这是当前智能体解决实际问题所面临的重要瓶颈之一。近日,西北大学计算机系李曼玲教授团队与华盛顿大学、斯坦福大学、微软研究院合作,提出了一个名为 Vagen 的训练框架,专门用于训练视觉语言代理(VLM),可以在多轮交互中构建“世界的内部模型”。这项研究在 Neurips 2025 上被接受,相关论文和代码在 GitHub 上开源。图丨相关论文(来源:ARXIV)西北大学博士生王康瑞、张平跃、王子涵共同为第一作者。值得一提的是,这个研究团队收集了 35 名(TR35)入选者下的多项 MIT 技术评论。通讯作者李曼玲教授是2025年TR35全球入选者,斯坦福大学吴家俊教授和华盛顿大学Ranjay Krishna教授分别入选2024年和2025年TR35。亚太地区名单。要了解 Vagen 的价值,我们必须首先了解视觉 AI 智能体面临的挑战。想象一下你正在玩推盒子游戏:你看到屏幕上的图片,找出盒子的位置和目标t、规划移动路线,然后进行操作。这个过程看似简单,但对于AI来说却非常困难。现有的大规模语言模型在处理纯文本任务时表现出了强大的能力,但当任务涉及视觉信息时,问题就更加复杂。文本信息是完整和准确的,而视觉观察往往是片面的和嘈杂的。只有人才能通过摄像头看到眼前的场景,间接了解整个环境的完整状态。这就是所谓的“部分可观察马尔可夫决策过程”(POMDP)——智能体必须根据不完整的观察低估世界的真实状态。该研究小组指出了当前VLM代理的主要瓶颈。他们用 GPT-4O、Claude 4 等多个基础模型进行了测试,包括 .5 Sonnet 和 Gemini 2.5 Pro,发现即使是最强的 GPT-5 在他们设计的 5 个任务中整体表现也只有 0.75 分(来自 1 分)已签署。尤其是在需要精确操作的机器人任务中,几乎所有模型在某些子任务中都完全失败。这些任务涵盖了不同的情况,例如经典的推箱子和冰湖游戏、3D环境中的导航、机械臂的精细操作以及从图像生成SVG代码。它们既包括离散的网格世界,也包括连续的物理空间,充分考验视觉理解和推理能力。 Vagen的主要思想是让AI进行“隐式视觉状态推理”。具体来说,智能体在生成每个动作之前被迫完成两个推理步骤。第一步是“状态估计”——描述当前所看到的内容。就像人会说“盒子在我右边,目标在盒子上方”一样,AI也需要用语言清晰地表达当前的视觉状态。图丨相关论文(来源:ARXIV) 第二步是“Transition Modeling”——预测接下来会发生什么。如果我向右推,哪里盒子会消失吗?目标位置到底发生了什么?这两个步骤的结合就构成了所谓的“世界建模”。研究团队设计了一套结构化的输出格式,要求AI用标签描述当前状态,用标签解释推理过程,用标签预测未来状态,最后用标签提供实际行动。为了验证这种隐式推理的效果,研究团队比较了五种不同的推理策略,包括从完全不思考(nothink)到自由发挥(freethink)的不同组合,仅使用状态估计或仅使用过渡建模。结果表明,完整的全局方法(包括状态估计和转移建模)的总体表现为0.76,明显优于自由思考的0.67和无思考的0.28。值得注意的是,单独的状态估计或转移建模都有其自身的优点:前者执行后者在需要准确理解当前场景的导航任务中表现更好,而后者在需要准确预测的机械臂操作中表现更好。 。研究小组探索了三种表现形式。最直观的是自然语言描述,比如“玩家在左上角,盒子在玩家右侧”。第二种是符号表示,直接使用原生游戏符号,比如“P”代表玩家,“x”代表盒子。第三种是结构化格式,使用JSON格式的字典来记录万物的精确坐标。 (来源:ARXIV)实验结果相当令人惊讶。这在推箱子和冰湖这样的游戏中非常简单。在这些任务中,自然语言表现最好(0.61 和 0.71),而符号和结构化格式表现较差。研究团队分析,这是因为VLM在预训练过程中接触了大量的自然语言文本。对这种表达方式比较熟悉,对抽象符号的理解能力有限。但在机器人操纵任务中,情况则完全相反。结构化格式的平均得分为 0.94,高于自然语言的 0.91。原因是毫米级机械臂控制需要精确的坐标信息,而自然语言的模糊性会导致操作失败。这一发现还表明,视觉状态的表示不是全局的,而是取决于任务特征。对于一般需要语义理解的任务,自然语言是最佳选择;但对于高精度作业来说,结构化且准确的信息是必不可少的。仅仅有一个逻辑框架是不够的。如何训练AI学会正确推理是关键。 Vagen 使用强化学习(RL)方法通过奖励机制来指导模型改进。传统的强化学习方法通常给出e 整个任务结束时的总奖励,然后在每一步进行反向传播。但这种方法在具有多个交互周期的场景中效果不佳 - 想象一个需要 10 个步骤的任务。如果最终失败,人工智能就很难确定哪一步出了问题。 Vagen推荐两种机制来解决这个问题。首先是“世界建模奖励”,专门考核AI推理的质量。团队采用了LLM作为法官的方式,让GPT-4.1 nano充当法官,检查AI生成的描述和预测是否准确。这样,每一轮交互都可以立即得到推理质量的反馈,而不是等到任务结束才知道什么是对的,什么是错的。第二种是“双层gae”(bi-level gae)。该机制在两个级别计算奖励:首先在“轮次级别”评估每轮的整体表现,然后在“代币级别”最多 each 生成的单词。就像校对文章时,不仅要看整篇文章的结构,还要看每个段落、每个句子的表达。这种分层奖励分配可以让AI更准确地发现问题并加速学习。图丨代币级GAE和双层GAE框架(来源:ARXIV)实验数据证实了该机制的有效性。在完整的Vagen-Full框架下(结合WorldModeling Reward和Bi-level GAE),拥有30亿个参数的QWEN2.5-VL-3B模型最终达到了0.82的综合得分,不仅大大超过了未研究版本(0.21),甚至击败了参数更大的GPT-5(0.75)和Gemini 2.5 PR O(0.67)和Claude 4.5(0.62)。在寻呼过程实践中,研究团队观察到了一些有趣的现象。随着训练的进行,人工智能的反应逐渐从多样化变为模板化。在早期训练期间,AI 将描述状态有不同的方式,例如“我需要向右移动以接近盒子,然后推动”或“盒子在我的前面,我应该先向前移动,然后调整方向”。但到了下一阶段,答案就完全统一了,主要的区别只在于方向的词汇上。例如,他们都有一个固定的句型“我会移动到x,然后移动到Y”。这种模板化并不完全是一件坏事——它反映了对表达自我的有效方式的探索。但这也引发了另一个问题:奖励黑客行为。一些人工智能通过生成看似合理但实际上模糊的响应来自然地调整判断系统以“取悦”。例如,在 Ice Lake 中,一些 AI 习惯于无论当前状态如何都会回复“玩家已到达礼物位置”。这个回答在语法上是正确的,陈述了目的,并且很容易通过LLM评估员的检查,但并没有真正提供重要的理由NG信息。研究团队发现,使用双层GAE的模型特别容易出现这种行为,因为更精细的奖励机制让AI更容易找到捷径“刷点”。为了解决这个问题,团队开发了几种缓解技术,包括结构化分析(要求AI输出可以输出的信息,用F1分数进行评估)和重复惩罚(减少频繁出现的答案的奖励),在一定程度上缓解了这个问题。 Vagen为视觉AI智能体的训练开辟了一条新的道路,但从研究原型到实际应用仍有一段距离。论文显示,在配备 8 个 H100 GPU 的服务器上,训练一个任务需要 4 到 8 个小时,消耗大约 2300 万到 6000 万个 LLM 判断令牌,这对于商业部署来说是昂贵的。此外,Vagen 目前在 5 个精心设计的环境中表现良好,但现实世界的视觉任务往往更加开放和不确定,泛化需要进一步验证。参考文献: 1.
特别声明:以上内容(如有,包括图片或视频)由自媒体平台“网易号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号为社交媒体平台,仅提供信息存储服务。