【第三十六周】VLN文献阅读

张开发
2026/4/20 21:28:23 15 分钟阅读
【第三十六周】VLN文献阅读
目录一、《ProFocus: Proactive Perception and Focused Reasoning in Vision-and-Language Navigation》二、《Expand Your SCOPE: Semantic Cognition over Potential-Based Exploration for Embodied Visual Navigation》三、《Agent Journey Beyond RGB: Hierarchical Semantic-Spatial Representation Enrichment for Vision-and-Language Navigation》四、《One Agent to Guide Them All: Empowering MLLMs for Vision-and-Language Navigation via Explicit World Representation》一、《ProFocus: Proactive Perception and Focused Reasoning in Vision-and-Language Navigation》这篇论文核心解决的是VLN里的两大痛点被动感知冗余视觉和无焦距推理历史信息。该论文提出了一个无需训练的渐进式框架在R2R、REVERIE 零样本榜单达到 SOTA。本文的贡献如下1、提出无需训练的ProFocus 框架结合感知与推理2、设计推理引导的主动感知机制形成感知 - 推理闭环主动查缺补漏不被动吸收全景图片。3、提出BD-MCTS从海量历史里选出 Top-K 高价值路径点让决策模型只聚焦关键历史路径4、在 R2R、REVERIE 零样本设置下超过所有基线长轨迹、跨数据集都稳健。具体来说两大缺陷1、被动处理冗余全景视觉直接处理全景图像视觉token膨胀、注意力分散容易丢失指令相关的细粒度线索如物体颜色、纹理、精确位置ps所谓视觉token类似与NLP中的文本token文本token就是讲一句话切成一个个单词同理视觉的输入是一张图片那么视觉token就是讲图像切成一个个小图像块2、无聚焦推理则是把所有历史观测的路径点全部存进上下文不做优先级排序并且长轨迹容易稀释注意力无法定位到合适的路径点推理不准确。所以本文研究人员提出ProFocus框架其定位就是无需训练的渐进式框架融合主动感知和聚焦推理主要是运用大语言模型和视觉语言模型该框架主要由三个智能体分工1、编排智能体LLM负责空间推理、生成查询、评估语义价值。2、感知智能体VLM 负责聚焦区域细粒度识别3、决策智能体LLM 负责 Top-K 路径点聚焦推理。此外还有2大核心机制推理引导主动感知机制和BD-MCTS聚焦推理机制对于推理引导主动感知机制目标是让智能体不再被动接收全景图而是缺少什么视觉信息就去获取什么视觉信息为此构建了自我中心语义地图主要是用VLM检测所有物体识别物体框架和类型然后输出自然语言告诉LLM物体的具体信息自我中心语义地图的作用是把杂乱场景变成有结构的空间信息方便LLM做空间推理。该机制的核心流程是推理驱动感知闭环首先是生成查询与聚焦区域输出视觉查询和聚焦区域作用是避免重复查询某个信息然后是细粒度感知VLM只在裁剪后的聚焦区域里识别输出物体的颜色、纹理、空间关系等细粒度文本描述然后是信息充足性评估让智能体自己判断既有信息够不够若不够则从第一步开始若够就结束感知循环最后是评估语义价值和存入记忆库将所有感知的信息给新发现的可行路径点打分分越高越相关将上面这些信息整合未多模态上下文存入记忆库。此机制可减少视觉token只看关键区域细粒度属性识别更精准并且能进行自适应感知随导航要求灵活调整。对于BD-MCTS 聚焦推理解决的问题是轨迹越长记忆库大全局推理注意力分散的问题。BD-MCTS一共有三个阶段第一个阶段是语义评估扩展不用传统的MTCS蒙特卡洛树搜索算法是一种通过大量随机试走和统计试走结果来选择最优下一步的决策搜索算法专门解决多路径的复杂决策问题直接用主动感知得出的语义价值初始化新节点直接借用记忆库的多模态上下文不用随机试错节省算力第二个阶段是动态细化反向传播当有新点加入模型就认为那个点是路径的最优点鼓励模型进行探索当没有新点加入模型就计算当前点的质量价值反向传播只更新根到当前点的路径不对称更新低质量触发回溯高价值强化前向探索。阶段3是带分支多样性的 Top-K 选择考虑路径聚合价值即按访问次数加权祖先节点质量访问次数多就证明这个节点是可靠的加入了距离惩罚保证物理可达性输出高价值路径点候选集总的来说ProFoucs用融合了LLM和VLM两者协同进行主动视觉感知并且同时BD-MCTS做历史关键路径点筛选之前的智能体都是被动接收全局图信息冗余严重且无法根据历史信息选择最优路径点使用了ProFoucs之后智能体不仅能够主动从视觉信息中获取关键信息还能根据上下文选择最优的路径。二、《Expand Your SCOPE: Semantic Cognition over Potential-Based Exploration for Embodied Visual Navigation》作者发现目前具身视觉导航总是忽略边界信息且无法关联局部观测与目标故而提出一个零样本框架把有潜力的边界信息做成时空图并结合自我校验提高决策精度和泛化能力此框架在在GOAT-Bench、A-EQA上超 SOTA 4.6%。本文有四大贡献1、提出零样本框架SCOPE以Frontier为核心探索信号。2、设计潜力图融合时空信息和边界潜力支撑全局规划。3、加入自我校验机制迭代修正决策减少错误信息4、在 GOAT-Bench、A-EQA 上超 SOTA 4.6%校准性、泛化性全面提升。边界是已探索和未探索的交界直接决定未来路径但现有方法只用几何特征并没有考虑语义价值并且记忆只停留在已走过的区域不会推理未知区域和目标区域有没有关系探索没有方向。因此作者提出提出零样本框架SCOPE把Frontier 当作核心探索线索用VLM 评估每个边界的探索潜力建成时空潜力图再用自我校验避免鲁莽决策在认识该框架之前我们需要先知道什么是任务形式化所谓任务形式化就是把问题说清楚即智能体是谁、能做什么动作、记忆里储存了什么、环境是怎么表示的。任务形式化就将不同的信息用统一的语言表示出来为后面的边界潜力评估和自我校验打下基础。SCOPE有三大核心模块Frontier 潜力评估器、潜力图和自我校验Frontier潜力评估器主要是借助VLM给每个边界打分潜力图通过时空传播潜力自我校验则是验证动作是否合理如有错误则修正错误该框架的核心流程为观测→潜力评估→潜力图更新→决策→自我校验→执行动作。对于潜力评估即边界潜力评估目标为给每个未探索边界打分判断值不值得去探索。一共有3个评估维度这些评估指标直接由VLM直接输出分别是语义丰富度表示物体、信息密度、可探索性是否通向更多新区域和目标相关性是否与目标物体或目标指令强关联。这样VLM就变成了一个通用的语义评估器。对于潜力图更新和决策涉及文中提到的潜力图结构化记忆潜力图结构化记忆的目标就是把边界潜力扩散到空间网络形成长期记忆避免智能体胡乱探索。首先进行环境建模采用2D网格每个网格存放潜力得分、访问次数、语义三个分量然后是空间传播由距离和半径控制离边界越近权重越高、潜力传播就越强。最后是探索价值计算公式如下E (潜力权重 语义权重 可探索权重 目标权重) × 回访惩罚回访惩罚的作用是避免反复访问一个地方。探索价值计算让智能体永远优先去高潜力、回访少、离目标近的地方。对于自我校验目标是防止VLM鲁莽决策、过度自信触发条件是初选动作是选择记忆里的物体或快照而探索边界是不触发自我校验的当触发自我校验时VLM会考虑这个快照或物体是不是满足目标需求如果满足则执行反之则重新选择这样能够大幅降低错误率。三、《Agent Journey Beyond RGB: Hierarchical Semantic-Spatial Representation Enrichment for Vision-and-Language Navigation》这篇文献指出VLN只凭借RGB是看不懂环境因为语言和视觉模态差异大只靠RGB容易丢失结构、忽略地标本身的多模态信息也是简单拼接并没有分层利用。所以作者提出SUSASUSA是一个层次化语义和空间增强架构其中采用了TSU文本语义理解做细粒度局部匹配用DSP深度增强空间感知做粗粒度全局地图再用HA混合聚合对齐指令在离散和连续VLN任务全面超越SOTA正如上面所说SUSA由3个核心模块组成分别是TSU、DSP和HAP对于TSU其目标就是把视觉变成文本缩小语言和视觉的差异当启动TSU时会执行2个步骤首先是对显著地标进行提取用BLIP-2给每个视图生成描述得到文本全景然后用CLIP文本编码器提取特征然后进行语义选择分为静态匹配和动态匹配静态匹配计算视图文本指令词的余弦相似度逐行最大池化而动态匹配用Cross-Attention 建模长程依赖最后进行加权融合。我们可以看出TSU不仅会提取地标、生成描述同时也会选出和指令相关的视图。DSP即深度增强空间感知目标是给智能体输入一张全局空间地图让智能体的路径规划不迷路。首先DSP进行深度全景编码深度图用ResNet-50训练RGB用CLIP编码CLIP擅长提取物体、场景的语义信息。然后构建深度探索地图通俗来说就是将智能体走过的路径平均池化建成深度探索地图和RGB探索地图同时还会记忆全局轨迹用于回溯和长程规划。最后用GASA图感知自注意力让指令与地图交互增强空间推理作用是让智能体知道哪里走过、走哪近这些路径是通向何方的普通的自注意力只处理序列而GASA会把探索地图当成一张空间图利用空间结构信息做注意力计算。对于HAP其目标是把局部文本、全局深度和RGB分层融合HAP把所有表示映射到同一纬度用可学习查询向量聚合同时学习4个权重即文本语义控制和指令匹配的文本描述有多重要、RGB视图控制当前看到的RGB图像有多重要、深度地图控制全局地图的空间信息有多重要、RGB地图控制全局RGB探索地图的语义信息有多重要不难看出视图偏向于局部观测地图偏向于全局观测如果输入指令有明确地标文本语义权重会变得很高如果在陌生走廊里那么深度图的权重就会变高优先观察空间布局这就是HAP最核心的地方把决策拆成局部和全局2条道路再进行动态融合避免单一路线错误。四、《One Agent to Guide Them All: Empowering MLLMs for Vision-and-Language Navigation via Explicit World Representation》该篇文献聚焦的是连续环境下的视觉语言导航核心是解耦架构和显式度量世界表示以及反事实推理让MLLM实现零样本SOTA导航并完成从仿真到机器人的零样本迁移。现有的MLLM导航用紧藕合设计空间和语义一起推理导致空间推理错误传导、精度低。所以本文提出GRA解耦架构主要贡献为1、把低层次空间估计和高层次语义规划分离2、提出交互式度量世界表示替代简陋文本地图3、加入反事实推理激发 MLLM 能力首先我们要明确连续环境中的VLN和普通VLN的区别前者在后者的基础上还需要考虑精细空间推理、连续控制难度远高于离散VLN而MLLM用于VLN的主流是零样本MLLM导航但基本都是紧耦合设计为什么说紧耦合设计不行主要其仅考虑第一人称RGB无法构建全局空间有时甚至会编造不存在的房间布局其次如果空间构建错误那么语义理解也会错误指令解读会完全跑偏最后是推理策略僵化无法针对性激发MLLM的能力在介绍GTA整体架构之前作者对于VLN-CE问题建模为部分可观测马尔可夫决策过程该过程用一个元组储存环境、指令、状态、观测、动作、转移这些信息GTA的整体架构为分层解耦 → 空间建模度量地图→ 交互接口 → 反事实推理大脑 → 执行。GTA由三大核心组成分别是度量映射模块、交互推理接口模块和反事实推理大脑模块对于度量映射模块所谓度量区别于文本地图和纯语言描述地图它是带真实物理尺寸的3D几何地图这样MLLM会有一个准则让它的决策不脱离现实而交互推理接口就像是翻译官把度量世界表示转成MLLM可理解的多模态信息而反事实推理大脑主要是结合指令和地图进行推演决策下一步该怎么走反事实推理会激发MLLM逻辑推理能力总而言之GTA用这三个模块让MLLM在连续VLN实现零样本SOTA作者指出具身智能的瓶颈不在MLLM本身而在世界表示方式世界表示方式合理的话会激发MLLM的优势会让其发挥更好智能体也会更好地理解世界、探索世界未来的研究方向可转向开放词汇3D感知去适配动态环境。

更多文章