2025/12/31 18:18:42
网站建设
项目流程
网站锚文本的内链建设,vs2008网站消息弹窗怎么做,织梦模板添加网站地图,男人和男人做爰漫画网站本文来源公众号“极市平台”#xff0c;仅用于学术分享#xff0c;侵权删#xff0c;干货满满。
原文链接#xff1a;https://mp.weixin.qq.com/s/_5QuylqaBze_rIbcmhDZYQ
极市导读
AutoSeg3D把在线3D分割重构成实例跟踪#xff0c;用长-短期记忆查询流统一维护ID与特征…本文来源公众号“极市平台”仅用于学术分享侵权删干货满满。原文链接https://mp.weixin.qq.com/s/_5QuylqaBze_rIbcmhDZYQ极市导读AutoSeg3D把在线3D分割重构成实例跟踪用长-短期记忆查询流统一维护ID与特征再辅以空间一致性学习抑制VFM过分割在ScanNet200上比ESAM提升2.8 AP且保持实时。论文信息标题Online Segment Any 3D Thing as Instance Tracking作者Hanshi Wang, Zijian Cai, Jin Gao, Yiwei Zhang, Weiming Hu, Ke Wang, Zhipeng Zhang原文链接https://arxiv.org/abs/2512.07599代码链接https://github.com/AutoLab-SAI-SJTU/AutoSeg3D01 导读在线、实时且细粒度的3D分割技术是具身智能体感知并理解其所处运行环境的基本能力。近期的研究进展采用了预定义的对象查询机制从被转化为3D点云的视觉基础模型输出中提取语义信息从而通过这些查询之间的交互实现空间信息的传播。然而感知本身是一个动态的过程因此时间维度在这些基于查询的算法体系中虽然至关重要却常常被忽视。因此为了进一步提升具身智能体的时间环境感知能力我们将在线3D分割重新定义为实例跟踪问题即AutoSeg3D模型。我们的核心策略是利用对象查询来实现时间信息的传播长期存在的实例关联关系有助于保持特征及对象身份的一致性而短期的实例更新则能够丰富实时的观测数据。鉴于在具身机器人技术中视角的变化往往会导致不同帧间对象可见性的差异这种机制能够帮助模型在无法获得完整瞬时视图的情况下形成对对象的全面理解。此外我们还引入了空间一致性学习机制以弥补视觉基础模型本身存在的信息碎片化问题从而为长期及短期的时间学习过程提供更加全面的数据支持。这些基于稀疏对象查询的时间信息交换与一致性学习机制不仅提升了空间理解能力还有效减轻了密集3D点云交互所带来的计算负担。我们的方法代表了当前这一领域的技术前沿在ScanNet200数据集上的性能比ESAM模型高出2.8个AP值并且在ScanNet、SceneNN以及3RScan数据集上也取得了稳定的优异成绩。02 效果展示ScanNet200数据集上的分割结果03 引言具备在线、实时且细粒度的三维实例分割能力是具身智能体感知和理解其操作环境的基础。自主机器人和具身助手越来越依赖此类系统来探索复杂场景并与之交互。早期的方法主要采用离线模式即在处理之前先积累完整的点云数据这会导致极高的延迟和内存成本。为了追求更快的在线感知能力近期的研究开始探索借助视觉基础模型Vision Foundation ModelsVFMs如 SAM的模式。现有的在线 VFM 辅助模型被设计为处理流式输入其流程是先用 VFM 初步预测分割结果随后将生成的掩码和记录的深度信息提升为超点表示。然而这些流程只是简单地将全局点特征跨扫描进行拼接而忽略了实例级的时间建模这加剧了 VFM 导致的碎片化和过度分割问题。事后非极大值抑制non-maximum suppression只能部分纠正这些错误并且会意外地导致有效信息的丢失。为了解决这些局限性我们从在线感知中维持时间一致性的既定方法中汲取灵感。例如经典的多目标跟踪Multi-Object TrackingMOT方法通过利用空间连续性和外观相似性来关联跨帧的检测结果从而实现一致的标识分配。类似地视频实例分割框架如 VisTR和三维检测模型如 Sparse4D采用基于查询的记忆库随时间传播和更新对象特征使每个实例能够保持对遮挡和部分视图的鲁棒的持久表示。支撑这些不同方法的核心设计原则是在时间序列中显式地维护和演变实例特定的表示。受此模式的启发我们将在线三维实例分割重新定义为实例跟踪任务。通过将对象级的时间先验直接集成到分割流程中我们的方法旨在同时纠正过度分割错误并强制保持标识一致性从而显著提高整体分割性能和鲁棒性。更具体地说我们引入了一种新颖的、以跟踪为中心的流程直接解决了基于 VFM 的方法的两个核心局限性。我们的框架分解为三个轻量级且协同的模块。首先长期记忆Long-Term MemoryLTM维护一个有界的跟踪库并采用基于置信度门控亲和矩阵的匈牙利分配算法以恒定的开销在长时间遮挡后恢复标识。其次短期记忆Short-Term MemorySTM通过距离感知的跨帧注意力机制优化实例嵌入以注入即时时间上下文同时过滤掉背景噪声。第三空间一致性学习Spatial Consistency LearningSCL在推理时通过联合推理二维外观和三维几何信息来合并高亲和力的掩码片段同时在训练时采用一对多片段监督来减轻过度分割并为 LTM 和 STM 生成连贯、高保真的查询。这些组件共同构成了一个连贯的实时三维实例分割系统该系统在跨帧中强制保持一致的对象标识注入即时时间上下文同时过滤掉背景噪声并合并高亲和力片段以直接抵消 VFM 过度分割。通过集成这些模块我们的框架在保持实时吞吐量的同时在 ScanNet200上相比近期的 ESAM实现了 2.8 AP 的提升。在 ScanNet200 和 ScanNet上进行的广泛评估以及在 SceneNN 和 3RScan 上进行的零样本评估均显示出一致的性能提升。04 主要贡献我们的贡献如下1我们将在线三维实例分割重新定义为一个连续的实例跟踪问题在一个统一框架内将每个由 VFM 得到的掩码视为一个跟踪查询。2我们提出了一种轻量级架构包含三个协同模块其中 LTM 跨帧传播标识以确保连续性STM 注入短期时间上下文同时过滤背景噪声SCL 合并重叠片段以抵消过度分割并丰富实例嵌入。3我们的框架在 ScanNet200、ScanNet、SceneNN 和 3RScan 上取得了新的最优结果同时保持了实时吞吐量消融研究验证了每个组件的贡献。05 方法图 1 展示了我们以跟踪为中心的在线三维分割框架。该设计灵感来自大脑的互补学习系统。具体而言海马体能够快速形成情景记忆从而能够快速适应新环境并与近期经验进行交互而新皮层则通过缓慢的、累积的学习将这些短暂痕迹整合为持久的表示从而产生稳定的知识存储。这种双重机制不仅增强了适应性还确保了记忆的一致性和持久性。与此类似我们将框架分解为用于实例关联的长期记忆和用于实例更新的短期记忆由三个轻量级但协同的模块实现1长期记忆LTM可在长时间内匹配实例标识实现长时间遮挡后的恢复。2短期记忆STM通过从紧邻的前一帧获取信息来递归更新每个实例的表示。3空间一致性学习SCL包括推理时的基于学习的掩码集成和训练时的实例一致性掩码监督分别抵消 VFM 固有的过度分割问题从而减少查询冗余并为 STM 和 LTM 提供连贯、高保真的掩码表示。06 实验结果无类别设置下在 ScanNet200 上的结果。表 1 详细列出了在 ScanNet200 上的无类别结果证明了我们的方法优于现有的最优方法。具体而言当 SAM 作为二维分割模型时与近期的 ESAM相比我们的方法在 AP 上提升了 3.3在 AP50 上提升了 3.0在 AP25 上提升了 1.4。即使使用更轻量级的二维分割模型如 FastSAM我们的方法仍能取得一致的性能提升这凸显了我们方法的有效性和泛化能力。在 ScanNet 和 SceneNN 上的结果。遵循 ESAM的实验设置表 2 报告了我们的方法在 ScanNet 上训练后在 ScanNet 和 SceneNN 上进行评估的结果以评估其泛化性能。在多个评估指标和数据集上的显著提升有力地证明了我们方法的有效性和泛化能力。具体而言与 ESAM 相比我们的方法在 ScanNet 评估中在 AP 上提升了 1.8在 AP50 上提升了 2.9在 AP25 上提升了 2.2。在 SceneNN 和 3RScan 上的结果。表 3 报告了我们的方法在 ScanNet200 上训练后在 SceneNN 和 3RScan 上进行评估的结果这再次证明了其强大的泛化能力。我们的方法超越了先前的方法在 AP50 和 AP25 分数上取得了显著更高的成绩。这凸显了我们方法在机器人应用中的有效性和适应性。07 总结 未来工作在本文中我们提出了一种新颖的、以跟踪为中心的框架用于在线、实时且细粒度的三维实例分割。通过将该任务重新定义为连续的实例跟踪我们的方法集成了长期记忆以实现鲁棒的标识传播、短期记忆以获取即时时间上下文以及空间一致性学习以抑制过度分割。在多个基准上的广泛实验表明我们的轻量级系统在保持实时效率的同时实现了最优的准确率。局限性。我们和先前的方法均未对移动对象的相对运动进行显式建模。我们将此留待未来研究。THE END !文章结束感谢阅读。您的点赞收藏评论是我继续更新的动力。大家有推荐的公众号可以评论区留言共同学习一起进步。