卡内基梅隆大学和丰田研究所合作开发了一项革命性的人工智能技术:Tracking Any Object Amodally, 使得AI能够在只能看到物体一部分的情况下,识别并追踪该物体的完整结构。
为提高物体追踪技术他们专门设计了一个数据集:TAO-Amodal
数据集特点与增强内容:
- 多样化类别: TAO-Amodal 数据集包含高达880种不同的类别,涵盖从日常物品到不常见物体的广泛范围。这种多样性对于训练AI系统理解和处理各种复杂场景至关重要。
- 丰富的视频序列: 数据集覆盖数千个视频序列,这些视频展示了各种遮挡和部分可见的物体。这些动态的视觉信息对于提升AI在现实世界场景中的适应性和反应能力极为重要。
- 详细的标注信息: 每个视频序列都配有详细的标注信息,包括非模态(amodal)和模态(modal)边界框,这些标注不仅描述物体的当前可见部分,还预测其被遮挡部分的可能形状和位置。
- 重点在于遮挡推理: TAO-Amodal 数据集的核心在于评估和提升追踪器在处理遮挡物体时的推理能力。这对于实现更加智能的自动驾驶、视频监控和机器人技术至关重要。
- 支持Amodal感知的发展: 该数据集的目标是推动Amodal感知技术的发展,即使在物体部分遮挡的情况下,也能追踪其完整形状和位置。
应用场景举例:
- 城市交通场景中的自动驾驶: 假设一辆自动驾驶汽车在繁忙的城市街道上行驶。它需要能够识别和追踪周围的行人、自行车和其他车辆,即使这些物体只是部分可见。例如,一个行人可能部分被停在路边的车辆遮挡,或者一个骑自行车的孩子可能部分藏在路边的灌木丛后面。这种技术可以帮助自动驾驶汽车更准确地识别这些部分遮挡的物体,从而做出更安全的驾驶决策。
- 零售店内的监控系统: 在一个拥挤的零售店里,监控摄像头需要能够追踪顾客和商品,即使它们部分被货架或其他顾客遮挡。这种技术可以帮助店铺更有效地监控商品的移动,预防偷窃行为,同时也能提供更好的顾客体验,通过分析顾客行为模式来优化店铺布局和产品摆放。
家庭机器人的应用: 家庭机器人可能需要在复杂的家庭环境中识别和追踪物体,例如玩具、宠物或家具。当这些物体部分被其他物品遮挡时,这种技术能够帮助机器人更准确地理解它们的位置和形状,从而在进行清洁、搬运或互动活动时更加高效和安全。
项目还开发了“Amodal Expander 插件”,一个轻量级的插件模块,用于将标准的 Modal 追踪器转换为 Amodal 追踪器。这意味着,即使在复杂的视觉环境中,该追踪器也能更准确地追踪物体。在TAO-Amodal数据集上的测试结果表明,该技术在追踪被遮挡物体方面取得了显著的改进,尤其是在追踪人物方面的性能提升了2倍。
这项技术不仅在自动驾驶领域具有巨大的应用潜力,而且在视频监控等多个领域都能发挥重要作用,大幅提升计算机视觉系统的智能水平。
论文:https://arxiv.org/abs/2312.12433
GitHub:https://github.com/WesleyHsieh0806/TAO-Amodal
项目:https://tao-amodal.github.io
评论留言