来源丨3D视觉工坊

CVPR'24|即插即用!无需从新演习!iKUN:指定任何目标进行跟踪_文本_模块 AI快讯

编辑丨极市平台

0. 这篇文章干了啥?

传统的多目标跟踪(MOT)任务旨在逐帧跟踪所有特定类别的工具,这在***理解中起着至关主要的浸染。
只管已经取得了重大进展,但它存在着灵巧性和泛化能力差的问题。
为理解决这个问题,最近提出了参考多目标跟踪(RMOT)任务,其核心思想是通过措辞描述辅导多目标跟踪。
例如,如果我们将"左侧有移动的汽车"作为查询输入,跟踪器将预测与描述相对应的所有轨迹。
然而,由于灵巧性的高代价,模型须要同时实行检测、关联和引用,因此,平衡子任务之间的优化成为一个关键问题。

为了完成这项任务,现有方法(例如TransRMOT)大略地将文本模块集成到现有的跟踪器中。
然而,这种框架有几个固有的缺陷:i)任务竞争。
一些MOT方法已经揭示了检测和关联之间的优化竞争。
在RMOT中,添加的引用子任务将进一步加剧这个问题。
ii)工程本钱。
每当我们想要更换基线跟踪器时,我们须要重写代码并重新演习全体框架。
iii)演习本钱。
联合演习所有子任务会导致高打算本钱。

本色上,跟踪和引用子任务的紧密捆绑是这些限定的紧张缘故原由。
这引发了一个自然的问题:"是否可能解耦这两个子任务?"。
这项事情提出了一个"跟踪到引用"的框架,个中插入了一个名为iKUN的模块,它首先跟踪所有候选工具,然后根据措辞描述识别查询工具,跟踪器在演习时被冻结,优化过程可以专注于引用子任务。

因此,核心问题在于设计一个可插入的引用模块。
直不雅观的选择是预演习在超过4亿个图像文本对上进行比拟学习的CLIP风格模块,它的紧张上风是精良的视觉观点和文本描述的对齐。
为大略起见,CLIP的视觉和文本流是独立的。
这意味着对付给定的视觉输入,CLIP将提取一个固定的视觉特色,而不考虑文本输入。
然而,在RMOT任务中,一个轨迹常日对应于多个描述,包括颜色、位置、状态等。
很难将单个特色与多种特色匹配起来。
受到这一不雅观察的启示,作者设计了一个知识统一模块(KUM),以自适应地根据文本辅导提取视觉特色。
此外,为了减轻描述的长尾分布的影响,提出了一种测试韶光相似性校准方法,以改进引用结果。
其紧张思想是估计开放测试集中描述的伪频率,并利用它们来改动引用得分。

对付跟踪子任务,卡尔曼滤波器被广泛用于运动建模。
过程噪声和不雅观测噪声是两个影响预测和更新步骤准确性的关键变量。
然而,作为手工设计的模块,这两个变量由预设参数确定,并且难以适应运动状态的变革。
作者通过设计一个名为NKF的神经版本的卡尔曼滤波器来办理这个问题,该滤波器动态估计过程和不雅观测噪声。

作者在最近发布的Refer-KITTI [37]数据集上进行了大量实验,iKUN显示出明显上风,超过了现有办理方案。
详细来说,iKUN在HOTA上超过了之前的SOTA方法TransRMOT 10.78%,在MOTA上超过了3.17%,在IDF1上超过了7.65%。
还在KITTI和DanceTrack上进行了传统MOT任务的实验,提出的NKF比较基线跟踪器实现了明显改进。
为了进一步验证iKUN的有效性,通过向DanceTrack添加措辞描述,贡献了一个更具寻衅性的RMOT数据集Refer-Dance。
iKUN比TransRMOT取得了显著改进,即HOTA为29.06%对9.58%。

下面一起来阅读一下这项事情~

1. 论文信息

标题:iKUN: Speak to Trackers without Retraining

作者:Yunhao Du, Cheng Lei, Zhicheng Zhao, Fei Su

机构:北京邮电大学人工智能学院、中国网络系统与网络文化北京重点实验室、中国北京文化和旅游部互动技能与体验系统重点实验室

原文链接:https://arxiv.org/abs/2312.16245

代码链接:https://github.com/dyhBUPT/iKUN

2. 择要

参考多目标跟踪(RMOT)旨在基于输入的文本描述跟踪多个工具。
以往的研究通过大略地将额外的文本模块集成到多目标跟踪器中来实现它。
然而,它们常日须要重新演习全体框架,并且在优化方面存在困难。
在这项事情中,我们提出了一种可插入的知识统一网络,称为iKUN,以实现与现成跟踪器的即插即用通信。
详细地,设计了一个知识统一模块(KUM),以自适应办法根据文本辅导提取视觉特色。
同时,为了提高定位精度,我们提出了一种神经版本的卡尔曼滤波器(NKF),以根据当前运动状态动态调度过程噪声和不雅观测噪声。
此外,为理解决文本描述的开放式长尾分布问题,提出了一种测试韶光相似性校准方法,以伪频率来优化置信度分数。
在Refer-KITTI数据集上进行了大量实验,验证了我们框架的有效性。
末了,为了加快RMOT的发展,我们还通过扩展公开的DanceTrack数据集,增加了运动和着装描述,贡献了一个更具寻衅性的数据集Refer-Dance。

3. 效果展示

与先前的RMOT框架进行比较,以及iKUN。
(a) 先前的方法将引用模块纳入多目标跟踪器中,须要重新演习整体框架。
(b) 相反, iKUN可以直接插入现成的跟踪器之后,在演习时跟踪器被冻结。

KUM的动机。
给定一个轨迹和一组描述,(a) 在没有来自文本流的辅导的情形下,哀求视觉编码器输出一个单一特色以匹配多个文本特色;(b) 有文本辅导时,视觉编码器可以为每个描述预测自适应特色。

4. 基本事理是啥?

iKUN的总体框架。
视觉流首先嵌入本地工具特色flocal和全局场景特色fglobal,然后利用知识统一模块(KUM)对它们进行聚合。
紧随其后的是一个韶光模型和一个视觉头,用于天生终极的视觉特色fv。
与此同时,文本流对文本特色ft进行编码。
末了,利用逻辑头来预测fv和ft之间的相似度得分。

知识统一模块的三种设计。
特色图的形状显示为它们的张量形状,批量大小为B。
为了清晰起见,这里省略了终极的空间全局均匀池化操作。

5. 实验结果

Refer-KITTI。
当前的SOTA方法,TransRMOT分别得到了38.06%、29.28%、50.83%的HOTA、DetA、AssA。
比较之下,将iKUN集成到基于YOLOv8的各种现成跟踪器中,并取得了同等的改进,即41.25%至44.56%的HOTA。
通过切换到与TransRMOT相同的检测器,即DeformableDETR,分别得到了48.84%、35.74%、66.80%的HOTA、DetA、AssA。
主要的是,由于框架的灵巧性,iKUN只需针对多个跟踪器进行一次演习。

此外,为了专注于关联和指代能力的比较,进行了oracle实验,以肃清定位准确度的滋扰。
也便是说,根据地面实况改动了终极估计轨迹的坐标(x,y,w,h)。
请把稳,没有添加或删除边界框,也没有修正ID。
在这种设置下,iKUN与TransRMOT比较也表现出色,即61.54%对54.50%的HOTA。

KITTI。
在表2中将设计的NeuralSORT与KITTI上确当前SOTA跟踪器进行比较。
所有跟踪器都利用了来自YOLOv8的相同检测结果。
为大略起见,利用了与Refer-KITTI相同的数据分割协议。
结果表明,NeuralSORT在汽车和行人种别上均取得了最佳结果。

溶解实验。

知识统一模块。
在表3中比较了KUM的三种设计。
结果表明,所有这些策略都可以显著改进基准方法,这证明了文本辅导机制的有效性。
详细而言,"文本优先调制"实现了最佳的关联性能(AssA),但在检测方面表现不佳(DetA)。
"交叉干系"得到了更高的DetA,但更低的AssA。
"级联把稳力"在HOTA和DetA指标上取得了最佳结果,并且在AssA指标上是可比的。
末了,选择"级联把稳力"作为KUM的默认设计。

相似性校准。
在表5中研究了映射函数f(·)中超参数a、b的影响。
据宣布,性能对变革的值具有鲁棒性。
在这项事情中,选择a = 8和b = -0.1作为默认值,这带来了0.81%HOTA和2.09%AssA的性能增益。

神经卡尔曼滤波器。
首先以DeepSORT为基准,研究了NeuralSORT在KITTI上的不同组件在表4中的影响。
最主要的是,对付汽车和行人,NKF将HOTA分别提高了1.32%和3.50%。
其他技巧进一步为汽车和行人带来了1.58%和1.94%的增益。
然后,我们以ByteTrack为基准,进一步研究了NKF在KITTI和Dance-Track上的影响。
可以看到,在这两个数据集上的所有评估指标都有显著改进。

演习和推理韶光。
在Refer-KITTI上利用多个Tesla T4 GPU进行实验,并在表7中比较了TransRMOT和iKUN的演习和推理韶光。
可以不雅观察到iKUN的韶光本钱要低得多。
请把稳,为了公正比较,跟踪过程也包括在推理韶光内。

6. 总结

这项事情提出了一种新颖的模块,iKUN,可以插入到任何多目标跟踪器之后,实现参考跟踪。
为理解决一对多对应的问题,知识统一模块被设计为根据文本描述调节视觉嵌入。
进一步提出了相似性校准方法,通过在开放测试集中估计的伪频率来细化预测得分。
此外,还引入了两个轻量级神经网络到卡尔曼滤波器中,动态更新过程和不雅观测噪声变量。
iKUN的有效性通过在公开数据集Refer-KITTI和新构建的数据集Refer-Dance上的实验得到了证明。