CVPR 2022 | 美团技能团队精选论文解读_模子_论文

2024-12-24 04:28:57 绘影字幕

CVPR的全称是IEEE国际打算机视觉与模式识别会议（IEEE Conference on Computer Vision and Pattern Recognition），该会议始于1983年，与ICCV和ECCV并称打算机视觉方向的三大顶级会议。
根据谷歌学术公布的2021年最新学术期刊和会议影响力排名，CVPR在所有学术刊物中位居第4，仅次于Nature、NEJM和Science。
CVPR今年共收到环球8100多篇论文投稿，终极2067篇被吸收，吸收率约为25%。

CVPR 2022 | 美团技能团队精选论文解读_模子_论文绘影字幕

Paper 01 | Compressing Models with Few Samples: Mimicking then Replacing

| 论文***：https://openaccess.thecvf.com/content/CVPR2022/papers/Wang_Compressing_Models_With_Few_Samples_Mimicking_Then_Replacing_CVPR_2022_paper.pdf

| 论文作者：王环宇（美团演习生&南京大学），刘俊杰（美团），马鑫（美团），雍洋（美团演习生&西安交通大学），柴振华（美团），吴建鑫（南京大学） | 备注：括号内的为论文揭橥时，论文作者所在的单位。

| 论文类型：CVPR Main Conference（Long Paper）

模型剪枝是模型压缩中一个较为成熟的研究方向，但在百万/千万数据集下剪枝后再调优的耗时问题，是制约该方向推广的一个主要痛点。
近年来，小样本下模型剪枝引起了学界的关注，尤其在大规模数据集或者数据源敏感的场景下，可以迅速完成模型的压缩优化。
但是，现有研究所采取的逐层通道对齐方法，在繁芜构造上会极大限定可剪枝区域的范围。
同时，在样本分布不屈衡的情形下，过度强调层间特色分布的同等性，反而会导致优化偏差的产生。

与直觉相反，本文提出了一种名为MiR (Mimicking then Replacing) 的方法--通过只利用Penultimate Layer的知识通报，丢弃了传统知识蒸馏方法中依赖的后验分布对齐。
并通过嫁接原模型中的分类头/检测头到压缩后的模型，可以在少样本下迅速地完成压缩模型的再调优。
实验证明本文提出的算法大幅度优于各种基线方法（并优于同期TPAMI事情），同时我们在美团图像安全审核等场景上，也得到了进一步的验证。

Mean and standard deviation of top-1/top-5 accuracy (%) on ILSVRC-2012

Paper 02 | Language-Bridged Spatial-Temporal Interaction for Referring Video Object Segmentation

| 论文***：https://arxiv.org/pdf/2206.03789.pdf

| 论文作者：丁子涵（美团），惠天瑞（中国科学院大学），黄君实（美团），魏晓明（美团），韩冀中（中国科学院大学），刘偲（北京航空航天算夜学）

| 论文类型：CVPR 2022 Main Conference Long Paper（Poster）

***目标指代分割，旨在分割***中自然措辞描述所指代工具的前景像素。
先前的方法要么依赖于3D卷积网络，要么结合额外的2D卷机网络作为编码器来提取稠浊时空特色。
然而，由于在解码阶段发生的延迟和隐式时空交互，这些方法存在空间错位或缺点滋扰的问题。

为理解决这些限定，我们提出了一种措辞桥接双向传输（LBDT）模块，该模块利用措辞作为中间桥梁，在编码阶段的早期完成显式和自适应时空交互。
详细来说，在韶光编码器、指代词和空间编码器之间，我们通过跨模态把稳力机制聚合和传输与措辞干系的运动和表不雅观信息。
此外，我们还在解码阶段提出了一个双边通道激活（BCA）模块，用于通过通道激活进一步去噪和突出时空同等的特色。
大量实验表明，我们的方法在不须要图像指代分割预演习的情形下在四个普遍利用的公开数据集中实现了最优性能，并且模型效率有显著提升。
干系代码链接：https://github.com/dzh19990407/LBDT。

论文方法整体框架图

Paper 03 | 3D-SPS: Single-Stage 3D Visual Grounding via Referred Point Progressive Selection

| 论文***：https://arxiv.org/pdf/2204.06272.pdf

| 论文作者：罗钧宇（美团演习生&北京航空航天算夜学），付佳辉（美团演习生&北京航空航天算夜学），孔祥浩（美团演习生&北京航空航天算夜学），高晨（北京航空航天算夜学），任海兵（美团），申浩（美团），夏中原（美团），刘偲（北京航空航天算夜学）

| 论文类型：CVPR 2022 Main Conference（Oral）

3D视觉定位任务旨在根据自然措辞在点云场景中定位描述的目标工具。
以前的方法大多遵照两阶段范式，即措辞无关的目标检测和跨模态的目标匹配，在这种分离的范式中，由于点云相较于图像，具有不规则和大规模的特有属性，检测器须要从原始点云中采样关键点并为每个关键点天生预选框。
但是，稀疏预选框可能会在检测阶段中遗漏潜在目标，而密集预选框则可能会增大后面匹配阶段的难度。
此外，与措辞无关的采样得到的关键点在定位目标上的比例也较少，同样使目标预测变差。

在本文中，我们提出了一种单阶段关键点渐进选择（3D-SPS）方法，从而在措辞的勾引下逐步选择关键点并直接定位目标。
详细来说，我们提出了一个描述感知的关键点采样（DKS）模块，以初步关注与措辞干系工具上的点云数据。
此外，我们设计了一个面向目标的渐进式关系挖掘(TPM)模块，通过多层模态内关系建模和模态间目标挖掘来风雅地聚焦在目标物体上。
3D-SPS避免了3D视觉定位任务中检测和匹配之间的分离，在单个阶段直接定位目标。

3D-SPS方法

Paper 04 | DeeCap: Dynamic Early Exiting for Efficient Image Captioning

| 论文***：https://feizc.github.io/resume/deecap.pdf

| 论文作者：费政聪（美团），闫旭（中科院打算所），王树徽（中科院打算所），田奇（华为）| 论文类型：CVPR 2022 Main Conference Long Paper（Poster）

准确的描述和效率的天生，对付现实场景中图像描述的运用非常主要。
基于Transformer的模型得到了显著的性能提升，但是模型的打算本钱非常之高。
降落韶光繁芜度的一种可行方法是在内部解码层中从浅层提前退出进行预测，而不通过全体模型的处理。
然而，我们在实际测试时创造以下2个问题：首先，浅层中的学习表示缺罕用于准确预测的高等语义和足够的跨模态领悟信息；其次，内部分类器做出的现有决策有时是不可靠的。

对此，我们提出了用于高效图像描述的DeeCap框架，从全局角度动态选择适当层数的解码层以提前退出。
准确退出的关键在于引入的模拟学习机制，它通过浅层特色来预测深层特色。
通过将模拟学习合并到全体图像描述模型中中，模拟得到的深层表示可以减轻在进行提前退出时由于短缺实际深层所带来的丢失，从而有效地降落了打算本钱，并担保准确性丢失很小。
在MS COCO和Flickr30K数据集的实验表明，本文提出的DeeCap模型在有4倍加速度的同时保有了非常有竞争力的性能。
干系代码链接：DeeCap。

通过模拟学习来优化深层网络特色的流程图

Paper 05 | Boosting Black-Box Attack with Partially Transferred Conditional Adversarial Distribution

| 论文***：https://openaccess.thecvf.com/content/CVPR2022/papers/Feng_Boosting_Black-Box_Attack_With_Partially_Transferred_Conditional_Adversarial_Distribution_CVPR_2022_paper.pdf

| 论文作者：冯岩（美团），吴保元（喷鼻香港中文大学），樊艳波（腾讯），刘李（喷鼻香港中文大学），李志锋（腾讯），夏树涛（清华大学）| 论文类型：CVPR 2022 Main Conference Long Paper（Poster）

本文研究在黑盒场景下的模型安全问题，即攻击者仅通过模型给出的query feedback，就实现对付目标模型的攻击。
当前主流的方法是利用一些白盒代理模型和目标模型（即被攻击模型）之间的对抗可迁移性（adversarial transferrability）来提升攻击效果。
然而，由于代理模型和目标模型之间的模型架构和演习数据集可能存在差异，即“代理偏差”（Surrogate Bias），对抗性迁移性对提高攻击性能的贡献可能会被削弱。
为理解决这个问题，本文提出了一种对代理偏差具有鲁棒性的对抗可迁移性机制。
总体思路是将代理模型的条件对抗分布的部分参数迁移，同时根据对目标模型的Query学习未迁移的参数，以保持在任何新的干净样本上调度目标模型的条件对抗分布的灵巧性。
本文在大规模数据集以及真实API上进行了大量的实验，实验结果证明了本文提出方法的有效性。

CGATTACK黑盒攻击流程图

Paper 06 | Semi-supervised Video Paragraph Grounding with Contrastive Encoder

| 论文***：https://openaccess.thecvf.com/content/CVPR2022/papers/Jiang_Semi-Supervised_Video_Paragraph_Grounding_With_Contrastive_Encoder_CVPR_2022_paper.pdf

| 论文作者：蒋寻（电子科技大学），缓步（电子科技大学），张静然（电子科技大学），沈复民（电子科技大学），曹佐（美团），申恒涛（电子科技大学）

| 论文类型：CVPR Main Conference, Long Paper（Poster）

***事宜定位属于跨模态***内容检索的一项任务，旨在根据输入的Query，从一段未经裁剪的***中检索出Query对应的***片段，相应的***片段可用于后续天生Query对应的动图，在搜索场景中实现按搜出动图。
与***文本检索（Video-Text Retrieval, VTR）这种检索结果为***文件的粗粒度检索机制不同，此项任务强调在***中实现事宜级别的细粒度跨模态检索，基于对***内容和自然措辞的协同理解，在时序上达到多种模态间的对齐。

本文首次提出了一种半监督学习的VPG框架，可以在更有效地利用段落中事宜高下文信息的同时，显著减少对时候标注数据的依赖。
详细来说，其由两个关键部分组成：(1) 一个基于Transformer的根本模型，通过比拟编码器学习***和段落文本之间的粗粒度对齐，同时通过勾引段落中每个句子之间的交互来学习事宜之间的高下文信息；(2) 一个以（1）为核心的半监督学习框架，通过均匀西席模型来减少对已标注数据的依赖。
实验结果表明，我们的方法在利用全部标注信息时性能达到了SOTA，同时在大量减少标注数据占比的情形下，仍旧能取得相称有竞争力的结果。

半监督学习的VPG框架

在CVPR 2022中，美团技能团队视觉智能部得到了第九届细粒度视觉分类研讨会（FGVC9）植物标本识别赛道的冠军，点评奇迹部得到了大规模跨模态商品图像召回比赛的冠军。
美团网约车奇迹部得到了轻量级NAS国际竞赛亚军。
美团视觉智能部得到了深度假造人脸检测比赛的第三名、SoccerNet 2022行人重识别比赛的第三名、大规模***目标分割竞赛（Youtube-VOS）的第五名。

干系的技能分享，后续将会在美团技能团队"大众年夜众号陆续进行推送，敬请期待。

写在后面

以上这些论文是美团技能团队与各高校、科研机构配合尽力的成果，本文紧张先容了我们在模型压缩、***目标分割、图像描述、模型安全、跨模态***内容检索、3D视觉定位等领域做的一些科研事情。

其余，美团技能团队也在积极参加国际寻衅赛，期望能将更多科研项目付诸于实践，进而产生更多的业务代价和社会代价。
我们在实际事情场景中碰着的问题和解决方案，在论文和比赛中均有所表示，希望能对大家有所帮助或启示，也欢迎大家跟我们进行互换。

美团科研互助

美团科研互助致力于搭建美团各部门与高校、科研机构、智库的互助桥梁和平台，依托美团丰富的业务场景、数据资源和真实的家当问题，开放创新，汇聚向上的力量，环绕人工智能、大数据、物联网、无人驾驶、运筹优化、数字经济、公共事务等领域，共同探索前沿科技和家当焦点宏不雅观问题，促进产学研互助互换和成果转化，推动精良人才培养。
面向未来，我们期待能与更多高校和科研院所的老师和同学们进行互助。
欢迎老师和同学们发送邮件至：meituan.oi@meituan.com 。

| 本文系美团技能团队出品，著作权归属美团。
欢迎出于分享和互换等非商业目的转载或利用本文内容，敬请注明“内容转载自美团技能团队”。
本文未经容许，不得进行商业性转载或者利用。
任何商用行为，请发送邮件至tech@meituan.com申请授权。