ECCV | Adaptive Spatial-BCE Loss for Weakly Supervised Semantic Segmentation(基于自适应空间二元交叉熵的弱监督语义分割)

ACM MM \u0026 ECCV 2022 | 美团视觉8篇论文揭秘内容领域的智能科技_办法_图像 AI快讯

论文作者:吴桐(北京理工大学&美团演习生),高广宇(北京理工大学),黄君实(美团),魏晓明(美团),魏晓林(美团),刘驰(北京理工大学)

论文***:https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136890198.pdf

论文简介:弱监督语义分割旨在办理全监督语义分割任务中所需的像素级标签人工本钱和韶光开销较大的缺陷,通过引入较弱的监督信息来降落干系本钱。
个中本文所利用的图像级监督本钱最低,但其较低的信息量也带来了更大的寻衅。
当前的通用流程是先通过分类网络天生分割伪标签,经由后处理细化后再用伪标签演习语义分割网络。
先前方法紧张有以下缺陷:1)天生的伪标签物体轮廓不清晰;2)前背景的划分阈值须要人工调节,降落了泛用性;3)性能严重依赖后处理,演习繁芜度较高。
为了缓解这些缺陷,我们提出了一个新的丢失函数——空间二元交叉熵丢失(Spatial-BCE),通过为前景和背景像素分配不同的优化方向来提高它们之间的特色差异性,进而实现更加清晰的伪标签物体轮廓,如下图1所示:

图1

此外,我们还引入了自适应阈值,通过在演习中让丢失函数自行划分前背景像素的比例,并在推理时可同样将划分阈值交由网络天生。
末了,我们还设计了配套的迭代式演习方法,大幅提高了初始伪标签的准确率,纵然不该用繁芜的后处理方法,我们也可以实现当前的最优性能。
大量实验表明,我们的方法在PASCAL VOC 2012和MS-COCO 2014数据集上在均可成为SoTA,如下图2所示:

图2

该方法对付广告营销素材解析、商品白底图(如下图3)生产等任务,具有强大的提效浸染。
针对营销素材、商品主图等元素解析能力,传统的方法须要利用构造化PSD来实现各素材元素、商品主体的分离,这极大地限定理解析能力的利用场景。
虽然,可以引入语义分割的能力来处理静态图片的素材解析,但是其标注本钱高、主体定义繁杂等问题,一贯困扰着设计和算法职员。
为此,基于大量随意马虎网络的图片级标签,可以通过本文的弱监督语义分割能力,高效地实现像素级的创意素材解析,进而为后续的创意重组和天生供应充足的供给。

图3

ACM MM | Efficient Modeling of Future Context for Image Captioning(基于自适应空间二元交叉熵的弱监督语义分割)

论文作者:费政聪(美团),黄君实(美团),魏晓明(美团),魏晓林(美团)

论文***:https://arxiv.org/pdf/2207.10897.pdf

论文简介:现有的图像描述(Image Caption)天生方法常日从左到右逐个天生单词,并受到局部信息(包括给定图像和历史单词)的约束。
有许多研究的目标是在解码过程中考试测验利用全局高下文进行优化,例如迭代解码,然而,如何有效和高效地结合未来高下文仍有待探索。

为了应对这个问题,受到非自回归图像描述(Non-Autoregressive Image Captioning, NAIC)可以利用修正掩码操作来理解双边关系的启示,我们旨在将这一进步移植到传统的自回归图像描述模型中,同时保持推理效率,不增加额外的韶光本钱,如下图4所示:

图4

详细来说,自回归和非自回归图像描述模型首先通过共享视觉编码器进行联合演习,以逼迫视觉编码器包含有效的未来高下文;然后,迫使自回归图像描述模型对其不一致预测词的分布校准(类似于知识蒸馏),同时额外捕捉非自回归模型中跨层交流的因果变革。
实验结果表明,我们提出的方法在MS COCO基准的自动指标评估和人类评估方面明显超过了最前辈的基准模型。

本文方法对付智能广告文案、商品先容天生(如下图5)有重大代价,有助于提升营销、曝光点击率,减少人工设计本钱。
对付广告营销文案的天生,产品图片给用户的第一印象来自于外不雅观,它对用户的决策有着重要的影响。
因此,图像描述天生系统必须能够充分挖掘图片视觉信息,反响产品的外不雅观特色,从而匆匆成消费者的点击和下单转化。
本文提出的高效未来信息建模方法,有助于更细粒度、更高质量的文本天生。

图5

内容分发

高效的内容分发离不开对其构造化描述,包括图像***的标签化、模态间(图-文、***-文本)干系性等。
近年来随着图文/短***内容的广泛性、个性化及热点效应日趋显著,对新标签下的模型冷启动、更细粒度(包括空间上、语义上)的图文匹配、风雅化的图像/***-文本检索提出了更高的技能哀求。

ACM MM | PPMN: Pixel-Phrase Matching Network for One-Stage Panoptic Narrative Grounding(针对单阶段全景指代分割的像素-短语匹配网络)

论文作者:丁子涵(北京航空航天算夜学&美团演习生),惠天瑞(中国科学院信息工程研究所),黄君实(美团),魏晓明(美团),魏晓林(美团),刘偲(北京航空航天算夜学)

论文***:https://arxiv.org/pdf/2208.05647.pdf

论文简介:Panoptic Narrative Grounding (PNG) 是一项新兴任务,其目标是分割由静止图像的密集阐述字幕描述的things和stuff类别的视觉工具。
之前的两阶段方法首先通过现有的全景分割模型提取分割候选区域,然后进行粗粒度的区域-短语匹配以得到每个名词短语对应的分割结果。

然而,两阶段方法常日有以下缺陷:1)第一阶段低质量候选区域的性能限定;2)区域特色池化导致的空间细节丢失;3)需为things和stuff种别分别设计的繁芜策略。
为了缓解这些缺陷,我们提出了一种单阶段端到端像素短语匹配网络(PPMN)(如下图6),通过直接将每个短语与其对应的像素匹配并大略的组合输出全景分割。

图6

因此,我们的模型可以从密集注释的像素-短语对而不是稀疏的区域-短语对的监督中利用足够和更风雅的跨模态语义对应。
此外,我们还提出了一种措辞兼容像素聚合(LCPA)模块,通过多轮优化进一步增强短语特色的判别能力,该模块为每个短语选择最兼容的像素,以自适应地聚合相应的视觉高下文。
大量的实验表明,我们的方法在 PNG 数据集上实现了最优的性能,该任务也为信息流场景下的像素级图像内容理解及图文对齐任务垫定了根本。

本文方法对付信息流场景下的用户评论标签挖掘有重大代价。
评论数据作为用户对商家的多维度描述,承载了大量真实、多样的用户兴趣点。
挖掘评论数据中的文本标签及图片定位信息,有助于我们从图文多模态角度深入理解用户兴趣,进而实现内容的精准投放。
本文的方法填补了以往粗粒度图文挖掘任务的不敷,通过端到真个像素-语句级别对齐,实现了更为精准、细致的多模态内容理解能力。
该能力可直接用于图像标签挖掘、跨模态以文搜图、图文多模态同等性判断等任务。

ACM MM | Concept Propagation via Attentional Knowledge Graph Reasoning for Video-Text Retrieval(基于把稳力机制的知识图推理观点传播方法及其在***文本检索任务中的运用)

论文作者:方晟(中国科学院打算技能研究所),王树徽(中国科学院打算技能研究所),卓君宝(中国科学院打算技能研究所&美团演习生),黄庆明(中国科学院打算技能研究所),马彬(美团),魏晓明(美团),魏晓林(美团)

论文***:https://dl.acm.org/doi/pdf/10.1145/3503161.3547785

论文简介:随着短***平台的兴起,***数量的急剧增长使得***文本检索技能加倍关键。
这个任务的紧张寻衅在于如何找到***和文本间细粒度的语义关联。
为理解决这个问题,本文提出了一个基于把稳力的观点传播网络框架(Attentional Concept Propagation, ACP),如下图7所示:

图7

本文考虑了观点层级的信息,在内容层面匹配的根本上引入了语义层面的匹配。
在语义层面的匹配分支中,本文设计了观点传播机制来挖掘***中的隐含语义。
详细来说,在外部知识的辅导下,本文的方法利用观点间的关联,扩展得到检测器之外的观点,以此来丰富***的表征。
通过这种办法,本文的方法实现了细粒度的***文本的匹配,从而得到更准确的检索结果,并在多个不同的基准模型以及多个公开数据集上运用了该方法,均得到了稳定的性能提升,证明了本文方法的有效性和泛化性能。

该方法可以在短***领域,用于扩展通用***标签体系并为***内容供应好的根本表征,进而在内容分发场景下,为用户呈现更加契合用户搜索意图与潜在兴趣的***内容,改进用户体验。

ECCV | PromptDet: Towards Open-vocabulary Detection using Uncurated Images(利用未经处理的图像面向开放词汇的目标检测)

论文作者:冯承健(美团),钟毓杰(美团),揭泽群(美团),初祥祥(美团),任海兵(美团),魏晓林(美团),谢伟迪(上海交通大学),马林(美团)

论文***:https://arxiv.org/pdf/2203.16513.pdf

论文简介:这项事情的目标是建立一个可扩展的目标检测器,利用零手动标注将目标检测器扩展到新的/未见过的种别,如下图8所示:

图8

为了实现这一点,我们做出了以下四项贡献:

为了追求泛化性,我们提出了一个两阶段的开放词汇目标检测器,利用来自预演习视觉措辞模型的文本编码器对种别无关的物体发起区域进行分类。
为了将RPN 发起区域的视觉潜在空间与预演习文本编码器的潜在空间配对,我们提出了区域提示(prompt)学习方法,以将文本嵌入空间与物体区域的视觉特色对齐。
为了扩大学习过程以检测更广泛的种别,我们通过一种新颖的自演习框架利用可用的在线资源,该框架许可在大量喧华的未经处理的网络图像上演习所提出的检测器。
为了评估我们提出的检测器,PromptDet,我们在具有寻衅性的 LVIS 和MS-COCO数据集进行了广泛的实验。
与现有方法比较,PromptDet利用更少的额外演习图像和零手动标注,表现出卓越的检测性能。

本文方法对付用户种草图片的理解和归类有重大代价,有助于向其他用户推举干系商品和景点。
用户在种草或评价时常日会分享一些图片,而在探求好商品或好去处时常日利用文本来搜索,图片和文本之间没有直接的对应关系,从而不能根据用户的搜索文本推举干系的种草商品和景点。
通过本文提出的方法,可以根据自定义的文本(如商品名称)检测图片中的物体,对种草图片进行理解和归类。
当用户利用文本搜索时,可以向用户推举最干系的种草商品和景点,实现精准和多样化的种草内容推举,提升种草转化率。

ACM MM | Synthesizing Counterfactual Samples for Effective Image-Text Matching(合成反事实样本以进行有效的图像-文本匹配)

论文作者:魏浩(中国科学院打算技能研究所),王树徽(中国科学院打算技能研究所),韩歆哲(中国科学院打算技能研究所),薛哲(北京邮电大学),马彬(美团),魏晓明(美团),魏晓林(美团)

论文***:https://dl.acm.org/doi/pdf/10.1145/3503161.3547814

论文简介:图像文本匹配(Image-Text Matching)是跨模态领域的一个根本研究问题,旨在度量图像和文本之间的语义相似性。
最近的事情常日利用难负样本挖掘(Hard Negative Mining)来捕获图像和文本之间的多重对应关系。
不幸的是,拥有丰富信息的负样本在演习数据中非常稀少,很难在随机采样的小批次中得到。
受到因果推理的启示,本文通过类比难负样本挖掘和因果效应优化来办理这一问题。
本文提出了反事实匹配(Counterfactual Matching, CFM)方法(如下图9),用于更加有效的匹配关系挖掘。

图9

如上图,CFM包含三个紧张部分,即用于自动因果因子识别的特色选择、用于保障因果因子完全性的自我探索和用于反事实样本合成的自我调度。
与传统的难负样本挖掘比较,该方法缓解了过拟合征象,有效地捕获了图像和文本之间的细粒度匹配关联。
本文将CFM与三种最前辈的图像文本匹配模型结合起来进行评估。
在两个公开数据集上进行的实验表明,本文提出的方法具有很强的通用性和有效性。

本文方法对付提升图像文本相关性建模效果具有主要代价,可进一步提升在图文干系性,图像细粒度理解,图像、***检索等下贱任务的效果(如下图10)。
在内容展示中,对付提升信息流内容的图像-文本、***封面-文本相关性,改进用户体验具有主要意义。

图10

ACM MM | Zero-shot Video Classification with Appropriate Web and Task Knowledge Transfer(基于网络知识与任务知识迁移的零样本***分类)

论文作者:卓君宝(中国科学院打算技能研究所&美团演习生),朱妍(中国科学院打算技能研究所&美团演习生),崔书豪(美团),王树徽(中国科学院打算技能研究所),黄庆明(中国科学院打算技能研究所),马彬(美团),魏晓明(美团),魏晓林(美团)

论文***:https://dl.acm.org/doi/abs/10.1145/3503161.3548008

论文简介:零样本***分类旨在识别在模型演习过程中从未见过的***种别,一样平常通过构建视觉特色和语义嵌入之间的映射来实现。
研究表明通过挖掘***包含的物体作为属性并结合外部知识能有效提升模型的性能。
但是,从可见种别挖掘的物体属性不能有效泛化到未见类,且外部知识中属性之间的关系与***中涌现的属性关系存在较大偏差。
本文提出了基于网络知识的属性构建方法和属性-种别关系挖掘方法,如下图11所示:

图11

根据***种别号称在网络中搜集干系的图像,并运用预先演习的物体识别模型对网络的图像进行识别,提取频繁涌现的物体作为该***种别干系的属性,构建属性-种别关系。
通过所挖掘的属性以及外部知识,采取图神经网络学习视觉特色到类别的映射,有效提升模型的泛化能力。
此外,为办理现有方法过拟合到已见类别的问题,本文提出通过估计已见类和未知类之间的相似度来辅导模型演习的方法。
实验表明,所提方法取得了显著的性能提升。

本文方法可在须要新的种别标签时,快速实现样本冷启动,加速标签模型研发。
对基于标签的短***内容运营,媒资管理,内容分发等运用能起到主要支撑。
可以通过少量示例样本快速构建***分类模型,从存量内容池中自动挖掘高代价内容(如:“探店种草”)匹配大众点评App“创造好去处”的产品定位,在首页信息流中为用户供应丰富的信息参考,如下图12所示:

图12

模型量化

ACM MM | Towards Accurate Post-Training Quantization for Vision Transformer(迈向Vision Transformer的高精度后量化算法)

论文作者:丁一芙(北京航空航天算夜学&美团演习生),秦浩桐(北京航空航天算夜学),闫青华(北京航空航天算夜学),柴振华(美团),刘俊杰(美团),魏晓林(美团),刘祥龙(北京航空航天算夜学)

论文***:https://dl.acm.org/doi/abs/10.1145/3503161.3547826

论文简介:后量化是CNN模型压缩中较为成熟的一个研究方向,然而如何在Vision Transformer上实现无损后量化在学界依然是一个没有办理的问题。
通过引入高精度的后量化算法,可以办理Transformer构造在做事端支配效率不高、显存占用过大的落地痛点,同时也为Mobile Transformer在移动端设备的落地供应更多可能性。

现有的研究方法中比较代表的是华为诺亚方舟实验室的FQ-ViT,在极低比特的情形下对量化偏差的评估与实际仍存在较大偏差,同时对具有幂率分布的SoftMax层的处理方法有待有进一步优化。
基于上述不雅观察,我们提出了一种名为APQ-ViT(Accurate Post-training Quantization framework for Vision Transformer)的方法(如下图13):通过引入底部偏差肃清的逐块校准策略,基于块层面感知量化偏差,减少量化对终极输出的影响,并设计了一种马太效应保持的Softmax后量化映射方法,可以达到在8 bit工业场景下基本性能无损的压缩效果,并且在更低比特(4/6 bit)下也能显著降落模型量化带来的精度丢失。

图13

本文方法可为内容场景中多媒体理解任务Transformer模型快速量化支配产生的性能丢失问题供应优化方案,同时也为端侧Transformer的落地运用供应技能支撑,并进一步减少App的包体积。

本文先容了美团视觉智能部环绕线上内容生产与分发,在跨模态匹配与天生、语义分割、物体检测、模型压缩等领域所做的一些科研事情,以及这些科研成果在实际场景中的运用,希望对大家有所帮助或启示。

| 本文系美团技能团队出品,著作权归属美团。
欢迎出于分享和互换等非商业目的转载或利用本文内容,敬请注明“内容转载自美团技能团队”。
本文未经容许,不得进行商业性转载或者利用。
任何商用行为,请发送邮件至tech@meituan.com申请授权。