火狐游戏体育:腾讯优图17篇论文当选ICCV2021含跨模态检索与切割、车辆辨认等范畴

2021-08-27 来源：火狐体育平台app苹果作者：火狐体育葡萄牙官方合作

　　核算机视觉国际三大顶会之一的ICCV 2021论文接纳成果出炉！本次大会收到来自全球共6236篇有用投稿，终究有1617篇突出重围被选取，录用率约为25.9%。此次ICCV 2021接纳的论文分为检测、切割、盯梢、视觉定位、底层图画处理、图画视频检索、三维视觉等多个方向。本次腾讯优图试验室共有17篇论文被录入，其间Oral论文2篇，包括跨模态检索、切割、行人辨认、神经网络、人群计数、车辆辨认、物体辨认、视频偏好推理、多标签辨认等前沿范畴。

　　图在跨模态图画文本的了解中发挥着重要作用，因为图可以表征图画文本的内涵结构，而这种结构关于跨模态类似性的衡量具有很好的鲁棒性。在本文中，咱们提出了一种依据Wasserstein耦合图学习的办法来处理跨模态检索使命。首要，咱们别离依据两个输入的跨模态样本构建图，并经过相应的图编码器提取鲁棒特征。然后，构建一个Wasserstein耦合字典用于进一步的特征学习，其间该字典包括多组对应的图键值，并且每个键值对应一种模态。依据该耦合字典，可以经过Wasserstein图嵌入的办法将输入图转换到字典空间中完结类似性衡量。所提出的Wasserstein图嵌入办法经过最优传输捕获输入图与每个对应键值之间的图相关性，然后可以很好地表征图之间的结构联系。为了进一步促进图的判别性学习，咱们对耦合字典的图键值专门界说了一个依据Wasserstein衡量的判别丢失函数，该丢失函数可以使对应的键值愈加紧凑，非对应的键值愈加涣散。试验成果证明了咱们所提出的办法的有用性。

　　本文提出了渐进切割推理结构(PSI)来处理简笔画监督的语义切割使命。凭借于潜在的上下文依靠性，咱们规划封装了上下文形式传达和语义标签传达这两条首要头绪来增强并改进弱监督像素级切割成果。在上下文形式传达中，不同细粒度的上下文形式相互相关并经过图模型传递形式信息，以此来增强像素标签猜测的相信推理。进一步地，依靠于已估量像素的高相信度，初始标示点的标签信息经过自适应学习战略分散传达至图上的其他区域。上下文形式传达和语义标签传达这两条头绪终究在像素级标签推理中被建模成一个闭环的更新进程。很多的试验验证了咱们提出的PSI结构的有用性，一起该办法也在两个揭露的简笔画切割数据集上获得了优胜的功能。

　　了解深度神经网络的内部机理对神经网络供给可信的运用十分重要。现有的研讨首要聚集于如何将详细的语义与单神经元或单层相相关，疏忽了网络的全体推理进程的解说。本文提出了神经网络解耦这个概念，旨在将详细语义与解耦的子结构相相关，然后了解网络从输入到输出的全体推理进程。本文试验提醒了神经网络可以依照使命被拆解成子结构，并且最高层语义并不一定出现在神经网络最深层。最终，本文探讨了类似子结构是导致神经网络分类过错的原因之一。

　　本文从自顶而下和自底向上的实例切割办法启示，为弱监督实例切割使命提出一种共同平行检测切割的学习结构。特别地，检测模块和常见的弱监督方针检测相同，而切割模块选用自监督学习来学习类别无关的远景切割，然后再经过自练习来逐渐获得特定类别的切割成果。最终，本文在多个数据集上验证了该算法的有用性。

　　跟着深度学习年代的到来，行人重辨认（ReID）获得了明显的成果。可是，大多数办法仅处理了依据完好图片的行人重辨认问题。但在实在国际的场景常常触及被遮挡的行人，这类行人图片供给部分视觉外观，所以下降了 ReID 的准确性。一种常见的战略是经过辅佐模型定位可见的身体部位，可是辅佐模型的练习数据和待处理的数据存在范畴偏差等，作用欠安。为了避免在遮挡ReID问题中运用额定的有问题的模型，咱们提出了 OcclusionAware Mask Network (OAMN)。该办法提出了一个依据留意力机制的的掩码模型，它需求有遮挡标签的数据来辅导练习，为此，咱们提出了一种新的适用于遮挡问题的数据增强计划，该计划可为任何全身数据集生成多样化且准确符号的遮挡。咱们所提出的计划比现有的战略更适合包括有限种遮挡类型的实践国际景象。咱们还供给了一种新颖的遮挡共同计划。上述三个模型组件使现有的留意力机制可以准确地捕捉各种遮挡景象下的身体部位。咱们在多个行人重辨认的benchmarks前进行了各种归纳试验，证明了OAMN办法优于现有的SOTA办法。

　　单目深度估量旨在从单张图画或单目视频中猜测深度信息。近来一些自监督办法在KITTI和Cityscapes上获得了超卓的作用。可是，在更具应战性的黑夜场景中，因为低能见度和极点光照导致的弱纹路和帧间不共同性，这些办法往往不能得到可用的成果。为了处理这个问题，本文提出了一个新的结构：首要提出依据先验的正则化办法以学习深度信息的先验散布，避免出现异常成果；其次，提出了映射共同的图画增强模块曾经进图画可见度和比照度，一起坚持帧间共同性；最终，提出了依据核算的掩膜战略以去除弱纹路区域在练习中带来的搅扰。试验成果证明了本文办法的有用性，一起在两个常用的黑夜数据集上获得了当时最优的作用。

　　弱监督方针定位是指仅依据图画层面的类别标签学习方针方位的使命。依据卷积神经网络 (CNN)的分类模型往往仅会激活方针的部分判别区域，而疏忽完好的方针规模，称为部分激活问题。在这篇文章中，咱们以为部分激活问题是因为CNN的内涵特性导致。CNN由一系列卷积操作组成，导致模型仅具有部分的感触野，无法获取长距离的特征依靠性。依据此，咱们提出咱们提出依据Transformer的耦合语义类别激活图（TS-CAM）办法，凭借自留意力机制提取长距离特征类似性。TS-CAM 首要将图画切割为一系列子块，经过方位编码学习不同子块间大局的留意力。之后，对每个子块进行重新排列得到得到类别语义图。最终，交融模型学习的大局留意力求与类别语义图得到类别激活图。在 ILSVRC/CUB-200-2011 数据集上的试验标明，TS-CAM 的功能逾越其他依据CNN-CAM结构的办法约 7.1%/27.1%，到达SOTA。

　　在车辆重辨认使命中，难点是从不同视点的摄像头所拍照的图片中，准确地寻找出相同的车辆，而要有用地处理该问题，需求网络可以学习到车辆在不同视点的不变特征。为了可以获得这个鲁棒的表征，本文提出一种新式的异质联系互补网络（HRCN），该网络将特定区域特征和跨层特征作为弥补特征，来增强高层表达。考虑到这些特征存在异质性，各个特征之间的散布特征以及语义信息都不尽相同，为此本文在HRCN中规划一个图联系模块，将这些异质特征嵌入到共同的特征空间。此外，本文提出一种新的点评方针Cross-camera Generalization Measure (CGM)，相较CMC和mAP，CGM具有更强的方位灵敏性以及更好的跨摄像头泛化赏罚。试验成果标明HRCN在VehicleID和VeRi-776数据集上均到达state-of-the-art。

　　比较只是估量人群中的总人数，在人群中定位每个个别更为切合后续高阶人群剖析使命的实践需求。可是，已有的依据定位的处理办法依靠于某些中心标明（如密度图或许伪方针框）作为学习方针，这不但简略引进差错，并且是一种反直觉的做法。本文提出了一种彻底依据点的全新结构，可一起用于人群计数和个别定位。针对依据该全新结构的办法，咱们不满足于只是量化图画等级的肯定计数差错，因而咱们提出了一种全新的衡量方针即密度归一化均匀精度，来供给一个更全面且更精准的功能点评计划。此外，作为该结构一个直观解法，咱们给出了一个示例模型，叫做点对点网络（P2PNet）。P2PNet疏忽了一切冗余进程，直接猜测一系列人头点的调集来定位图画中的人群个别，这彻底与实在人工标示坚持共同。经过深化剖析，咱们发现完结该办法的一个中心战略是为猜测候选点分配最优的学习方针，并经过依据匈牙利算法的1对1匹配战略来完结了这一关键进程。试验证明，P2PNet不但在人群计数基准上明显逾越了已有SOTA办法，还完结了十分高的定位精度。

　　近期，人群计数使命中学习方针不准确的问题得到了日益的重视。受以往少量作业的启示，咱们摒弃了直接猜测计数值自身的思路，而是经过猜测计数值地点的预设区间来处理这个问题。可是，不合适的区间区分会使得来自不同计数区间的图画块所奉献的计数差错十分不均衡，并进一步导致较差的计数精度。因而，咱们提出了一个新颖的计数区间区分规范叫做均匀差错原则（UEP），该原则可以使得来自不同计数区间的计数差错奉献尽可能持平然后来最小化猜测危险。进一步地，为了缓解计数值量化进程中不可避免引进的数值量化差错，咱们提出了均匀计数署理原则（MCP）。MCP原则为每个计数区间选取最优的计数署理值来标明一切该区间的样本在推理进程中的猜测计数值，这使得图画等级的全体希望离散化差错可被疏忽不计。据咱们所知，本作业是第一个深化探求此类区间分类使命，并且针对其区间区分问题给出有用处理计划的。依据以上所提的可被理论证明的原则，咱们规划了一个简略高效的模型，称为UEPNet，该模型在多个威望数据集上到达了SOTA的精度。

　　依据决议计划的黑盒进犯是指在只要方针模型的 top-1 标签可用时结构对立样本。一种常见的做法是从一个大的扰动开端，然后用一个承认的方向和一个随机的方向迭代地削减它，一起坚持它的对立性。因为每次查询获取的信息有限和方向采样功率低下，很难在有限的查询次数内获得满足小的扰动。为了处理这个问题，咱们提出了一种新的进犯办法，称为自适应前史驱动进犯（AHA），它从一切前史查询中搜集信息作为当时采样的先验，曾经进功能。此外，为了平衡承认性方向和随机方向，咱们依据实践起伏削减与预期起伏削减的比率动态调整系数。这种战略前进了优化进程中查询的成功率，让对立样本沿着决议计划鸿沟快速移动。咱们的办法还可以与子空间优化（如降维）相结合，以进一步前进功率。在 ImageNet 和 CelebA 数据集前进行的试验标明，在相同数量的查询下，咱们的办法均匀下降了至少 24.3% 的扰动起伏。最终，咱们经过对盛行的防护办法和 MEGVII Face++ 供给的APIs进行评价来证明咱们办法的实践作用。

　　近年来，跟着数字设备的开展，越来越多的核算机视觉使命需求处理高清图画，比方视觉明显性检测使命。现有的明显性检测办法处理高清图片时，首要会面对两个问题。第一个问题是现有的办法往往无法一起准确捕捉高清图片的语义信息和鸿沟细节。为了处理这个问题，咱们将高清明显性检测使命解耦为低分-分类和高分-回归使命。在低分辨率阶段，咱们提出LRSCN网络充沛捕捉图片的语义信息；在高分辨率阶段，咱们提出HRRN回归得到准确的鸿沟细节。第二个问题是现有的高清明显性检测算法需求额定的高清标示数据练习网络，因而需求较大的标示价值。为了处理这个问题，咱们在练习阶段运用uncertainty loss，因而不需求额定的高清练习数据练习HRRN。咱们提出的办法在HRSOD-TE，DAVIS-S两个高清数据测试集，以及DUTS-TE，SOC等6个低分辨率测试数据集上都到达了SOTA的作用。

　　多标签辨认的首要方针是一起辨认一幅图画中的多个目标。现有的大多数作业首要经过学习标签共现依靠联系然后增强特征的语义表达，而疏忽了图画中多个物体间的空间依靠联系。对此，本文提出一种依据Transformer的双路互补联系学习结构来联合学习空间依靠与共现依靠。针对空间依靠，该办法提出跨标准Transformer建模长距离空间上下文相关；针对共现依靠，该办法提出类别感知束缚和空间相关引导，依据图神经网络联合建模动态语义相关，最终联合这两种互补联系进行协同学习得到鲁棒的多标签猜测成果。试验成果标明，该办法在经典多标签辨认数据集MS-COCO 和VOC 2007上均逾越SOTA。

　　个性化精彩视频检测旨在依据用户的喜好将长视频缩短为风趣的时间，这最近也引起了社区的重视。现在的办法将用户的前史作为全体信息来猜测用户的偏好，但疏忽了用户爱好的内涵多样性，导致偏好标明含糊和无法解说的猜测。在本文中，咱们提出了一个简略而有用的偏好推理结构（PR-Net），显式地将不同的爱好考虑在内，以进行具有可行解说的帧级精彩猜测。详细来说，关于每个输入帧，咱们经过依据留意力机制的前史精彩片段交融来生成输入相关的用户偏好。此外，为了避免用户前史信息不全等问题，咱们将由用户特定的偏好和学习得到的通用偏好交融成了归纳的偏好特征，然后完结了自适应地支撑通用精彩视频检测。最终，咱们经过核算查询帧与该用户的归纳偏好及非精彩偏好特征之间的语义类似度来猜测其是否归于精彩帧的程度。此外，为了缓解因为标示不完好形成的歧义，咱们提出了一种新的双向比照丢失，以保证嵌入空间的紧凑性和可微性。经过这种办法，咱们的办法明显优于最先进的办法，均匀准确度精度相对前进了 12%。

　　行人重辨认在近年来现已获得了明显的前进。可是，遮挡现象对最近的行人重辨认办法依然是个常见且具有应战性的使命。现在一些干流办法运用额定信息（比方，人体姿势信息）来判别人体可见部位，然后缓解遮挡问题。尽管这些办法获得明显的前进，可是他们严峻依靠于细粒度的额定信息，对额定信息中存在的估量过错灵敏。在本文中，咱们证明了假如额定信息变得稀少或许有噪声时，现存的办法功能是会出现下降的。因而，咱们提出了一种简略但有用的办法，该办法对稀少和有噪声的姿势信息是鲁棒的。咱们将姿势信息离散化为人体部分的可见度标签，这可以下降遮挡区域的影响。咱们在试验中证明了咱们的办法可以更有用和鲁棒地运用姿势信息。此外，咱们的办法可以很简略地嵌入到大多数行人重辨认办法中。相关的试验证明了咱们的算法到达了现在的领先水平。

　　近年来，依据文本的图画检索获得了长足的前进。可是，现有办法的功能在实践生活中会受到影响，因为用户可能会供给对图画的不完好描绘，这通常会导致成果充满了契合不完好描绘的误报。在这项作业中，咱们引进了部分查问询题并广泛剖析了它对依据文本的图画检索的影响。曾经的交互式办法经过被动地接纳用户的反应来迭代地弥补不完好的查询来处理这个问题，这既耗时又需求很多的用户尽力。相反，咱们提出了一种新颖的检索结构，该结构以问询和承认的办法进行交互进程，其间 AI 自动查找当时查询中短少的判别细节，而用户只需求承认 AI 的提议。详细来说，咱们提出了一种依据目标的交互，使交互检索愈加用户友爱，并提出了一种依据强化学习的战略来查找有差异的目标。此外，因为难以获得人机对话数据，全监督练习通常是不可行的，因而咱们提出了一种弱监督练习战略，除了文本图画数据集之外，不需求人工标示的对话。试验标明，咱们的结构明显前进了依据文本的图画检索的功能。

　　为使多视角3D物体辨认更切合实践场景，这篇作业专心于恣意视角下的物体辨认，即视角方位与个数恣意给定的状况；为处理恣意视角带来的新应战，咱们提出一种具有空间感知才能的模范视角表征；咱们首要将来自恣意视角的图画特征运用最优传输与一组可学的参阅视角特征对齐，由此得到一组固定数量的模范视角特征；随后咱们将这些对齐的模范视角特征进行聚合，得到一个鲁棒的3D物体表征用于辨认；咱们在此提出一种空间感知丢失，束缚模范视角特征能被离散地嵌入于欧式空间的各个象限；在ModelNet40、ScanObjectNN与RGBD数据会集的试验成果标明，咱们的办法不仅在传统的固定视角状况下功能优异，并且在更有应战的恣意视角状况下比较其他办法有明显的功能前进。

　　习在中共中央政治局第三十二次团体学习时着重坚决决计毅力静心苦干实干保证按期完结建军一百年奋斗方针

　　周末重磅！央行划定下半年8大作业重点，稀有提出开展离岸人民币商场，9家“明日系”组织完结清产核资

　　市政府党组召开会议传达学习习总书记关于遵循新开展理念的重要指示精神陈吉宁掌管

　　); } $(#jrtt-list).html(jrttListArr.join()); $(#jrtt-list-box).show(); } } } }); });