远程光学电瓶描绘(RPPG),其目的在没有任何接触的情况下从面部视频测量心脏活动和生理信号,在许多应用中具有很大的潜力(例如,远程医疗保健和情感计算)。最近的深度学习方法专注于利用具有有限时空接收领域的卷积神经网络进行微妙的RPPG线索,这忽略了RPPG建模的远程时空感知和相互作用。在本文中,我们提出了Physformer,基于端到端的视频变换器的架构,以自适应地聚合用于RPPG表示增强的本地和全局时空特征。作为Physformer中的关键模块,时间差异变压器首先提高了具有时间差异引导的全局关注的准周期性RPPG特征,然后优化了局部时空表示免于干扰。此外,我们还提出了标签分配学习和课程学习激发了频域中的动态约束,这为Phyformer和缓解过度装备提供了精心制造的监控。在四个基准数据集上执行综合实验,以显示我们在内部和交叉数据集测试中的卓越性能。一个突出显示的是,与大多数变压器网络不同于大规模数据集预先预订,所提出的Physformer可以从RPPG数据集上从头开始培训,这使得它作为RPPG社区的新型变压器基线。该代码将在https://github.com/zitongyu/physformer释放。
translated by 谷歌翻译
基于深度神经网络的图像分类可以被小和准毫不察觉的扰动的对抗例子误导。此外,在一个分类模型上创建的对抗性示例也可以欺骗另一个不同的模型。逆势实例的可转移性最近吸引了日益增长的利益,因为它使黑盒攻击对分类模型可行。作为分类的延伸,语义细分也有很大的关注其对抗的鲁棒性。然而,尚未系统地研究了对抗模型对分段模型的转移性。在这项工作中,我们深入研究了这个话题。首先,我们探讨了对分类和分割模型的对抗实例的过度现象。与对分类模型的观察结果相比,通过对源模型的过度限制的分类模型进行了限制,我们发现分段上的对抗示例并不总是过度装备源模型。即使呈现过度拟合,逆势实例的可转移也是有限的。我们将限制归因于分段模型的架构性状,即多尺度对象识别。然后,我们提出了一种简单有效的方法,称为动态缩放,克服限制。通过我们的方法实现的高可转移性表明,与先前作品中的观察结果相比,对分割模型的对抗示例可以容易地传递到其他分段模型。我们的分析和提案得到了广泛的实验支持。
translated by 谷歌翻译
我们介绍了一个新的图像分段任务,称为实体分段(ES),该任务旨在在不预测其语义标签的情况下划分图像中的所有视觉实体(对象和填充)。通过删除类标签预测的需要,对此类任务培训的模型可以更多地关注提高分割质量。它具有许多实际应用,例如图像操纵和编辑,其中分割掩模的质量至关重要,但类标签不太重要。我们通过统一的方式调查第一次研究,以调查卷大中心的代表对分割事物和东西的可行性,并显示这种代表在es的背景下非常好。更具体地说,我们提出了一种类似的完全卷积的架构,具有两种新颖的模块,专门设计用于利用es的类无话和非重叠要求。实验表明,在分割质量方面设计和培训的模型显着优于流行的专用Panoptic分段模型。此外,可以在多个数据集的组合中容易地培训ES模型,而无需解决数据集合并中的标签冲突,并且在一个或多个数据集中培训的模型可以概括到未经看管域的其他测试数据集。代码已在https://github.com/dvlab-research/entity发布。
translated by 谷歌翻译
培训语义分割模型需要大量的精细注释数据,使得很难快速适应不满足这种情况的新型类。很少拍摄的分割(FS-SEG)用许多约束来解决这个问题。在本文中,我们介绍了一种新的基准,称为广义的少量语义分割(GFS-SEG),分析了同时分割了具有很少的例子和基本类别的新型类别的泛化能力。第一研究表明,以前的代表性最先进的FS-SEG方法在GFS-SEG中缺乏,并且性能差异主要来自FS-SEG的约束设置。为了制作GFS-SEG易旧的,我们设置了GFS-SEG基线,可以在原始模型上实现不良性能的体现性能。因此,由于上下文对于语义分割是必不可少的,我们提出了显着提高性能的上下文感知原型学习(CAPL)1)利用支持样本的共同发生,以及2)将上下文信息动态地丰富到分类器,对每个查询映像的内容进行调节。两项贡献都是通过实验证明具有实际实际优点的贡献。对Pascal-VOC和Coco的广泛实验表现出CAPL的有效性,CAPL通过实现竞争性能来概括为FS-SEG。代码将公开可用。
translated by 谷歌翻译
条件梯度方法(CGM)广泛用于现代机器学习。 CGM的整体运行时间通常由两部分组成:迭代次数和每次迭代的成本。大多数努力侧重于减少迭代的数量,作为减少整体运行时间的手段。在这项工作中,我们专注于改善CGM的迭代成本。大多数CGM中的瓶颈步骤是最大内部产品搜索(MAXIP),需要在参数上线性扫描。在实践中,发现近似的maxip数据结构是有用的启发式。然而,理论上,关于近似的MAIPIP数据结构和CGM的组合,没有任何内容。在这项工作中,我们通过提供一个正式的框架来肯定地回答这个问题,以将临时敏感散列类型近似maxip数据结构与CGM算法组合起来。结果,我们展示了第一算法,其中每个迭代的成本在参数的数量中,对于许多基本优化算法,例如Frank-Wolfe,emergorithm和政策梯度。
translated by 谷歌翻译
最近的进展表明,可以通过像欧妮线方程等物理限制来实现半监督隐式表示学习。然而,由于其空间不同的稀疏性,该方案尚未成功地用于LiDAR点云数据。在本文中,我们开发了一种新颖的制定,条件在局部形状嵌入上的半监督隐式功能。它利用稀疏卷积网络的强大表示力,以产生形状感知密集特征卷,同时仍允许半监控符号函数学习,而不知道自由空间的确切值。具有广泛的定量和定性结果,我们证明了这种新的学习系统的内在属性及其在现实世界道路场景中的用途。值得注意的是,我们在Semantickitti将iou从26.3%到51.0%。此外,我们探索了两个范式来集成语义标签预测,实现隐式语义完成。可以在https://github.com/open-air-sun/sisc访问代码和模型。
translated by 谷歌翻译
在本文中,我们介绍了对非对称确定点处理(NDPP)的在线和流媒体地图推断和学习问题,其中数据点以任意顺序到达,并且算法被约束以使用单次通过数据以及子线性存储器。在线设置有额外要求在任何时间点维护有效的解决方案。为了解决这些新问题,我们提出了具有理论担保的算法,在几个真实的数据集中评估它们,并显示它们对最先进的离线算法提供了可比的性能,该算法将整个数据存储在内存中并采取多次传递超过它。
translated by 谷歌翻译
将基于深学习视频编码已经吸引了大量的关注它的巨大潜力排挤视频序列的时空冗余。本文提出了一种高效的编解码器,即双路径生成对抗性的基于网络的视频编解码器(DGVC)。首先,我们提出了一个双通道的增强与生成对抗网络(DPEG)重建压缩视频的详细信息。所述DPEG由一个$ \阿尔法$自动编码器和卷积长短期记忆(ConvLSTM),它具有大的感受域和多帧的引用,和$ \测试$利于结构特征重构的-path - 残余关注块的路径,这有利于局部纹理特征的重建。两条路径融合,并通过生成对抗性的流程协同训练。其次,我们重用两个运动补偿和质量增强模块,这是与运动估计进一步结合DPEG网络,并在我们的DGVC框架熵编码模块。第三,我们采用深视频压缩和提高了联合训练,进一步提高率失真(RD)性能。与X265 LDP非常快的方式相比,我们的DGVC由39.39%/ 54.92%在相同的PSNR / MS-SSIM,其通过一个胜过国家的本领域深视频编解码器降低平均比特每像素(BPP)相当幅度。
translated by 谷歌翻译
人重新识别(Reid)旨在从不同摄像机捕获的图像中检索一个人。对于基于深度学习的REID方法,已经证明,使用本地特征与人物图像的全局特征可以帮助为人员检索提供强大的特征表示。人类的姿势信息可以提供人体骨架的位置,有效地指导网络在这些关键领域更加关注这些关键领域,也可能有助于减少来自背景或闭塞的噪音分散。然而,先前与姿势相关的作品提出的方法可能无法充分利用姿势信息的好处,并没有考虑不同当地特征的不同贡献。在本文中,我们提出了一种姿势引导图注意网络,一个多分支架构,包括一个用于全局特征的一个分支,一个用于中粒体特征的一个分支,一个分支用于细粒度关键点特征。我们使用预先训练的姿势估计器来生成本地特征学习的关键点热图,并仔细设计图表卷积层以通过建模相似关系来重新评估提取的本地特征的贡献权重。实验结果表明我们对歧视特征学习的方法的有效性,我们表明我们的模型在几个主流评估数据集上实现了最先进的表演。我们还对我们的网络进行了大量的消融研究和设计不同类型的比较实验,以证明其有效性和鲁棒性,包括整体数据集,部分数据集,遮挡数据集和跨域测试。
translated by 谷歌翻译
增强了现实世界情景的稳健性已经被证明非常具有挑战性。一个原因是现有的鲁棒性基准是有限的,因为它们依赖于合成数据,或者它们只是将稳健性降低为数据集之间的概括,因此忽略各个滋扰因素的影响。在这项工作中,我们介绍了罗宾,是一个基准数据集,用于诊断视觉算法对现实世界中的个人滋扰的鲁棒性。罗宾在Pascal VOC 2012和Imagenet数据集中构建了10个刚性类别,并包括对象的分布示例3D姿势,形状,纹理,背景和天气状况。 Robin是丰富的注释,以实现图像分类,对象检测和3D姿势估计的基准模型。我们为许多流行的基线提供了结果,并进行了几个有趣的观察结果:1。与其他人相比,一些滋扰因素对性能有更强烈的负面影响。此外,对oodnuisance的负面影响取决于下游视觉任务。 2.利用强大数据增强的鲁棒性的目前的方法只有在现实世界的情况下只有边际效应,有时甚至会降低表现。 3.我们在鲁棒性方面,我们不会遵守卷积和变压器架构之间的任何显着差异。我们相信我们的数据集提供了丰富的试验台,以研究视觉算法的稳健性,并有助于大大推动该领域的前瞻性研究。
translated by 谷歌翻译