面部反欺骗(FAS)在确保人脸识别系统中起着至关重要的作用。经验上,给定图像,在该图像的不同视图上具有更一致的输出的模型通常更好地执行,如图1所示。通过这种令人兴奋的观察,我们猜想令人鼓舞的特征符合不同视图的一致性可能是提升FAS模型的有希望的方法。在本文中,我们通过增强FAS中的嵌入级和预测级别一致性正规(EPCR)来彻底探讨这种方式。具体地,在嵌入级别,我们设计了密集的相似性损失,以最大化两个中间特征映射的所有位置之间以自我监督的方式;虽然在预测级别,我们优化了两个视图的预测之间的均方误差。值得注意的是,我们的EPCR没有注释,可以直接融入半监督的学习计划。考虑到不同的应用方案,我们进一步设计了五种不同的半监督协议,以衡量半监督的FAS技术。我们进行广泛的实验表明EPCR可以显着提高基准数据集上几个监督和半监控任务的性能。代码和协议即将发布。
translated by 谷歌翻译
远程光学电瓶描绘(RPPG),其目的在没有任何接触的情况下从面部视频测量心脏活动和生理信号,在许多应用中具有很大的潜力(例如,远程医疗保健和情感计算)。最近的深度学习方法专注于利用具有有限时空接收领域的卷积神经网络进行微妙的RPPG线索,这忽略了RPPG建模的远程时空感知和相互作用。在本文中,我们提出了Physformer,基于端到端的视频变换器的架构,以自适应地聚合用于RPPG表示增强的本地和全局时空特征。作为Physformer中的关键模块,时间差异变压器首先提高了具有时间差异引导的全局关注的准周期性RPPG特征,然后优化了局部时空表示免于干扰。此外,我们还提出了标签分配学习和课程学习激发了频域中的动态约束,这为Phyformer和缓解过度装备提供了精心制造的监控。在四个基准数据集上执行综合实验,以显示我们在内部和交叉数据集测试中的卓越性能。一个突出显示的是,与大多数变压器网络不同于大规模数据集预先预订,所提出的Physformer可以从RPPG数据集上从头开始培训,这使得它作为RPPG社区的新型变压器基线。该代码将在https://github.com/zitongyu/physformer释放。
translated by 谷歌翻译
面部反欺骗(FAS)保护人脸识别从演示攻击(PAS)。现有的FAS方法通常监控PA探测器,使用手工制作二进制或像素 - 明智标签。然而,手工制作的标签可能不是监督PA探测器学习足够和内在欺骗线索的最适当的方式。我们提出了一种新的元师FAS(MT-FAS)方法来培训Meta-Tears FAS(MT-FAS)方法,用于更有效地监督PA探测器。元师以双层优化方式接受培训,以了解监督PA探测器学习丰富欺骗线索的能力。双级优化包含两个关键组件:1)元教师在培训集上监督探测器的学习过程的较低级别培训; 2)通过最大限度地减少探测器的验证损失,优化了元教师教学性能的更高级别培训。我们的元老师与现有的教师学生模型有很大不同,因为元教师明确培训,以便更好地教导探测器(学生),而现有教师受过卓越的准确性忽视教学能力。在五个FAS基准上的广泛实验表明,随着拟议的MT-FA,训练有素的Meta-Buiter 1)提供比手工标签和现有教师学生模型更适合的监督; 2)显着提高了PA探测器的性能。
translated by 谷歌翻译
神经辐射场(NERF)使用基于坐标的神经场景表示实现了前所未有的视图合成质量。然而,NERF的视图依赖项只能处理像亮点的简单反射,而是无法处理复杂的反射,例如来自玻璃和镜子的复杂反射。在这些方案中,NERF将虚拟映像模拟为实际几何形状,这导致了不准确的深度估计,并且当违反多视图一致性时产生模糊渲染,因为只有在一些视点下只能看到反射对象。为了克服这些问题,我们介绍了nerfren,它建在nerf,以模拟思考的场景。具体地,我们建议将场景分成传输和反射的组件,并模拟具有单独的神经辐射场的两个组件。考虑到这种分解是高度限制的,我们利用几何前瞻,并仔细设计的培训策略,以实现合理的分解结果。各种自捕获场景的实验表明,我们的方法实现了高质量的新颖观看合成和物理声音深度估计结果,同时启用场景编辑应用。代码和数据将被释放。
translated by 谷歌翻译
参考图像分割旨在通过自然语言表达段段。在文本和图像之间的不同数据属性中,对网络充满良好的对齐文本和像素级别特征是具有挑战性的。现有方法使用借预制模型来促进学习,但分别从预磨料模型转移语言/视觉知识,忽略多模态对应信息。灵感来自最近对比语言 - 图像预测(剪辑)的预先推进(剪辑),在本文中,我们提出了一个端到端的剪辑驱动的参考图像分割框架(CRIS)。有效地转移多模态知识,克里斯语言解码和对比学习来实现文本到像素对齐的对比学习。更具体地,我们设计了一种视觉语言解码器,以将微粒语义信息从文本表示传播到每个像素级激活,这促进了两个模态之间的一致性。此外,我们呈现文本到像素对比学学习,明确强制执行类似于相关像素级别特征的文本特征,并与无关相似。三个基准数据集的实验结果表明,我们的拟议框架显着优于现有的性能而无需任何后处理。代码将被释放。
translated by 谷歌翻译
在本文中,提出了一种新的视觉惯性内径(VIO)的步行 - vio,采用步行运动 - 自适应腿运动约束,其提出了用身体运动改变为四足机器人的定位。四足机器人主要使用VIO,因为它们需要快速定位进行控制和路径规划。但是,由于四足功能机器主要用于室外,因此从天空或地面提取的外来特征导致跟踪故障。此外,Quadruped Robots的行走运动导致摆动,这降低了相机和惯性测量单元(IMU)引起的定位精度。为了克服这些限制,许多研究人员使用VIO与腿运动限制。然而,由于四足机器人的行走运动根据控制器,步态,四足机器人的速度等,因此在添加腿运动限制的过程中应该考虑这些因素。我们提出了通过调整腿运动约束因素来使用的VIO,无论步行运动如何。为了评估Walk-VIO,我们创建和发布二章机器人的数据集,这些机器人在仿真环境中以各种类型的行走运动移动。此外,我们通过与当前最先进的算法进行比较验证了WAWN-VIO的有效性。
translated by 谷歌翻译
最近,视觉变压器(VIT)及其变体在各种计算机视觉任务中取得了有希望的表现。然而,VITS的高计算成本和培训数据要求将其应用程序限制在资源受限设置中。模型压缩是加快深度学习模型的有效方法,但压缩VITS的研究已经不太探索。许多以前的作品集中在减少令牌的数量。然而,这种攻击行会破坏VIT的空间结构,并且难以推广到下游任务中。在本文中,我们设计了统一的框架,用于对VITS及其变体的结构修剪,即升级Vits。我们的方法侧重于修剪所有VITS组件,同时保持模型结构的一致性。丰富的实验结果表明,我们的方法可以在压缩VITS和变体上实现高精度,例如,UP-DEIT-T在Imagenet上实现了75.79%的精度,这与Vanilla Deit-T以相同的计算成本优于3.59%。 UP-PVTV2-B0提高了PVTV2-B0的精度4.83%,以进行想象成分类。同时,上升VITS维护令牌表示的一致性,并在对象检测任务上提高一致的改进。
translated by 谷歌翻译
医疗行业的需求越来越多,具有自动化系统,用于检测和定位,否则是手动低效的。在牙科,它非常感兴趣地追踪下颌运河的途径。垂直牙龈神经(IAN)的颌骨运河位置的适当定位降低了在牙科植入术期间损坏其的风险。在时间和劳动中,手工检测运河路径不是有效的方式。在这里,我们提出了一种基于深度学习的框架来检测来自CBCT数据的下颌管。这是一个3级过程全自动端到端。在预处理阶段产生地面真理。我们不是使用常用的固定直径管状的地面真理,而是生成下颌运河的中心线,并在培训过程中使用它们作为地面真理。 3D U-Net架构用于模型培训。开发了一种有效的后处理阶段来纠正初始预测。测量精度,召回,F1分数和IOU分析体素级分割性能。然而,为了分析基于距离的测量,计算从地面真理到预测和预测地面真理的平均曲线距离(MCD)。进行广泛的实验以证明模型的有效性。
translated by 谷歌翻译
基于草图的图像操作是一个交互式图像编辑任务,用于根据用户的输入草图修改图像。现有方法通常将此任务制定为条件染色问题,这需要用户绘制除草图之外还要修改区域的额外掩码。蒙面区域被视为孔,并通过剪影模型填充在草图上。利用这种配方,可以通过随机制造掩模和提取边缘或轮廓来容易地获得成对的训练数据。虽然此设置简化了数据准备和模型设计,但它使用户交互复杂化并丢弃在蒙面区域中的有用信息。为此,我们调查了一种基于草图的图像操作的新范式:无掩盖的本地图像操作,只需要从用户素描输入并利用整个原始图像。给定图像和草图,我们的模型会自动预测目标修改区域并将其编码为结构不可知的风格矢量。然后,发电机基于样式向量和草图综合新的图像内容。最终通过将发电机输出混合到原始图像的修改区域中来产生操纵图像。我们的模型可以通过学习从风格矢量和素描的图像区域的重建来训练自我监督的时尚。该方法提供了更简单,更直观的用户工作流程,用于基于草图的图像操作,并提供比以前的方法更好的结果。更多结果,代码和交互式演示将在\ url {https://zengxianyu.github.io/sketchedit}上获得。
translated by 谷歌翻译
当应用于具有特定相机失真的新方案时,在无失真的数据集上培训的现有3D人类姿态估计算法遭受了性能下降。在本文中,我们提出了一种简单而有效的模型,用于视频中的3D人类姿势估计,通过利用MAML,基于代表优化的元学习算法可以快速适应任何失真环境。我们考虑一个特定失真的一系列2D关键点作为MAML的单一任务。但是,由于在扭曲的环境中没有大规模数据集,我们提出了一种有效的方法来从未置换的2D关数点生成合成扭曲数据。为了评估,我们假设两个实际测试情况,具体取决于运动捕获传感器是否可用。特别是,我们使用骨长对称性和一致性提出推理阶段优化。广泛的评估表明,我们所提出的方法在测试阶段成功地适应各种变形,并且优于现有的最先进的方法。所提出的方法在实践中是有用的,因为它不需要在测试设置中的相机校准和附加计算。
translated by 谷歌翻译