远程光学电瓶描绘(RPPG),其目的在没有任何接触的情况下从面部视频测量心脏活动和生理信号,在许多应用中具有很大的潜力(例如,远程医疗保健和情感计算)。最近的深度学习方法专注于利用具有有限时空接收领域的卷积神经网络进行微妙的RPPG线索,这忽略了RPPG建模的远程时空感知和相互作用。在本文中,我们提出了Physformer,基于端到端的视频变换器的架构,以自适应地聚合用于RPPG表示增强的本地和全局时空特征。作为Physformer中的关键模块,时间差异变压器首先提高了具有时间差异引导的全局关注的准周期性RPPG特征,然后优化了局部时空表示免于干扰。此外,我们还提出了标签分配学习和课程学习激发了频域中的动态约束,这为Phyformer和缓解过度装备提供了精心制造的监控。在四个基准数据集上执行综合实验,以显示我们在内部和交叉数据集测试中的卓越性能。一个突出显示的是,与大多数变压器网络不同于大规模数据集预先预订,所提出的Physformer可以从RPPG数据集上从头开始培训,这使得它作为RPPG社区的新型变压器基线。该代码将在https://github.com/zitongyu/physformer释放。
translated by 谷歌翻译
Remote photoplethysmography (rPPG) enables non-contact heart rate (HR) estimation from facial videos which gives significant convenience compared with traditional contact-based measurements. In the real-world long-term health monitoring scenario, the distance of the participants and their head movements usually vary by time, resulting in the inaccurate rPPG measurement due to the varying face resolution and complex motion artifacts. Different from the previous rPPG models designed for a constant distance between camera and participants, in this paper, we propose two plug-and-play blocks (i.e., physiological signal feature extraction block (PFE) and temporal face alignment block (TFA)) to alleviate the degradation of changing distance and head motion. On one side, guided with representative-area information, PFE adaptively encodes the arbitrary resolution facial frames to the fixed-resolution facial structure features. On the other side, leveraging the estimated optical flow, TFA is able to counteract the rPPG signal confusion caused by the head movement thus benefit the motion-robust rPPG signal recovery. Besides, we also train the model with a cross-resolution constraint using a two-stream dual-resolution framework, which further helps PFE learn resolution-robust facial rPPG features. Extensive experiments on three benchmark datasets (UBFC-rPPG, COHFACE and PURE) demonstrate the superior performance of the proposed method. One highlight is that with PFE and TFA, the off-the-shelf spatio-temporal rPPG models can predict more robust rPPG signals under both varying face resolution and severe head movement scenarios. The codes are available at https://github.com/LJW-GIT/Arbitrary_Resolution_rPPG.
translated by 谷歌翻译
基于远程的光摄影学(RPPG)的生理测量值在情感计算,非接触式健康监测,远程医疗监测等方面具有良好的应用值,这已经变得越来越重要,尤其是在Covid-19-19-19大流行期间。现有方法通常分为两组。第一个重点是从面部视频中挖掘微妙的血量脉冲(BVP)信号,但很少明确地模拟主导面部视频内容的声音。它们容易受到噪音的影响,在看不见的情况下可能会遭受泛滥能力。第二个重点是直接建模嘈杂的数据,由于缺乏这些严重的随机噪声的规律性,导致了次优性能。在本文中,我们提出了一个分解和重建网络(DRNET),重点是生理特征而不是嘈杂数据的建模。提出了新的周期损失来限制生理信息的周期性。此外,提出了插件空间注意块(SAB),以增强功能以​​及空间位置信息。此外,提出了有效的斑块种植(PC)增强策略,以合成具有不同噪声和特征的增强样品。在不同的公共数据集以及跨数据库测试上进行了广泛的实验证明了我们方法的有效性。
translated by 谷歌翻译
基于视频的远程生理测量利用面部视频来测量血量变化信号,这也称为远程光摄影学(RPPG)。 RPPG测量的监督方法达到了最新的性能。但是,有监督的RPPG方法需要面部视频和地面真理生理信号进行模型培训。在本文中,我们提出了一种无监督的RPPG测量方法,该方法不需要地面真相信号进行培训。我们使用3DCNN模型在不同的时空位置中从每个视频中生成多个RPPG信号,并以对比度损失训练模型,其中将来自同一视频的RPPG信号汇总在一起,而来自不同视频的那些视频则被推开。我们在五个公共数据集上测试,包括RGB视频和NIR视频。结果表明,我们的方法优于先前的无监督基线,并在所有五个数据集上实现了非常接近当前最佳监督RPPG方法的精度。此外,我们还证明了我们的方法可以以更快的速度运行,并且比以前的无监督基线更强大。我们的代码可在https://github.com/zhaodongsun/contrast-phys上找到。
translated by 谷歌翻译
Camera-based physiological measurement is a growing field with neural models providing state-the-art-performance. Prior research have explored various "end-to-end" models; however these methods still require several preprocessing steps. These additional operations are often non-trivial to implement making replication and deployment difficult and can even have a higher computational budget than the "core" network itself. In this paper, we propose two novel and efficient neural models for camera-based physiological measurement called EfficientPhys that remove the need for face detection, segmentation, normalization, color space transformation or any other preprocessing steps. Using an input of raw video frames, our models achieve strong performance on three public datasets. We show that this is the case whether using a transformer or convolutional backbone. We further evaluate the latency of the proposed networks and show that our most light weight network also achieves a 33% improvement in efficiency.
translated by 谷歌翻译
基于远程光摄氏学的心率估计在几种特定情况下(例如健康监测和疲劳检测)起着重要作用。现有良好的方法致力于将多个重叠视频剪辑的预测HR平均作为30秒面部视频的最终结果。尽管这些具有数百层和数千个渠道的方法是高度准确且健壮的,但它们需要巨大的计算预算和30秒的等待时间,这极大地限制了算法的应用来扩展。在这些CicumStacnces下,我们提出了一个轻巧的快速脉冲模拟网络(LFPS-NET),在非常有限的计算和时间预算中追求最佳准确性,重点关注通用的移动平台,例如智能手机。为了抑制噪声组件并在短时间内获得稳定的脉冲,我们设计了多频模态信号融合机制,该机制利用了时频域分析理论,以将多模式信息与复杂信号分开。它有助于继续进行网络,而无需添加任何参数,可以更轻松地学习有效的热门。此外,我们设计了一个过采样培训策略,以解决由数据集的分布不平衡引起的问题。对于30秒的面部视频,我们提出的方法在大多数评估指标上取得了最佳结果,以估计心率或心率变异性与最佳论文相比。提出的方法仍然可以使用短时(〜15秒)的主体视频获得非常具竞争力的结果。
translated by 谷歌翻译
面对抗泡沫(FAS)和伪造探测在保护面部生物识别系统免受演示攻击(PAS)和恶性数字操作(例如,Deepfakes)中的生物识别系统中起着至关重要的作用。尽管大规模数据和强大的深层模型有希望的表现,但现有方法的概括问题仍然是一个空旷的问题。最近的大多数方法都集中在1)单峰视觉外观或生理学(即远程光摄影学(RPPG))线索;和2)用于FAS或面部伪造检测的分离特征表示。一方面,单峰外观和RPPG功能分别容易受到高保真的面孔3D面膜和视频重播攻击的影响,从而激发了我们设计可靠的多模式融合机制,用于广义面部攻击检​​测。另一方面,FAS和面部伪造探测任务(例如,定期的RPPG节奏和BONAFIDE的香草外观)都有丰富的共同特征,提供了可靠的证据来设计联合FAS和面部伪造探测系统,以多任务学习方式。在本文中,我们使用视觉外观和生理RPPG提示建立了第一个关节面欺骗和伪造的检测基准。为了增强RPPG的周期性歧视,我们使用两种面部时空时代的RPPG信号图及其连续小波转换为输入的两分支生理网络。为了减轻模态偏差并提高融合功效,我们在多模式融合之前对外观和RPPG特征进行了加权批次和层归一化。我们发现,可以通过对这两个任务的联合培训来改善单峰(外观或RPPG)和多模式(外观+RPPG)模型的概括能力。我们希望这种新的基准将促进FAS和DeepFake检测社区的未来研究。
translated by 谷歌翻译
自动疼痛识别对于医学诊断和治疗至关重要。现有工程分为三类:评估面部外观变化,利用生理线索,或以多模态的方式融合它们。然而,(1)外观变化很容易受到阻碍客观疼痛识别的主观因素的影响。此外,基于外观的方法忽略了对于随时间建模表达的远程空间依赖性。 (2)通过在人体上附着传感器来获得生理学提示,这不方便和不舒服。在本文中,我们提出了一种新的多任务学习框架,其以非接触方式编码外观变化和生理线索以进行疼痛识别。该框架能够通过所学习的外观表示的提出的注意机制来捕获局部和远程依赖性,这是通过在辅助任务中从视频中恢复的恢复的时间上富集的富集。该框架被称为RPPG的时空关注网络(RSTAN),并允许我们在公开的止痛数据库上建立非接触疼痛识别的最先进的性能。它展示了RPPG预测可以用作辅助任务,以便于非接触自动疼痛识别。
translated by 谷歌翻译
With the increase in health consciousness, noninvasive body monitoring has aroused interest among researchers. As one of the most important pieces of physiological information, researchers have remotely estimated the heart rate (HR) from facial videos in recent years. Although progress has been made over the past few years, there are still some limitations, like the processing time increasing with accuracy and the lack of comprehensive and challenging datasets for use and comparison. Recently, it was shown that HR information can be extracted from facial videos by spatial decomposition and temporal filtering. Inspired by this, a new framework is introduced in this paper to remotely estimate the HR under realistic conditions by combining spatial and temporal filtering and a convolutional neural network. Our proposed approach shows better performance compared with the benchmark on the MMSE-HR dataset in terms of both the average HR estimation and short-time HR estimation. High consistency in short-time HR estimation is observed between our method and the ground truth.
translated by 谷歌翻译
In recent years, the Transformer architecture has shown its superiority in the video-based person re-identification task. Inspired by video representation learning, these methods mainly focus on designing modules to extract informative spatial and temporal features. However, they are still limited in extracting local attributes and global identity information, which are critical for the person re-identification task. In this paper, we propose a novel Multi-Stage Spatial-Temporal Aggregation Transformer (MSTAT) with two novel designed proxy embedding modules to address the above issue. Specifically, MSTAT consists of three stages to encode the attribute-associated, the identity-associated, and the attribute-identity-associated information from the video clips, respectively, achieving the holistic perception of the input person. We combine the outputs of all the stages for the final identification. In practice, to save the computational cost, the Spatial-Temporal Aggregation (STA) modules are first adopted in each stage to conduct the self-attention operations along the spatial and temporal dimensions separately. We further introduce the Attribute-Aware and Identity-Aware Proxy embedding modules (AAP and IAP) to extract the informative and discriminative feature representations at different stages. All of them are realized by employing newly designed self-attention operations with specific meanings. Moreover, temporal patch shuffling is also introduced to further improve the robustness of the model. Extensive experimental results demonstrate the effectiveness of the proposed modules in extracting the informative and discriminative information from the videos, and illustrate the MSTAT can achieve state-of-the-art accuracies on various standard benchmarks.
translated by 谷歌翻译
监督深度学习方法的最新进展是使用面部视频实现基于光电觉描绘的生理信号的远程测量。然而,这些监督方法的性能取决于大标记数据的可用性。作为自我监督方法的对比学习,最近通过最大化不同增强视图之间的互信息来实现学习代表数据特征的最先进的性能。然而,用于对比学学习的现有数据增强技术不是设计用于从视频中学习来自视频的生理信号,并且当存在复杂的噪声和微妙和微妙和周期性的颜色或视频帧之间的形状变化时,通常会失败。为了解决这些问题,我们为远程生理信号表示学习提供了一种新的自我监督的时空学习框架,其中缺乏标记的培训数据。首先,我们提出了一种基于地标的空间增强,其基于Shafer Dichromatic反射模型将面部分成几个信息部件,以表征微妙的肤色波动。我们还制定了一种基于稀疏的时间增强,利用奈奎斯特 - 香农采样定理来通过建模生理信号特征有效地捕获周期性的时间变化。此外,我们介绍了一个受限制的时空损失,为增强视频剪辑产生伪标签。它用于调节训练过程并处理复杂的噪声。我们在3个公共数据集中评估了我们的框架,并展示了比其他自我监督方法的卓越表现,并与最先进的监督方法相比实现了竞争精度。
translated by 谷歌翻译
由于其在保护面部识别系统免于演示攻击(PAS)中的至关重要的作用,因此面部抗散热器(FAS)最近引起了人们的关注。随着越来越现实的PA随着新颖类型的发展,由于其表示能力有限,基于手工特征的传统FAS方法变得不可靠。随着近十年来大规模学术数据集的出现,基于深度学习的FA实现了卓越的性能并占据了这一领域。但是,该领域的现有评论主要集中在手工制作的功能上,这些功能过时,对FAS社区的进步没有任何启发。在本文中,为了刺激未来的研究,我们对基于深度学习的FAS的最新进展进行了首次全面综述。它涵盖了几个新颖且有见地的组成部分:1)除了使用二进制标签的监督(例如,``0'''for pas vs.'1'),我们还通过像素智能监督(例如,伪深度图)调查了最新方法; 2)除了传统的数据内评估外,我们还收集和分析专门为域概括和开放式FAS设计的最新方法; 3)除了商用RGB摄像机外,我们还总结了多模式(例如,深度和红外线)或专门(例如,光场和闪存)传感器下的深度学习应用程序。我们通过强调当前的开放问题并突出潜在的前景来结束这项调查。
translated by 谷歌翻译
动作检测的任务旨在在每个动作实例中同时推论动作类别和终点的本地化。尽管Vision Transformers推动了视频理解的最新进展,但由于在长时间的视频剪辑中,设计有效的架构以进行动作检测是不平凡的。为此,我们提出了一个有效的层次时空时空金字塔变压器(STPT)进行动作检测,这是基于以下事实:变压器中早期的自我注意力层仍然集中在局部模式上。具体而言,我们建议在早期阶段使用本地窗口注意来编码丰富的局部时空时空表示,同时应用全局注意模块以捕获后期的长期时空依赖性。通过这种方式,我们的STPT可以用冗余的大大减少来编码区域和依赖性,从而在准确性和效率之间进行有希望的权衡。例如,仅使用RGB输入,提议的STPT在Thumos14上获得了53.6%的地图,超过10%的I3D+AFSD RGB模型超过10%,并且对使用其他流量的额外流动功能的表现较少,该流量具有31%的GFLOPS ,它是一个有效,有效的端到端变压器框架,用于操作检测。
translated by 谷歌翻译
血压(BP)监测对于日常医疗保健至关重要,尤其是对于心血管疾病。但是,BP值主要是通过接触传感方法获得的,这是不方便且不友好的BP测量。因此,我们提出了一个有效的端到端网络,以估算面部视频中的BP值,以实现日常生活中的远程BP测量。在这项研究中,我们首先得出了短期(〜15s)面部视频的时空图。根据时空图,我们随后通过设计的血压分类器回归了BP范围,并同时通过每个BP范围内的血压计算器来计算特定值。此外,我们还制定了一种创新的过采样培训策略,以解决不平衡的数据分配问题。最后,我们在私有数据集ASPD上培训了拟议的网络,并在流行的数据集MMSE-HR上对其进行了测试。结果,拟议的网络实现了收缩压和舒张压测量的最先进的MAE,为12.35 mmHg和9.5 mmHg,这比最近的工作要好。它得出的结论是,在现实世界中,提出的方法对于基于摄像头的BP监测具有巨大潜力。
translated by 谷歌翻译
面部伪造技术的最新进展几乎可以产生视觉上无法追踪的深冰录视频,这些视频可以通过恶意意图来利用。结果,研究人员致力于深泡检测。先前的研究已经确定了局部低级提示和时间信息在追求跨层次方法中概括的重要性,但是,它们仍然遭受鲁棒性问题的影响。在这项工作中,我们提出了基于本地和时间感知的变压器的DeepFake检测(LTTD)框架,该框架采用了局部到全球学习协议,特别关注本地序列中有价值的时间信息。具体而言,我们提出了一个局部序列变压器(LST),该局部序列变压器(LST)对限制空间区域的序列进行了时间一致性,其中低级信息通过学习的3D滤波器的浅层层增强。基于局部时间嵌入,我们然后以全球对比的方式实现最终分类。对流行数据集进行的广泛实验验证了我们的方法有效地发现了本地伪造线索并实现最先进的表现。
translated by 谷歌翻译
微表达(MES)是非自愿的面部运动,揭示了人们在高利害情况下隐藏的感受,并对医疗,国家安全,审讯和许多人机交互系统具有实际重要性。早期的MER方法主要基于传统的外观和几何特征。最近,随着各种领域的深度学习(DL)的成功,神经网络已得到MER的兴趣。不同于宏观表达,MES是自发的,微妙的,快速的面部运动,导致数据收集困难,因此具有小规模的数据集。由于上述我的角色,基于DL的MER变得挑战。迄今为止,已提出各种DL方法来解决我的问题并提高MER表现。在本调查中,我们对深度微表达识别(MER)进行了全面的审查,包括数据集,深度MER管道和最具影响力方法的基准标记。本调查定义了该领域的新分类法,包括基于DL的MER的所有方面。对于每个方面,总结和讨论了基本方法和高级发展。此外,我们得出了坚固的深层MER系统设计的剩余挑战和潜在方向。据我们所知,这是对深度MEL方法的第一次调查,该调查可以作为未来MER研究的参考点。
translated by 谷歌翻译
能够可靠地估计来自视频的生理信号是低成本,临床前健康监测的强大工具。在这项工作中,我们提出了一种新的远程光学仪器描绘(RPPG)的新方法 - 从人脸或皮肤的观察结果测量血液体积的变化。类似于RPPG的当前最先进的方法,我们应用神经网络,以便在滋扰图像变异的不变性中学习深度表示。与此类方法相比,我们采用了一个完全自我监督的培训方法,这毫无依赖于昂贵的地面真理生理培训数据。我们所提出的方法在频率和时间光滑的频率和兴趣信号的时间平滑之前使用对比学习。我们在四个RPPG数据集中评估我们的方法,显示与最近监督的深度学习方法相比,可以实现可比或更好的结果,但不使用任何注释。此外,我们还将学习的显着重采样模块纳入了我们无监督的方法和监督基线。我们表明,通过允许模型来了解输入图像的位置,我们可以减少手工工程功能的需要,同时为模型的行为和可能的故障模式提供一些可解释性。我们释放守则以获得我们完整的培训和评估管道,以鼓励在这种激动人心的新方向上的可重复进展。
translated by 谷歌翻译
Face recognition technology has been widely used in daily interactive applications such as checking-in and mobile payment due to its convenience and high accuracy. However, its vulnerability to presentation attacks (PAs) limits its reliable use in ultra-secure applicational scenarios. A presentation attack is first defined in ISO standard as: a presentation to the biometric data capture subsystem with the goal of interfering with the operation of the biometric system. Specifically, PAs range from simple 2D print, replay and more sophisticated 3D masks and partial masks. To defend the face recognition systems against PAs, both academia and industry have paid extensive attention to developing face presentation attack detection (PAD) technology (or namely `face anti-spoofing (FAS)').
translated by 谷歌翻译
远程光插图学(RPPG)是一种快速,有效,廉价和方便的方法,用于收集生物识别数据,因为它可以使用面部视频来估算生命体征。事实证明,远程非接触式医疗服务供应在COVID-19大流行期间是可怕的必要性。我们提出了一个端到端框架,以根据用户的视频中的RPPG方法来衡量人们的生命体征,包括心率(HR),心率变异性(HRV),氧饱和度(SPO2)和血压(BP)(BP)(BP)用智能手机相机捕获的脸。我们以实时的基于深度学习的神经网络模型来提取面部标志。通过使用预测的面部标志来提取多个称为利益区域(ROI)的面部斑块(ROI)。应用了几个过滤器,以减少称为血量脉冲(BVP)信号的提取的心脏信号中ROI的噪声。我们使用两个公共RPPG数据集培训和验证了机器学习模型,即Tokyotech RPPG和脉搏率检测(PURE)数据集,我们的模型在其上实现了以下平均绝对错误(MAE):a),HR,1.73和3.95 BEATS- beats-beats-beats-beats-beats-beats-beats-beats-beats-beats-beats-beats-beats-beats-beats-beats-s-s-s-s-s-y-peats-beats-beats-beats-ship-s-s-s-in-chin-p-in-in-in-in-in-c--in-in-c-le-in-in- -t一下制。每分钟(bpm),b)分别为HRV,分别为18.55和25.03 ms,c)对于SPO2,纯数据集上的MAE为1.64。我们在现实生活环境中验证了端到端的RPPG框架,修订,从而创建了视频HR数据集。我们的人力资源估计模型在此数据集上达到了2.49 bpm的MAE。由于没有面对视频的BP测量不存在公开可用的RPPG数据集,因此我们使用了带有指标传感器信号的数据集来训练我们的模型,还创建了我们自己的视频数据集Video-BP。在我们的视频BP数据集中,我们的BP估计模型的收缩压(SBP)达到6.7 mmHg,舒张压(DBP)的MAE为9.6 mmHg。
translated by 谷歌翻译
由于视频序列中的大量嘈杂框架,野外动态面部表达识别(DFER)是一项极具挑战性的任务。以前的作品着重于提取更多的判别特征,但忽略了将关键帧与嘈杂框架区分开来。为了解决这个问题,我们提出了一个噪声动态的面部表达识别网络(NR-DFERNET),该网络可以有效地减少嘈杂框架对DFER任务的干扰。具体而言,在空间阶段,我们设计了一个动态静态融合模块(DSF),该模块(DSF)将动态特征引入静态特征,以学习更多的判别空间特征。为了抑制目标无关框架的影响,我们在时间阶段引入了针对变压器的新型动态类令牌(DCT)。此外,我们在决策阶段设计了基于摘要的滤镜(SF),以减少过多中性帧对非中性序列分类的影响。广泛的实验结果表明,我们的NR-dfernet优于DFEW和AFEW基准的最先进方法。
translated by 谷歌翻译