智能论文笔记

The Way to my Heart is through Contrastive Learning: Remote Photoplethysmography from Unlabelled Video

John Gideon , Simon Stent

分类：计算机视觉

2021-11-18

能够可靠地估计来自视频的生理信号是低成本，临床前健康监测的强大工具。在这项工作中，我们提出了一种新的远程光学仪器描绘（RPPG）的新方法 - 从人脸或皮肤的观察结果测量血液体积的变化。类似于RPPG的当前最先进的方法，我们应用神经网络，以便在滋扰图像变异的不变性中学习深度表示。与此类方法相比，我们采用了一个完全自我监督的培训方法，这毫无依赖于昂贵的地面真理生理培训数据。我们所提出的方法在频率和时间光滑的频率和兴趣信号的时间平滑之前使用对比学习。我们在四个RPPG数据集中评估我们的方法，显示与最近监督的深度学习方法相比，可以实现可比或更好的结果，但不使用任何注释。此外，我们还将学习的显着重采样模块纳入了我们无监督的方法和监督基线。我们表明，通过允许模型来了解输入图像的位置，我们可以减少手工工程功能的需要，同时为模型的行为和可能的故障模式提供一些可解释性。我们释放守则以获得我们完整的培训和评估管道，以鼓励在这种激动人心的新方向上的可重复进展。

translated by 谷歌翻译

Contrast-Phys: Unsupervised Video-based Remote Physiological Measurement via Spatiotemporal Contrast

Zhaodong Sun , Xiaobai Li

分类：计算机视觉

2022-08-08

基于视频的远程生理测量利用面部视频来测量血量变化信号，这也称为远程光摄影学（RPPG）。 RPPG测量的监督方法达到了最新的性能。但是，有监督的RPPG方法需要面部视频和地面真理生理信号进行模型培训。在本文中，我们提出了一种无监督的RPPG测量方法，该方法不需要地面真相信号进行培训。我们使用3DCNN模型在不同的时空位置中从每个视频中生成多个RPPG信号，并以对比度损失训练模型，其中将来自同一视频的RPPG信号汇总在一起，而来自不同视频的那些视频则被推开。我们在五个公共数据集上测试，包括RGB视频和NIR视频。结果表明，我们的方法优于先前的无监督基线，并在所有五个数据集上实现了非常接近当前最佳监督RPPG方法的精度。此外，我们还证明了我们的方法可以以更快的速度运行，并且比以前的无监督基线更强大。我们的代码可在https://github.com/zhaodongsun/contrast-phys上找到。

translated by 谷歌翻译

Camera Measurement of Physiological Vital Signs

Daniel McDuff

分类：计算机视觉 | 机器学习

2021-11-22

对医疗保健监控的远程工具的需求从未如此明显。摄像机测量生命体征利用成像装置通过分析人体的图像来计算生理变化。建立光学，机器学习，计算机视觉和医学的进步这些技术以来的数码相机的发明以来已经显着进展。本文介绍了对生理生命体征的相机测量综合调查，描述了它们可以测量的重要标志和实现所做的计算技术。我涵盖了临床和非临床应用以及这些应用需要克服的挑战，以便从概念上推进。最后，我描述了对研究社区可用的当前资源（数据集和代码），并提供了一个全面的网页（https://cameravitals.github.io/），其中包含这些资源的链接以及其中引用的所有文件的分类列表文章。

translated by 谷歌翻译

ReViSe: Remote Vital Signs Measurement Using Smartphone Camera

Donghao Qiao , Amtul Haq Ayesha , Farhana Zulkernine , Raihan Masroor , Nauman Jaffar

分类：计算机视觉 | 机器学习

2022-06-13

远程光插图学（RPPG）是一种快速，有效，廉价和方便的方法，用于收集生物识别数据，因为它可以使用面部视频来估算生命体征。事实证明，远程非接触式医疗服务供应在COVID-19大流行期间是可怕的必要性。我们提出了一个端到端框架，以根据用户的视频中的RPPG方法来衡量人们的生命体征，包括心率（HR），心率变异性（HRV），氧饱和度（SPO2）和血压（BP）（BP）（BP）用智能手机相机捕获的脸。我们以实时的基于深度学习的神经网络模型来提取面部标志。通过使用预测的面部标志来提取多个称为利益区域（ROI）的面部斑块（ROI）。应用了几个过滤器，以减少称为血量脉冲（BVP）信号的提取的心脏信号中ROI的噪声。我们使用两个公共RPPG数据集培训和验证了机器学习模型，即Tokyotech RPPG和脉搏率检测（PURE）数据集，我们的模型在其上实现了以下平均绝对错误（MAE）：a），HR，1.73和3.95 BEATS- beats-beats-beats-beats-beats-beats-beats-beats-beats-beats-beats-beats-beats-beats-beats-beats-s-s-s-s-s-y-peats-beats-beats-beats-ship-s-s-s-in-chin-p-in-in-in-in-in-c--in-in-c-le-in-in- -t一下制。每分钟（bpm），b）分别为HRV，分别为18.55和25.03 ms，c）对于SPO2，纯数据集上的MAE为1.64。我们在现实生活环境中验证了端到端的RPPG框架，修订，从而创建了视频HR数据集。我们的人力资源估计模型在此数据集上达到了2.49 bpm的MAE。由于没有面对视频的BP测量不存在公开可用的RPPG数据集，因此我们使用了带有指标传感器信号的数据集来训练我们的模型，还创建了我们自己的视频数据集Video-BP。在我们的视频BP数据集中，我们的BP估计模型的收缩压（SBP）达到6.7 mmHg，舒张压（DBP）的MAE为9.6 mmHg。

translated by 谷歌翻译

Self-supervised Representation Learning Framework for Remote Physiological Measurement Using Spatiotemporal Augmentation Loss

Hao Wang , Euijoon Ahn , Jinman Kim

分类：计算机视觉

2021-07-16

监督深度学习方法的最新进展是使用面部视频实现基于光电觉描绘的生理信号的远程测量。然而，这些监督方法的性能取决于大标记数据的可用性。作为自我监督方法的对比学习，最近通过最大化不同增强视图之间的互信息来实现学习代表数据特征的最先进的性能。然而，用于对比学学习的现有数据增强技术不是设计用于从视频中学习来自视频的生理信号，并且当存在复杂的噪声和微妙和微妙和周期性的颜色或视频帧之间的形状变化时，通常会失败。为了解决这些问题，我们为远程生理信号表示学习提供了一种新的自我监督的时空学习框架，其中缺乏标记的培训数据。首先，我们提出了一种基于地标的空间增强，其基于Shafer Dichromatic反射模型将面部分成几个信息部件，以表征微妙的肤色波动。我们还制定了一种基于稀疏的时间增强，利用奈奎斯特 - 香农采样定理来通过建模生理信号特征有效地捕获周期性的时间变化。此外，我们介绍了一个受限制的时空损失，为增强视频剪辑产生伪标签。它用于调节训练过程并处理复杂的噪声。我们在3个公共数据集中评估了我们的框架，并展示了比其他自我监督方法的卓越表现，并与最先进的监督方法相比实现了竞争精度。

translated by 谷歌翻译

MobilePhys: Personalized Mobile Camera-Based Contactless Physiological Sensing

Xin Liu , Yuntao Wang , Sinan Xie , Xiaoyu Zhang , Zixian Ma , Daniel McDuff , Shwetak Patel

分类：计算机视觉

2022-01-11

基于相机的非接触式光电子溶血性描绘是指一组流行的非接触生理测量技术。目前的最先进的神经模型通常以伴随金标准生理测量的视频以监督方式培训。但是，它们通常概括域名差别示例（即，与培训集中的视频不同）。个性化模型可以帮助提高型号的概括性，但许多个性化技术仍然需要一些金标准数据。为了帮助缓解这一依赖性，在本文中，我们展示了一种名为Mobilememon的新型移动感应系统，该系统是第一个移动个性化远程生理传感系统，它利用智能手机上的前后相机，为培训产生高质量的自我监督标签个性化非接触式相机的PPG模型。为了评估MobilemeLephys的稳健性，我们使用39名参与者进行了一个用户学习，他们在不同的移动设备下完成了一组任务，照明条件/强度，运动任务和皮肤类型。我们的研究结果表明，Mobilephys显着优于最先进的设备监督培训和几次拍摄适应方法。通过广泛的用户研究，我们进一步检查了Mobilephys如何在复杂的真实环境中执行。我们设想，从我们所提出的双摄像机移动传感系统产生的校准或基于相机的非接触式PPG模型将为智能镜，健身和移动健康应用等许多未来应用打开门。

translated by 谷歌翻译

Heart rate estimation in intense exercise videos

Yeshwanth Napolean , Anwesh Marwade , Nergis Tomen , Puck Alkemade , Thijs Eijsvogels , Jan van Gemert

分类：计算机视觉

2022-08-04

从视频中估算心率可以通过患者护理，人类互动和运动中的应用进行非接触健康监测。现有的工作可以通过面部跟踪在一定程度的运动下稳健地测量心率。但是，在不受约束的设置中，这并不总是可以的，因为脸部可能会被遮住甚至在相机外面。在这里，我们介绍Intensephysio：具有挑战性的视频心率估计数据集，具有逼真的面部阻塞，严重的主题运动和充足的心率变化。为了确保在现实环境中的心率变化，我们记录每个主题约1-2小时。该受试者正在用附着的摄像机进行骑自行车计（以中等强度）锻炼（中度至高强度），没有关于定位或运动的指示。我们有11个主题，大约有20个小时的视频。我们表明，现有的远程照相拍摄方法在这种情况下估计心率很难。此外，我们提出了IBIS-CNN，这是一种使用时空超级像素的新基线，它通过消除了对可见面/面部跟踪的需求来改善现有模型。我们将尽快公开提供代码和数据。

translated by 谷歌翻译

EVM-CNN: Real-Time Contactless Heart Rate Estimation from Facial Video

Ying Qiu , Yang Liu , Juan Arteaga-Falconi , Haiwei Dong , Abdulmotaleb El Saddik

分类：计算机视觉

2022-12-25

With the increase in health consciousness, noninvasive body monitoring has aroused interest among researchers. As one of the most important pieces of physiological information, researchers have remotely estimated the heart rate (HR) from facial videos in recent years. Although progress has been made over the past few years, there are still some limitations, like the processing time increasing with accuracy and the lack of comprehensive and challenging datasets for use and comparison. Recently, it was shown that HR information can be extracted from facial videos by spatial decomposition and temporal filtering. Inspired by this, a new framework is introduced in this paper to remotely estimate the HR under realistic conditions by combining spatial and temporal filtering and a convolutional neural network. Our proposed approach shows better performance compared with the benchmark on the MMSE-HR dataset in terms of both the average HR estimation and short-time HR estimation. High consistency in short-time HR estimation is observed between our method and the ground truth.

translated by 谷歌翻译

SCAMPS: Synthetics for Camera Measurement of Physiological Signals

Daniel McDuff , Miah Wander , Xin Liu , Brian L. Hill , Javier Hernandez , Jonathan Lester , Tadas Baltrusaitis

分类：计算机视觉 | 人工智能

2022-06-08

使用摄像机和计算算法的生理学（例如心脏和肺）生理学的非侵入性，低成本和可扩展性测量的生命体征非常有吸引力。但是，代表各种环境，身体运动，照明条件和生理状态的各种数据是费力的，耗时且昂贵的。合成数据已被证明是机器学习的几个领域的有价值工具，但并未广泛用于摄像机测量生理状态。合成数据提供“完美”标签（例如，没有噪声且具有精确的同步），可能无法获得其他标签（例如，精确的像素级分段图），并提供了对数据集中变化和多样性的高度控制。我们提供Scamps，这是一个合成学数据集，其中包含2,800个视频（168万帧），并带有对齐的心脏和呼吸信号以及面部动作强度。 RGB框架与分割图一起提供。我们提供有关潜在波形的精确描述性统计数据，包括beat间间隔，心率变异性和脉搏到达时间。最后，我们介绍了这些合成数据和对现实世界数据集测试的基线结果培训，以说明可推广性。

translated by 谷歌翻译

DRNet: Decomposition and Reconstruction Network for Remote Physiological Measurement

Yuhang Dong , Gongping Yang , Yilong Yin

分类：计算机视觉

2022-06-12

基于远程的光摄影学（RPPG）的生理测量值在情感计算，非接触式健康监测，远程医疗监测等方面具有良好的应用值，这已经变得越来越重要，尤其是在Covid-19-19-19大流行期间。现有方法通常分为两组。第一个重点是从面部视频中挖掘微妙的血量脉冲（BVP）信号，但很少明确地模拟主导面部视频内容的声音。它们容易受到噪音的影响，在看不见的情况下可能会遭受泛滥能力。第二个重点是直接建模嘈杂的数据，由于缺乏这些严重的随机噪声的规律性，导致了次优性能。在本文中，我们提出了一个分解和重建网络（DRNET），重点是生理特征而不是嘈杂数据的建模。提出了新的周期损失来限制生理信息的周期性。此外，提出了插件空间注意块（SAB），以增强功能以及空间位置信息。此外，提出了有效的斑块种植（PC）增强策略，以合成具有不同噪声和特征的增强样品。在不同的公共数据集以及跨数据库测试上进行了广泛的实验证明了我们方法的有效性。

translated by 谷歌翻译

Deep Learning meets Liveness Detection: Recent Advancements and Challenges

Arian Sabaghi , Marzieh Oghbaie , Kooshan Hashemifard , Mohammad Akbari

分类：计算机视觉

2021-12-29

最近，面部生物识别是对传统认证系统的方便替代的巨大关注。因此，检测恶意尝试已经发现具有重要意义，导致面部抗欺骗〜（FAS），即面部呈现攻击检测。与手工制作的功能相反，深度特色学习和技术已经承诺急剧增加FAS系统的准确性，解决了实现这种系统的真实应用的关键挑战。因此，处理更广泛的发展以及准确的模型的新研究区越来越多地引起了研究界和行业的关注。在本文中，我们为自2017年以来对与基于深度特征的FAS方法相关的文献综合调查。在这一主题上阐明，基于各种特征和学习方法的语义分类。此外，我们以时间顺序排列，其进化进展和评估标准（数据集内集和数据集互联集合中集）覆盖了FAS的主要公共数据集。最后，我们讨论了开放的研究挑战和未来方向。

translated by 谷歌翻译

EfficientPhys: Enabling Simple, Fast and Accurate Camera-Based Vitals Measurement

Xin Liu , Brian L. Hill , Ziheng Jiang , Shwetak Patel , Daniel McDuff

分类：计算机视觉 | 人工智能

2021-10-09

Camera-based physiological measurement is a growing field with neural models providing state-the-art-performance. Prior research have explored various "end-to-end" models; however these methods still require several preprocessing steps. These additional operations are often non-trivial to implement making replication and deployment difficult and can even have a higher computational budget than the "core" network itself. In this paper, we propose two novel and efficient neural models for camera-based physiological measurement called EfficientPhys that remove the need for face detection, segmentation, normalization, color space transformation or any other preprocessing steps. Using an input of raw video frames, our models achieve strong performance on three public datasets. We show that this is the case whether using a transformer or convolutional backbone. We further evaluate the latency of the proposed networks and show that our most light weight network also achieves a 33% improvement in efficiency.

translated by 谷歌翻译

LFPS-Net: a lightweight fast pulse simulation network for BVP estimation

Jialiang Zhuang , Yun Zhang , Yuheng Chen , Xiujuan Zheng

分类：计算机视觉

2022-06-25

基于远程光摄氏学的心率估计在几种特定情况下（例如健康监测和疲劳检测）起着重要作用。现有良好的方法致力于将多个重叠视频剪辑的预测HR平均作为30秒面部视频的最终结果。尽管这些具有数百层和数千个渠道的方法是高度准确且健壮的，但它们需要巨大的计算预算和30秒的等待时间，这极大地限制了算法的应用来扩展。在这些CicumStacnces下，我们提出了一个轻巧的快速脉冲模拟网络（LFPS-NET），在非常有限的计算和时间预算中追求最佳准确性，重点关注通用的移动平台，例如智能手机。为了抑制噪声组件并在短时间内获得稳定的脉冲，我们设计了多频模态信号融合机制，该机制利用了时频域分析理论，以将多模式信息与复杂信号分开。它有助于继续进行网络，而无需添加任何参数，可以更轻松地学习有效的热门。此外，我们设计了一个过采样培训策略，以解决由数据集的分布不平衡引起的问题。对于30秒的面部视频，我们提出的方法在大多数评估指标上取得了最佳结果，以估计心率或心率变异性与最佳论文相比。提出的方法仍然可以使用短时（〜15秒）的主体视频获得非常具竞争力的结果。

translated by 谷歌翻译

Learning Motion-Robust Remote Photoplethysmography through Arbitrary Resolution Videos

Jianwei Li , Zitong Yu , Jingang Shi

分类：计算机视觉

2022-11-30

Remote photoplethysmography (rPPG) enables non-contact heart rate (HR) estimation from facial videos which gives significant convenience compared with traditional contact-based measurements. In the real-world long-term health monitoring scenario, the distance of the participants and their head movements usually vary by time, resulting in the inaccurate rPPG measurement due to the varying face resolution and complex motion artifacts. Different from the previous rPPG models designed for a constant distance between camera and participants, in this paper, we propose two plug-and-play blocks (i.e., physiological signal feature extraction block (PFE) and temporal face alignment block (TFA)) to alleviate the degradation of changing distance and head motion. On one side, guided with representative-area information, PFE adaptively encodes the arbitrary resolution facial frames to the fixed-resolution facial structure features. On the other side, leveraging the estimated optical flow, TFA is able to counteract the rPPG signal confusion caused by the head movement thus benefit the motion-robust rPPG signal recovery. Besides, we also train the model with a cross-resolution constraint using a two-stream dual-resolution framework, which further helps PFE learn resolution-robust facial rPPG features. Extensive experiments on three benchmark datasets (UBFC-rPPG, COHFACE and PURE) demonstrate the superior performance of the proposed method. One highlight is that with PFE and TFA, the off-the-shelf spatio-temporal rPPG models can predict more robust rPPG signals under both varying face resolution and severe head movement scenarios. The codes are available at https://github.com/LJW-GIT/Arbitrary_Resolution_rPPG.

translated by 谷歌翻译

Non-contact Atrial Fibrillation Detection from Face Videos by Learning Systolic Peaks

Zhaodong Sun , Juhani Junttila , Mikko Tulppo , Tapio Seppänen , Xiaobai Li

分类：计算机视觉

2021-10-14

目的：我们提出了一种从面部视频中检测到房颤（AF）检测的非接触式方法。方法：记录了100名健康受试者和100名AF患者的面部视频，心电图（ECG）和接触光摄影（PPG）。来自健康受试者的数据记录都被标记为健康。两名心脏病专家评估了患者的心电图记录，并将每种记录标记为AF，窦性心律（SR）或心房颤动（AFL）。我们使用3D卷积神经网络进行远程PPG监测，并提出了新的损耗函数（Wasserstein距离），以使用接触PPG的收缩峰的时间作为我们的模型训练的标签。然后，根据beat间隔计算一组心率变异性（HRV）功能，并使用HRV功能训练支持向量机（SVM）分类器。结果：我们提出的方法可以准确地从面部视频中提取收缩峰以进行AF检测。提出的方法通过与30s视频剪辑的10倍交叉验证进行了训练，并在两个任务上进行了测试。 1）健康与AF的分类：准确性，灵敏度和特异性为96.00％，95.36％和96.12％。 2）SR与AF的分类：准确性，灵敏度和特异性为95.23％，98.53％和91.12％。此外，我们还证明了非接触式AFL检测的可行性。结论：我们通过学习收缩峰来实现非接触AF检测的良好性能。显着性：非接触性AF检测可用于自我筛查，可疑在家中可疑人群或治疗慢性患者治疗后自我监控。

translated by 谷歌翻译

Perfusion assessment via local remote photoplethysmography (rPPG)

Benjamin Kossack , Eric Wisotzky , Peter Eisert , Sebastian P. Schraven , Brigitta Globke , Anna Hilsmann

分类：计算机视觉 | 机器学习

2022-08-29

本文提出了一种评估RGB视频文件中可见人体组织灌注的方法。我们提出了源自远程光摄影（RPPG）信号的指标，以检测组织是否充分供应血液。灌注分析以三种不同的尺度进行，为不同的应用提供了灵活的方法。我们在每个尺度上独立地对局部定义的感兴趣区域独立执行平面正交到皮肤的RPPG。从提取的信号中，我们得出了信噪比，频域中的大小，心率，灌注指数以及特定RPPG信号之间的相关性，以便在局部评估人类组织特定区域的灌注。我们表明，本地解决的RPPG具有广泛的应用。作为示例性应用，我们介绍了术中术中灌注分析和可视化皮肤和器官移植期间的可视化，以及用于谋生评估以检测表现攻击到身份验证系统中的应用。

translated by 谷歌翻译

WPPG Net: A Non-contact Video Based Heart Rate Extraction Network Framework with Compatible Training Capability

Weiyu Sun , Xinyu Zhang , Ying Chen , Yun Ge , Chunyu Ji , Xiaolin Huang

分类：计算机视觉

2022-07-04

我们的面部皮肤呈现出细微的色彩变化，称为远程光绘画（RPPG）信号，我们可以从中提取受试者的心率。最近，提出了许多有关RPPG信号提取的深度学习方法和相关数据集。但是，由于耗时血液流过我们的身体和其他因素，标签波（例如BVP信号）在某些数据集中具有实际RPPG信号的不确定延迟，这导致难以训练网络的训练，这些网络直接预测了RPPG波。在本文中，通过分析RPPG信号和标签波的节奏和周期性的共同特征，我们提出了一组包裹这些网络的训练方法，以便在在数据集中频繁地延迟数据的情况下进行训练时可以保持有效的效率。与其他无延迟RPPG提取方法相比，获得更精确和健壮的心率预测结果。

translated by 谷歌翻译

Adaptive Contrast for Image Regression in Computer-Aided Disease Assessment

Weihang Dai , Xiaomeng Li , Wan Hang Keith Chiu , Michael D. Kuo , Kwang-Ting Cheng

分类：计算机视觉

2021-12-22

图像回归任务，如骨矿物密度（BMD）估计和左心室喷射分数（LVEF）预测，在计算机辅助疾病评估中起重要作用。大多数深度回归方法用单一的回归损耗函数训练神经网络，如MSE或L1损耗。在本文中，我们提出了一种用于深度图像回归的第一个对比学习框架，即adacon，其包括通过新颖的自适应边缘对比损耗和回归预测分支的特征学习分支组成。我们的方法包含标签距离关系作为学习特征表示的一部分，这允许在下游回归任务中进行更好的性能。此外，它可以用作即插即用模块，以提高现有回归方法的性能。我们展示了adacon对来自X射线图像的骨矿物密度估计和来自超声心动图象的X射线图像和左心室喷射分数预测的骨矿物密度估计的有效性。 Adacon分别导致MAE在最先进的BMD估计和LVEF预测方法中相对提高3.3％和5.9％。

translated by 谷歌翻译

COCOA: Cross Modality Contrastive Learning for Sensor Data

Shohreh Deldari , Hao Xue , Aaqib Saeed , Daniel V. Smith , Flora D. Salim

分类：计算机视觉 | 机器学习

2022-07-31

自我监督学习（SSL）是一个新的范式，用于学习判别性表示没有标记的数据，并且与受监督的对手相比，已经达到了可比甚至最新的结果。对比度学习（CL）是SSL中最著名的方法之一，试图学习一般性的信息表示数据。 CL方法主要是针对仅使用单个传感器模态的计算机视觉和自然语言处理应用程序开发的。但是，大多数普遍的计算应用程序都从各种不同的传感器模式中利用数据。虽然现有的CL方法仅限于从一个或两个数据源学习，但我们提出了可可（Crockoa）（交叉模态对比度学习），这是一种自我监督的模型，该模型采用新颖的目标函数来通过计算多功能器数据来学习质量表示形式不同的数据方式，并最大程度地减少了无关实例之间的相似性。我们评估可可对八个最近引入最先进的自我监督模型的有效性，以及五个公共数据集中的两个受监督的基线。我们表明，可可与所有其他方法相比，可可的分类表现出色。同样，可可比其他可用标记数据的十分之一的基线（包括完全监督的模型）的标签高得多。

translated by 谷歌翻译

Beyond Just Vision: A Review on Self-Supervised Representation Learning on Multimodal and Temporal Data

Shohreh Deldari , Hao Xue , Aaqib Saeed , Jiayuan He , Daniel V. Smith , Flora D. Salim

分类：机器学习 | 计算机视觉

2022-06-06

最近，自我监督的表示学习（SSRL）在计算机视觉，语音，自然语言处理（NLP）以及最近的其他类型的模式（包括传感器的时间序列）中引起了很多关注。自我监督学习的普及是由传统模型通常需要大量通知数据进行培训的事实所驱动的。获取带注释的数据可能是一个困难且昂贵的过程。已经引入了自我监督的方法，以通过使用从原始数据自由获得的监督信号对模型进行判别预训练来提高训练数据的效率。与现有的对SSRL的评论不同，该评论旨在以单一模式为重点介绍CV或NLP领域的方法，我们旨在为时间数据提供对多模式自我监督学习方法的首次全面审查。为此，我们1）提供现有SSRL方法的全面分类，2）通过定义SSRL框架的关键组件来引入通用管道，3）根据其目标功能，网络架构和潜在应用程序，潜在的应用程序，潜在的应用程序，比较现有模型， 4）查看每个类别和各种方式中的现有多模式技术。最后，我们提出了现有的弱点和未来的机会。我们认为，我们的工作对使用多模式和/或时间数据的域中SSRL的要求有了一个观点

translated by 谷歌翻译