本文展示了基于射频(RF)信号的人为合成,该信号利用RF信号可以通过从人体的信号反射记录人类运动的事实。与现有的RF传感作品不同,只能粗略地感知人类,本文旨在通过引入新颖的跨模型RFGAN模型来产生细粒度的光学人体图像。具体地,我们首先构建一个配备有水平和垂直天线阵列的无线电系统以收发RF信号。由于反射的RF信号被处理为水平和垂直平面上的模糊信号投影加热器,因此我们在RFGAN中设计RF提取器,用于RF热图编码并组合以获得人类活动信息。然后,我们使用所提出的基于RF的自适应训练注入由RF-Extrutioner和RNN提取的信息作为GaN中的条件。最后,我们以端到端的方式训练整个模型。为了评估我们所提出的模型,我们创建了两个跨模型数据集(RF-Walk&RF-Activity),其包含数千个光学人类活动帧和相应的RF信号。实验结果表明,RFGAN可以使用RF信号产生目标人类活动帧。据我们所知,这是基于RF信号生成光学图像的第一个工作。
translated by 谷歌翻译
Video capture is the most extensively utilized human perception source due to its intuitively understandable nature. A desired video capture often requires multiple environmental conditions such as ample ambient-light, unobstructed space, and proper camera angle. In contrast, wireless measurements are more ubiquitous and have fewer environmental constraints. In this paper, we propose CSI2Video, a novel cross-modal method that leverages only WiFi signals from commercial devices and a source of human identity information to recover fine-grained surveillance video in a real-time manner. Specifically, two tailored deep neural networks are designed to conduct cross-modal mapping and video generation tasks respectively. We make use of an auto-encoder-based structure to extract pose features from WiFi frames. Afterward, both extracted pose features and identity information are merged to generate synthetic surveillance video. Our solution generates realistic surveillance videos without any expensive wireless equipment and has ubiquitous, cheap, and real-time characteristics.
translated by 谷歌翻译
越来越多的文献证明了使用射频(RF)信号在遮挡和照明不良的情况下实现关键的计算机视觉任务的可行性。它利用RF信号遍历墙壁和遮挡,以使壁姿势估计,动作识别,场景字幕和人类重新识别。但是,与可以由人工工人标记的RGB数据集不同,标记RF信号是一项艰巨的任务,因为这些信号不是人类的可解释。但是,收集未标记的RF信号非常容易。使用此类未标记的RF数据以无监督的方式学习有用的表示形式将是非常有益的。因此,在本文中,我们探讨了调整基于RGB的无监督表示为RF信号的可行性。我们表明,尽管对比度学习已成为无监督的表示从图像和视频学习的主要技术,但当使用RF信号应用于感知人类时,这种方法的性能较差。相反,预测性无监督学习方法学习可用于多个基于RF的传感任务的高质量表示。我们的经验结果表明,这种方法的表现优于基于RF的最先进的人类对各种任务的感知,从而开放了从这种新颖方式中学习的可能性。
translated by 谷歌翻译
人类身份是对日常生活中许多应用的关键要求,例如个性化服务,自动监视,连续身份验证和大流行期间的接触跟踪等。这项工作研究了跨模式人类重新识别(REID)的问题,对跨摄像机允许区域(例如街道)和摄像头限制区域(例如办公室)的常规人类运动的反应。通过利用新出现的低成本RGB-D摄像机和MMWave雷达,我们提出了同时跨模式多人REID的首个视觉RF系统。首先,为了解决基本模式间差异,我们提出了一种基于人体观察到的镜面反射模型的新型签名合成算法。其次,引入了有效的跨模式深度度量学习模型,以应对在雷达和相机之间由非同步数据引起的干扰。通过在室内和室外环境中进行的广泛实验,我们证明了我们所提出的系统能够达到约92.5%的TOP-1准确性,而在56名志愿者中,〜97.5%的前5位精度。我们还表明,即使传感器的视野中存在多个主题,我们提出的系统也能够重新识别受试者。
translated by 谷歌翻译
人类的姿势告诉我们一个场景吗?我们提出了一个任务来回答这个问题:给予人类姿势作为输入,幻觉兼容兼容的场景。人类姿势语义,环境承受,对象交互捕获的微妙提示 - 提供令人惊讶的洞察力,涉及哪些场景。我们为姿势调节场景生成提供了一个大型生成的对抗性网络。我们显着缩放了培训数据的大小和复杂性,策划了在日常环境中遏制了含有超过1900万帧的大型元数据集。我们对STYLEGAN2的模型的能力增加了调整这些复杂数据,并设计一个推动我们模型的姿势调节机制,以了解姿势和场景之间的差别关系。我们利用我们的培训模型进行各种应用:有或没有人类的幻觉兼容的场景,可视化不兼容的场景并姿势,将一个人从一个生成的图像放入另一个场景,动画姿势。我们的模型在准确的人体放置(正确关键点的百分比)和图像质量(FroEchet Inception距离)方面,我们的模型产生了不同的样本和占据了姿势调节的样式2和PIX2PIX基线。
translated by 谷歌翻译
作为人类识别的重要生物标志物,可以通过被动传感器在没有主题合作的情况下以远距离收集人步态,这在预防犯罪,安全检测和其他人类识别应用中起着至关重要的作用。目前,大多数研究工作都是基于相机和计算机视觉技术来执行步态识别的。但是,在面对不良的照明时,基于视觉的方法并不可靠,导致性能降解。在本文中,我们提出了一种新型的多模式步态识别方法,即gaitfi,该方法利用WiFi信号和视频进行人类识别。在GAITFI中,收集了反映WiFi多路径传播的通道状态信息(CSI),以捕获人体步态,而视频则由相机捕获。为了了解强大的步态信息,我们建议使用轻量级残留卷积网络(LRCN)作为骨干网络,并通过集成WiFi和Vision功能来进一步提出两流性gaitfi,以进行步态检索任务。通过在不同级别的特征上的三胞胎损失和分类损失进行训练。广泛的实验是在现实世界中进行的,该实验表明,基于单个WiFi或摄像机的GAITFI优于最先进的步态识别方法,对于12个受试者的人类识别任务而达到94.2%。
translated by 谷歌翻译
由于我们是婴儿,我们直观地发展了与视觉,音频和文本等不同认知传感器的输入相关联的能力。然而,在机器学习中,这种跨模型学习是一种非活动任务,因为不同的方式没有均匀性质。以前的作品发现,应该有不同的方式存在桥梁。从神经病学和心理学的角度来看,人类有能力将一种模态与另一个方式联系起来,例如,将一只鸟的图片与歌唱的唯一听证者相关联,反之亦然。机器学习算法是否可能恢复给定音频信号的场景?在本文中,我们提出了一种新型级联关注的残留甘(Car-GaN),旨在重建给定相应的音频信号的场景。特别地,我们介绍残留物模块,以逐渐降低不同方式之间的间隙。此外,具有新型分类损失函数的级联注意网络旨在解决跨模型学习任务。我们的模型在高级语义标签域中保持一致性,并且能够平衡两种不同的模式。实验结果表明,我们的模型在具有挑战性的子URMP数据集上实现了最先进的跨模型视听生成。代码将在https://github.com/tuffr5/car-gan中获得。
translated by 谷歌翻译
事件摄像头是一种新兴的生物启发的视觉传感器,每像素亮度不同步地变化。它具有高动态范围,高速响应和低功率预算的明显优势,使其能够在不受控制的环境中最好地捕获本地动作。这激发了我们释放事件摄像机进行人姿势估计的潜力,因为很少探索人类姿势估计。但是,由于新型范式从传统的基于框架的摄像机转变,时间间隔中的事件信号包含非常有限的信息,因为事件摄像机只能捕获移动的身体部位并忽略那些静态的身体部位,从而导致某些部位不完整甚至在时间间隔中消失。本文提出了一种新型的密集连接的复发架构,以解决不完整信息的问题。通过这种经常性的体系结构,我们可以明确地对跨时间步骤的顺序几何一致性进行明确模拟,从而从以前的帧中积累信息以恢复整个人体,从而从事件数据中获得稳定且准确的人类姿势估计。此外,为了更好地评估我们的模型,我们收集了一个基于人类姿势注释的大型多模式事件数据集,该数据集是迄今为止我们所知的最具挑战性的数据集。两个公共数据集和我们自己的数据集的实验结果证明了我们方法的有效性和强度。代码可以在线提供,以促进未来的研究。
translated by 谷歌翻译
本文介绍了一个名为DTVNet的新型端到端动态时间流逝视频生成框架,以从归一化运动向量上的单个景观图像生成多样化的延期视频。所提出的DTVNET由两个子模块组成:\ EMPH {光学流编码器}(OFE)和\ EMPH {动态视频生成器}(DVG)。 OFE将一系列光学流程图映射到编码所生成视频的运动信息的\ Emph {归一化运动向量}。 DVG包含来自运动矢量和单个景观图像的运动和内容流。此外,它包含一个编码器,用于学习共享内容特征和解码器,以构造具有相应运动的视频帧。具体地,\ EMPH {运动流}介绍多个\ EMPH {自适应实例归一化}(Adain)层,以集成用于控制对象运动的多级运动信息。在测试阶段,基于仅一个输入图像,可以产生具有相同内容但具有相同运动信息但各种运动信息的视频。此外,我们提出了一个高分辨率的景区时间流逝视频数据集,命名为快速天空时间,以评估不同的方法,可以被视为高质量景观图像和视频生成任务的新基准。我们进一步对天空延时,海滩和快速天空数据集进行实验。结果证明了我们对最先进的方法产生高质量和各种动态视频的方法的优越性。
translated by 谷歌翻译
为了执行无条件的视频生成,我们必须学习现实世界的分布。为了综合高质量视频,各种研究试图学习噪声和视频之间的映射函数,包括最近的努力来分离运动分配和外观分布。然而,以前的方法在离散的固定间隔时间内学习运动动态,这与物体体的运动的连续性相反。在本文中,我们提出了一种新颖的视频生成方法,了解运动和外观的单独分布,前者由神经颂歌建模,以学习自然运动动态。具体地,我们采用两级方法,其中第一阶段将噪声向量转换为任意帧速率的一系列关键点,并且第二级基于给定的关键点序列和外观噪声向量来合成视频。我们的模型不仅定量优于最近的视频生成基线,而且还演示了多功能功能,例如动态帧速率操纵和两个数据集之间的运动传输,从而打开新的门以不同的视频生成应用。
translated by 谷歌翻译
从视频中估算人的姿势对于人类计算机相互作用至关重要。通过精确估计人类姿势,机器人可以对人类提供适当的反应。大多数现有方法都使用光流,RNN或CNN从视频中提取时间功能。尽管这些尝试取得了积极的结果,但其中大多数仅直接整合沿时间维度的特征,而忽略了关节之间的时间相关性。与以前的方法相反,我们提出了一个基于域交叉注意机制的插件运动学建模模块(KMM),以对不同帧的关节之间的时间相关性进行建模。具体而言,提出的KMM通过计算其时间相似性来模拟任意两个关节之间的时间相关性。这样,KMM可以学习每个关节的运动提示。使用运动提示(时间域)和关节的历史位置(空间域),KMM可以提前推断关节的初始位置。此外,我们还基于KMM提出了一个运动学建模网络(KIMNET),用于通过结合姿势特征和关节的初始位置来获得关节的最终位置。通过对关节之间的时间相关性进行显式建模,Kimnet可以根据前一刻的所有关节来推断遮挡的关节。此外,KMM是通过注意机制实现的,该机制使其能够保持高度分辨率。因此,它可以将丰富的历史姿势信息转移到当前框架上,该信息为定位遮挡关节提供了有效的姿势信息。我们的方法在两个基于视频的姿势估计基准的基准上实现了最新的结果。此外,提出的Kimnet对闭塞显示了一些鲁棒性,证明了所提出的方法的有效性。
translated by 谷歌翻译
作为许多自主驾驶和机器人活动的基本组成部分,如自我运动估计,障碍避免和场景理解,单眼深度估计(MDE)引起了计算机视觉和机器人社区的极大关注。在过去的几十年中,已经开发了大量方法。然而,据我们所知,对MDE没有全面调查。本文旨在通过审查1970年至2021年之间发布的197个相关条款来弥补这一差距。特别是,我们为涵盖各种方法的MDE提供了全面的调查,介绍了流行的绩效评估指标并汇总公开的数据集。我们还总结了一些代表方法的可用开源实现,并比较了他们的表演。此外,我们在一些重要的机器人任务中审查了MDE的应用。最后,我们通过展示一些有希望的未来研究方向来结束本文。预计本调查有助于读者浏览该研究领域。
translated by 谷歌翻译
在运动中的运动中综合动态外观在诸如AR / VR和视频编辑的应用中起着核心作用。虽然已经提出了最近的许多方法来解决这个问题,但处理具有复杂纹理和高动态运动的松散服装仍然仍然具有挑战性。在本文中,我们提出了一种基于视频的外观综合方法,可以解决此类挑战,并为之前尚未显示的野外视频的高质量结果。具体而言,我们采用基于样式的基于STYLEGAN的架构,对基于人的特定视频的运动retrargeting的任务。我们介绍了一种新的运动签名,用于调制发电机权重以捕获动态外观变化以及正规化基于帧的姿势估计以提高时间一致性。我们在一组具有挑战性的视频上评估我们的方法,并表明我们的方法可以定性和定量地实现最先进的性能。
translated by 谷歌翻译
Image and video synthesis has become a blooming topic in computer vision and machine learning communities along with the developments of deep generative models, due to its great academic and application value. Many researchers have been devoted to synthesizing high-fidelity human images as one of the most commonly seen object categories in daily lives, where a large number of studies are performed based on various deep generative models, task settings and applications. Thus, it is necessary to give a comprehensive overview on these variant methods on human image generation. In this paper, we divide human image generation techniques into three paradigms, i.e., data-driven methods, knowledge-guided methods and hybrid methods. For each route, the most representative models and the corresponding variants are presented, where the advantages and characteristics of different methods are summarized in terms of model architectures and input/output requirements. Besides, the main public human image datasets and evaluation metrics in the literature are also summarized. Furthermore, due to the wide application potentials, two typical downstream usages of synthesized human images are covered, i.e., data augmentation for person recognition tasks and virtual try-on for fashion customers. Finally, we discuss the challenges and potential directions of human image generation to shed light on future research.
translated by 谷歌翻译
近年来,WiFi传感一直在迅速发展。通过传播模型和深度学习方法的能力,实现了许多具有挑战性的应用,例如基于WiFi的人类活动识别和手势识别。但是,与深入学习视觉识别和自然语言处理相反,没有足够全面的公共基准。在本文中,我们强调了最新的深度学习进展,使WiFi传感能够感测,然后提出了一个基准SensenFI,以研究各种深度学习模型对WiFi传感的有效性。这些高级模型是根据独特的传感任务,WiFi平台,识别精度,模型大小,计算复杂性,功能可传递性以及无监督学习的适应性进行比较的。从CSI硬件平台到传感算法,它也被认为是基于深度学习的WiFi传感的教程。广泛的实验为我们提供了深层模型设计,学习策略技能和培训技术的经验。据我们所知,这是第一个带开源库的基准,用于WiFi传感研究中的深度学习。基准代码可在https://github.com/chenxinyan-sg/wifi-csi-sensing-benchmark上获得。
translated by 谷歌翻译
人类视频运动转移(HVMT)的目的是鉴于源头的形象,生成了模仿驾驶人员运动的视频。 HVMT的现有方法主要利用生成对抗网络(GAN),以根据根据源人员图像和每个驾驶视频框架估计的流量来执行翘曲操作。但是,由于源头,量表和驾驶人员之间的巨大差异,这些方法始终会产生明显的人工制品。为了克服这些挑战,本文提出了基于gan的新型人类运动转移(远程移动)框架。为了产生逼真的动作,远遥采用了渐进的一代范式:它首先在没有基于流动的翘曲的情况下生成每个身体的零件,然后将所有零件变成驾驶运动的完整人。此外,为了保留自然的全球外观,我们设计了一个全球对齐模块,以根据其布局与驾驶员的规模和位置保持一致。此外,我们提出了一个纹理对准模块,以使人的每个部分都根据纹理的相似性对齐。最后,通过广泛的定量和定性实验,我们的远及以两个公共基准取得了最先进的结果。
translated by 谷歌翻译
基于对抗性学习的图像抑制方法,由于其出色的性能,已经在计算机视觉中进行了广泛的研究。但是,大多数现有方法对实际情况的质量功能有限,因为它们在相同场景的透明和合成的雾化图像上进行了培训。此外,它们在保留鲜艳的色彩和丰富的文本细节方面存在局限性。为了解决这些问题,我们开发了一个新颖的生成对抗网络,称为整体注意力融合对抗网络(HAAN),用于单个图像。 Haan由Fog2FogFogre块和FogFree2Fog块组成。在每个块中,有三个基于学习的模块,即雾除雾,颜色纹理恢复和雾合成,它们相互限制以生成高质量的图像。 Haan旨在通过学习雾图图像之间的整体通道空间特征相关性及其几个派生图像之间的整体通道空间特征相关性来利用纹理和结构信息的自相似性。此外,在雾合成模块中,我们利用大气散射模型来指导它,以通过新颖的天空分割网络专注于大气光优化来提高生成质量。关于合成和现实世界数据集的广泛实验表明,就定量准确性和主观的视觉质量而言,Haan的表现优于最先进的脱落方法。
translated by 谷歌翻译
With the development of convolutional neural networks, hundreds of deep learning based dehazing methods have been proposed. In this paper, we provide a comprehensive survey on supervised, semi-supervised, and unsupervised single image dehazing. We first discuss the physical model, datasets, network modules, loss functions, and evaluation metrics that are commonly used. Then, the main contributions of various dehazing algorithms are categorized and summarized. Further, quantitative and qualitative experiments of various baseline methods are carried out. Finally, the unsolved issues and challenges that can inspire the future research are pointed out. A collection of useful dehazing materials is available at \url{https://github.com/Xiaofeng-life/AwesomeDehazing}.
translated by 谷歌翻译
Face Restoration (FR) aims to restore High-Quality (HQ) faces from Low-Quality (LQ) input images, which is a domain-specific image restoration problem in the low-level computer vision area. The early face restoration methods mainly use statistic priors and degradation models, which are difficult to meet the requirements of real-world applications in practice. In recent years, face restoration has witnessed great progress after stepping into the deep learning era. However, there are few works to study deep learning-based face restoration methods systematically. Thus, this paper comprehensively surveys recent advances in deep learning techniques for face restoration. Specifically, we first summarize different problem formulations and analyze the characteristic of the face image. Second, we discuss the challenges of face restoration. Concerning these challenges, we present a comprehensive review of existing FR methods, including prior based methods and deep learning-based methods. Then, we explore developed techniques in the task of FR covering network architectures, loss functions, and benchmark datasets. We also conduct a systematic benchmark evaluation on representative methods. Finally, we discuss future directions, including network designs, metrics, benchmark datasets, applications,etc. We also provide an open-source repository for all the discussed methods, which is available at https://github.com/TaoWangzj/Awesome-Face-Restoration.
translated by 谷歌翻译
以时间序列形式出现的信号测量是医疗机学习应用中使用的最常见数据类型之一。这样的数据集的大小通常很小,收集和注释昂贵,并且可能涉及隐私问题,这阻碍了我们培训用于生物医学应用的大型,最先进的深度学习模型的能力。对于时间序列数据,我们可以用来扩展数据集大小的数据增强策略套件受到维护信号的基本属性的限制。生成对抗网络(GAN)可以用作另一种数据增强工具。在本文中,我们提出了TTS-CGAN,这是一种基于变压器的条件GAN模型,可以在现有的多级数据集上进行训练,并生成特定于类的合成时间序列序列的任意长度。我们详细介绍了模型架构和设计策略。由我们的模型生成的合成序列与真实的序列无法区分,可以用来补充或替换相同类型的真实信号,从而实现了数据增强的目标。为了评估生成的数据的质量,我们修改小波相干度量指标,以比较两组信号之间的相似性,还可以进行案例研究,其中使用合成和真实数据的混合来训练深度学习模型用于序列分类。与其他可视化技术和定性评估方法一起,我们证明TTS-CGAN生成的合成数据类似于真实数据,并且我们的模型的性能优于为时间序列数据生成而构建的其他最先进的GAN模型。
translated by 谷歌翻译