在许多远程成像的应用中,我们面临的情景,其中出现在捕获的图像中的人通常被大气湍流降级。然而,由于劣化使图像成为几何扭曲和模糊,因此恢复用于面部验证的这种降级的图像是困难的。为了减轻湍流效果,本文提出了第一种湍流缓解方法,该方法利用培训的GaN封装的视觉前沿。基于视觉前沿,我们建议学习在空间周期性上下文距离上保留恢复图像的身份。在考虑网络学习中的身份差异时,这种距离可以保持来自GaN的恢复图像的现实主义。另外,提出了通过在没有身份变化的情况下引入更多外观方差来促进身份保留学习的分层伪连接。广泛的实验表明,我们的方法在恢复结果的视觉质量和面部验证准确性中显着优于现有技术。
translated by 谷歌翻译
3D对象检测网络往往偏向于培训的数据。在不同位置,条件或传感器中捕获的数据集的评估比训练(源)数据的数据集导致模型性能下降,由于测试(或目标)数据分布的间隙。目前用于域适配的方法可以在训练期间采用访问源数据,这可能由于隐私或内存问题而无法使用,或者需要将一系列激光乐框架作为输入。我们提出了一种单一帧方法,用于提供的基于LIDAR的3D对象探测器的无源无监督域,它使用类原型来减轻逻辑标签噪声的效果。解决在存在嘈杂标签中的传统特征聚合方法对原型计算的限制,我们利用变压器模块识别对应于不正确,过于自信的注释的异常值ROI,并计算分级类原型。在迭代培训策略下,与嘈杂的伪标签相关的损失是下降的,因此在自我培训过程中精制。为了验证我们提出的方法的有效性,我们研究了与大型标签的数据集(例如Waymo Open DataSet和Nuscenes)培训的网络相关联的域移位,并在更小的标签差的数据集(如KITTI)上进行评估反之亦然。我们在最近的两个对象探测器上展示了我们的方法,实现了Out-执行其他域适应工作的结果。
translated by 谷歌翻译
基于草图的图像操作是一个交互式图像编辑任务,用于根据用户的输入草图修改图像。现有方法通常将此任务制定为条件染色问题,这需要用户绘制除草图之外还要修改区域的额外掩码。蒙面区域被视为孔,并通过剪影模型填充在草图上。利用这种配方,可以通过随机制造掩模和提取边缘或轮廓来容易地获得成对的训练数据。虽然此设置简化了数据准备和模型设计,但它使用户交互复杂化并丢弃在蒙面区域中的有用信息。为此,我们调查了一种基于草图的图像操作的新范式:无掩盖的本地图像操作,只需要从用户素描输入并利用整个原始图像。给定图像和草图,我们的模型会自动预测目标修改区域并将其编码为结构不可知的风格矢量。然后,发电机基于样式向量和草图综合新的图像内容。最终通过将发电机输出混合到原始图像的修改区域中来产生操纵图像。我们的模型可以通过学习从风格矢量和素描的图像区域的重建来训练自我监督的时尚。该方法提供了更简单,更直观的用户工作流程,用于基于草图的图像操作,并提供比以前的方法更好的结果。更多结果,代码和交互式演示将在\ url {https://zengxianyu.github.io/sketchedit}上获得。
translated by 谷歌翻译
从图像中删除像雨,雾和雪一样的恶劣天气条件是许多应用中的重要问题。在文献中提出的大多数方法旨在处理只是去除一种劣化。最近,建议使用神经架构搜索的基于CNN的方法(一体化),以一次去除所有天气条件。但是,它具有大量参数,因为它使用多个编码器来满足每个天气删除任务,并且仍然具有改进其性能的范围。在这项工作中,我们专注于开发一个有效的解决方案,以了解所有恶劣的恶劣气象删除问题。为此,我们提出了一个基于变压器的端到端模型的Transweather,只需一个编码器和可通过任何天气状况恢复图像恢复的解码器。具体地,我们利用了一种使用内部变压器块的新型变压器编码器,以增强贴片内的注意力,以有效地消除较小的天气降级。我们还介绍了一个具有学习天气型嵌入的变压器解码器,可调整​​手头的天气降级。 Transweather通过一体化网络以及针对特定任务的微调的方法跨越多个测试数据集的显着改进。特别是,Transweather在Test1(Rain + Fog)DataSet上的当前最先进的最新状态将+6.34 PSNR推动雪橇上的Test1(Rain + Fog)DataSet +4.93 PSNR和rainDrop测试数据集上的+3.11 psnr。近天气天气也在现实世界测试图像上验证,发现比以前的方法更有效。可以在https://github.com/jeya-maria-jose/transweather访问实施代码和预先训练的权重。
translated by 谷歌翻译
基于深度学习(DL)磁共振(MR)图像重建的方法已被证明近年来产生卓越的性能。但是,这些方法只利用被采样的数据,或者需要配对的全采样辅助模型来执行多模态重建。因此,现有的方法忽略了探索可以将纹理从引用完全采样数据转移到单个模态内的欠采样数据的注意力机制,这限制了这些方法在具有挑战性的情况下。在本文中,我们提出了一种新颖的纹理变压器模块(TTM),用于加速MRI重建,其中我们将欠采样的数据和参考数据作为验证和键在变压器中装订。 TTM促进了跨越采样和参考数据的联合特征学习,因此可以通过注意,在重建期间可以利用精确的纹理特征来发现特征对应关系。值得注意的是,所提出的TTM可以依赖于先前的MRI重建方法,以进一步提高其性能。广泛的实验表明,TTM可以显着提高几个流行的基于DL的MRI重建方法的性能。
translated by 谷歌翻译
当检测较小,不清楚或具有模糊边缘时的阴影区域时,电流阴影检测方法表现不佳。在这项工作中,我们试图在两个前面解决这个问题。首先,我们提出了一个精细的上下文感知阴影检测网络(FCSD-NET),在那里我们约束接收字段大小并专注于低级功能以学习精细上下文的功能更好。其次,我们提出了一种新的学习策略,称为恢复来检测(R2D),在那里我们表明,当深度神经网络训练恢复时(暗影删除),它也会学习有意义的功能来描绘阴影面具。为了利用阴影检测和删除任务的这种互补性,我们培训辅助网络进行影子拆卸,并提出互补特征学习块(CFL),以从阴影清除网络到阴影检测网络学习和融合有意义的功能。我们使用多个数据集的R2D学习策略培训所提出的网络FCSD-Net。三个公共影子检测数据集(ISTD,SBU和UCF)的实验结果表明,与其他最近的方法相比,我们的方法能够更好地检测到微观上下文的同时提高阴影检测性能。
translated by 谷歌翻译
深度卷积神经网络(DCNNS)的最新进展显示了热量的性能改进,可见的脸部合成和匹配问题。然而,当前的基于DCNN的合成模型在具有大姿势变化的热面上不太良好。为了处理该问题,需要异构面部额定化方法,其中模型采用热剖面图像并产生正面可见面。这是由于大域的一个极其困难的问题,以及两个模式之间的大姿态差异。尽管其在生物识别和监测中存在应用,但文献中的这种问题相对未探索。我们提出了一种域名不可知论的基于学习的生成对抗网络(DAL-GAN),其可以通过具有姿势变化的热面来合成可见域中的前视图。 Dal-GaN由具有辅助分类器的发电机和两个鉴别器,捕获局部和全局纹理鉴别以获得更好的合成。在双路径训练策略的帮助下,在发电机的潜在空间中强制实施对比度约束,这改善了特征向量辨别。最后,利用多功能损失函数来指导网络合成保存跨域累加的身份。广泛的实验结果表明,与其他基线方法相比,Dal-GaN可以产生更好的质量正面视图。
translated by 谷歌翻译
积极调查深度神经网络的对抗鲁棒性。然而,大多数现有的防御方法限于特定类型的对抗扰动。具体而言,它们通常不能同时为多次攻击类型提供抵抗力,即,它们缺乏多扰动鲁棒性。此外,与图像识别问题相比,视频识别模型的对抗鲁棒性相对未开发。虽然有几项研究提出了如何产生对抗性视频,但在文献中只发表了关于防御策略的少数关于防御策略的方法。在本文中,我们提出了用于视频识别的多种抗逆视频的第一战略之一。所提出的方法称为Multibn,使用具有基于学习的BN选择模块的多个独立批量归一化(BN)层对多个对冲视频类型进行对抗性训练。利用多个BN结构,每个BN Brach负责学习单个扰动类型的分布,从而提供更精确的分布估计。这种机制有利于处理多种扰动类型。 BN选择模块检测输入视频的攻击类型,并将其发送到相应的BN分支,使MultiBN全自动并允许端接训练。与目前的对抗训练方法相比,所提出的Multibn对不同甚至不可预见的对抗性视频类型具有更强的多扰动稳健性,从LP界攻击和物理上可实现的攻击范围。在不同的数据集和目标模型上保持真实。此外,我们进行了广泛的分析,以研究多BN结构的性质。
translated by 谷歌翻译
基于相机的非接触式光电子溶血性描绘是指一组流行的非接触生理测量技术。目前的最先进的神经模型通常以伴随金标准生理测量的视频以监督方式培训。但是,它们通常概括域名差别示例(即,与培训集中的视频不同)。个性化模型可以帮助提高型号的概括性,但许多个性化技术仍然需要一些金标准数据。为了帮助缓解这一依赖性,在本文中,我们展示了一种名为Mobilememon的新型移动感应系统,该系统是第一个移动个性化远程生理传感系统,它利用智能手机上的前后相机,为培训产生高质量的自我监督标签个性化非接触式相机的PPG模型。为了评估MobilemeLephys的稳健性,我们使用39名参与者进行了一个用户学习,他们在不同的移动设备下完成了一组任务,照明条件/强度,运动任务和皮肤类型。我们的研究结果表明,Mobilephys显着优于最先进的设备监督培训和几次拍摄适应方法。通过广泛的用户研究,我们进一步检查了Mobilephys如何在复杂的真实环境中执行。我们设想,从我们所提出的双摄像机移动传感系统产生的校准或基于相机的非接触式PPG模型将为智能镜,健身和移动健康应用等许多未来应用打开门。
translated by 谷歌翻译
Wordnets是丰富的词典语义资源。链接的Wordnets是Wordnets的扩展,哪个在不同语言的Wordnets中链接类似的概念。这种资源在许多自然语言处理(NLP)应用中非常有用,主要是基于知识的方法。在这种方法中,这些资源被视为金标准/甲骨文。因此,这些资源保持正确的信息至关重要。因此,他们是由人类专家创造的。但是,多种语言的人类专家很难通过。因此,社区将受益于分享此类手动创造的资源。在本文中,我们释放了与Princeton Wordnet相关联的18个印度语言Wordnets的映射。我们认为,此类资源的可用性将对这些语言的NLP中的进展直接影响。
translated by 谷歌翻译