我们介绍了一种利用深度语境嵌入的多语言转移的新方法,该方法以无人监督的方式预训练。虽然与静态对应物相比,已经证明上下文嵌入可以产生更丰富的意义表示,但由于它们的动态性质,对齐它们会带来挑战。为此,我们构造原始单语空间的与上下文无关的变体,并利用它们的映射来导出依赖于上下文的空间的对齐。该映射容易支持处理目标语言,通过上下文感知嵌入改进传输。 Ourexperimental结果证明了这种方法对于依赖性解析的零镜头和几次镜头学习的有效性。具体来说,我们的方法始终优于以前最先进的6种目标语言,平均提高了6.8 LAS点。
translated by 谷歌翻译
注意机制是深度神经网络的设计趋势,其在各种计算机视觉任务中脱颖而出。最近,一些工作尝试将注意机制应用于单图像超分辨率(SR)任务。然而,他们以相同或相似的方式将SR机制应用于高级计算机视觉问题,而不考虑SR和SR之间的不同特征。其他问题。在本文中,我们提出了一种新的关注方法,它由针对SR优化的新的渠道和空间关注机制以及融合它们的新融合关注组成。基于此,我们提出了一个新的剩余注意力模块(RAM)和一个使用RAM(SRRAM)的SR网络。我们对SR中不同的关注机制进行了深入的实验分析。结果表明,与现有技术相比,所提出的方法可以构建深度和轻量级SR网络,显示出改进的性能。
translated by 谷歌翻译
以前关于车辆Re-ID的工作主要集中在提取全局特征和学习距离度量。由于一些车辆通常共享相同的模型制造商,因此很难根据它们的整体外观来区分它们。与全球外观相比,挡风玻璃上附带的装饰和检查贴纸等局部区域可能更具特色的车型Re-ID。为了将详细的视觉线索嵌入到这些局部区域,我们提出了一个区域感知深度模型(RAM)。具体而言,除了提取全局功能外,RAM还从一系列局部区域中提取特征。随着每个地方区域传达更多独特的视觉线索,RAM鼓励深层模型学习辨别特征。我们还介绍了一种新的学习算法,以共同使用车辆ID,类型/模型和颜色来训练RAM。该策略为培训提供了更多线索,并产生了更具辨别力的全球和区域特征。我们在两个大型车辆Re-ID数据集上评估我们的方法,即VeRi和VehicleID。实验结果表明,与近期工作相比,我们的方法取得了良好的效果。
translated by 谷歌翻译
呼吸系统疾病折磨着各种各样的人,并通过哮喘和睡眠呼吸暂停等疾病表现出来。由于监测系统的大尺寸和成本,在重症监护病房外很少使用慢性呼吸系统疾病的持续监测。虽然基于心电图(ECG)的呼吸提取是一种经过验证的方法,但通过访问合适的连续ECG监测器来限制其采用。最近,由于采用内置光电容积描记图(PPG)传感器的可穿戴智能手表的广泛采用,它被认为是连续和不引人注意的呼吸监测的可行候选者。然而,该领域的研究主要集中于估算PPG的呼吸率。在这项工作中,提出了称为RespNet的新型端到端深度学习网络来执行从给定输入PPG中提取呼吸信号的任务,而不是提取呼吸率。所提出的网络在两个不同的数据集上进行训练和测试,使用不同的参考呼吸信号记录模式。此外,研究了所提出的网络的相似性和性能,两种传统的信号处理方法用于提取呼吸信号。所提出的方法在两个独立的数据集上进行了测试,均方误差为0.262和0.145。发现各个数据集的交叉相关系数为0.933和0.931。报告的错误和相似性被发现优于传统方法。所提出的方法将帮助临床医生提供对睡眠相关呼吸状况和慢性呼吸疾病的综合评估,同时对患者舒适且便宜。
translated by 谷歌翻译
最近,使用完全卷积网络(FCN)在语义分割中实现了最先进的结果。这些网络中的大多数采用类似于U-Net的编码器 - 解码器样式架构,并且使用图像和相应的分割图作为像素分类任务进行训练。此类框架仅通过使用地面真实分割图来利用类信息。在本文中,我们提出了一个多任务学习框架,其主要目的是利用结构和空间信息以及类信息。我们修改FCN的解码器部分以利用类信息和结构信息。我们打算这样做,同时保持网络参数尽可能低。我们使用以下两种方式之一获得结构信息:i)使用等高线图和ii)使用距离图,两者都可以从地面真实分割图获得而无需额外的注释成本。我们还探索了可以计算距离图的不同方法,并研究了不同距离图对分割性能的影响。我们还对两种不同的医学图像分割应用进行了全面的实验:即i)使用彩色眼底图像进行视盘和杯形分割,以及ii)使用内窥镜图像进行息肉分割。通过我们的实验,我们报告的结果与当前最先进的架构相当,并且在某些情况下表现更好,并且参数数量减少了2倍。
translated by 谷歌翻译
图像到图像转换的主要动机是将一个域的图像转换为另一个域。大多数研究都集中在一组预定域的图像变换任务上。据报道,实际上为不同的域开发了一个用于图像到图像转换的通用框架。随着生成对抗网络(GAN)作为图像生成问题的一般框架的引入,图像到图像转换领域有了巨大的增长。大多数研究都集中在适合图像到图像转换的目标函数上。在本文中,我们提出了一种新的循环合成生成对抗网络(CSGAN),用于图像到图像的转换。所提出的CSGAN在一个域的合成图像和另一个域的循环图像之间使用称为循环合成损失(CS)的新目标函数(损失)。所提出的CSGAN的性能在两个基准图像到图像变换数据集上进行评估,包括CUHK Face数据集和CMP Facades数据集。使用广泛使用的评估指标(如MSE,SSIM,PSNR和LPIPS)计算结果。将所提出的CSGAN方法的实验结果与最先进的现有方法(例如GAN,Pix2Pix,DualGAN,CycleGAN和PS2GAN)进行比较。拟议的CSGAN技术优于CUHKdataset的所有方法,并且在定性和定量测量方面表现出与Facadesdataset相比具有前景和可比性。该代码可在https://github.com/KishanKancharagunta/CSGAN获得。
translated by 谷歌翻译
通过数字设备体验了很大一部分人的日常活动。特别是智能手机已成为内容消费和社交互动的首选界面之一。识别嵌入在频繁捕获的智能手机屏幕截图中的内容因此是研究媒体行为和健康干预计划的关键先决条件,分析活动相互作用和内容切换时间。截图图像可以描绘异构内容和应用,使得对于适当的分类法的先验定义非常麻烦,即使对于人类也是如此。屏幕上敏感数据的隐私保护意味着与手动注释相关的成本很大,因为这种努力不能源自人群。因此,需要检验用于数字屏幕分类的无监督和半监督方法。这项工作介绍了在只有有限数量的标签可用时将聚类应用于大型屏幕截图集的含义。在本文中,我们开发了一个框架,用于将K-Means聚类与ActiveLearning相结合,以有效利用标记和未标记的样本,同时发现潜在类并描述大量的屏幕截图数据。我们测试了用于类概率传播的SVM嵌入式或XGBoost嵌入式解决方案是否提供了更加良好的群集配置。导出并组合屏幕截图图像的视觉和文本矢量表示,以评估多模态特征对整体性能的相对贡献。
translated by 谷歌翻译
创建反映长文本内容的图像是一个复杂的过程,需要一种创造力。例如,根据其摘要或基于其食谱的食物图像创建书籍封面或amovie海报。在本文中,我们提出了从长文本生成图像的新任务,即不直接描述图像的可视内容。为此,我们建立了一个系统,用于生成高分辨率的256美元,价格为256美元的食谱。配方文本(没有itstitle)与图像的视觉内容之间的关系是模糊的,配方的文本结构是复杂的,由两个包含多个句子的部分(成分和指令)组成。我们使用recipe1M数据集来训练和评估基于StackGAN-v2架构的模型。
translated by 谷歌翻译
与使用的密码和模式锁相比,生物识别工具的出现及其在日常设备中的使用增加使得用户的认证过程变得简单。生物识别的易用性减少了手动工作,有助于更快速和自动化的身份验证。在不同的生物特征中,面部是可以在没有用户多多合作的情况下被捕获的面部。此外,人脸识别是当今设备中最广为人知的特征之一,因此代表了应该以最优先的方式研究的重要问题。随着最近的趋势,基于卷积神经网络(CNN)的方法在包括人脸识别在内的计算机视觉的许多任务中都取得了很大的成功。在CNN的顶部使用损失函数来判断任何网络的好坏。损失函数在CNN训练中起着重要作用。基本上,如果网络使用当前参数设置不能很好地执行,则会产生巨大的损失。在本文中,我们提出了不同损失函数的性能比较,如交叉熵,角度Softmax,附加边际Softmax,ArcFace和边际损失,用于人脸识别。这些实验采用两种CNN架构,即ResNet和MobileNet。两个广泛使用的面部数据集,即CASIA-Webface和MS-Celeb-1M用于训练和基准Labeled Faces in the Wild(LFW)facesataset用于测试。本文分析了训练和测试结果。
translated by 谷歌翻译
神经网络中的激活函数是通过将非线性引入学习过程来促进深度训练的重要方面之一。然而,由于零硬整流,一些现有的激活功能如ReLU和Swish未能利用负输入值而可能遭受垂死梯度问题。因此,寻找一种没有这些问题的更好的激活功能是很重要的。作为一种补救措施,本文提出了一种新的非参数函数,称为神经网络(NN)的线性标度双曲正切(LiSHT)。提出的LiSHT激活函数是一种尝试通过一个非线性的双曲正切(Tanh)函数来扩展线性函数和解决垂直问题。基准Car Evaluation,Iris,MNIST,CIFAR10,CIFAR100和twitter140datasets进行了训练和分类实验,表明所提出的激活实现了更快的收敛和更高的性能。在三种不同类型的神经网络上观察到非常有希望的性能改进,包括多层感知器(MLP),卷积神经网络(CNN)和诸如长短期记忆(LSTM)的递归神经网络。所提出的激活函数的优点也可以在特征激活图,权重分布和损失景观方面进行可视化。
translated by 谷歌翻译