准确的相对姿势是视觉测距(VO)和同时定位和映射(SLAM)的关键组成部分之一。最近,联合优化相对姿态和目标图像深度的自我监督学习框架引起了社会的关注。以前的工作依赖于相邻帧之间的深度和姿势产生的光度误差,其由于反射表面和遮挡而在真实场景下包含大的系统误差。在本文中,我们通过在自我监督的框架中引入由极性几何约束的匹配损失来弥合几何损耗和光度损失之间的差距。在KITTIdataset上进行评估,我们的方法大大超过了最先进的无监督自我运动估计方法。代码和数据可从以下网址获得://github.com/hlzz/DeepMatchVO。
translated by 谷歌翻译
最近,基于深度学习的三维人脸重建方法已经显示出质量和效率的最终结果。然而,训练深度神经网络通常需要大量数据,而具有地面真实3D面部形状的人脸图像是稀缺的。在本文中,我们提出了一种新颖的深三维人脸重建方法,1)利用鲁棒的混合损失函数进行弱监督学习,同时考虑到监督的低水平感知水平信息,以及2)通过以下方式进行多图像重建:利用差异形式的补充信息进行形状聚合。我们的方法快速,准确,稳健,具有较大的姿势。我们提供全面的三维实验,系统地将我们的方法与十五种最新方法进行比较,并展示其最先进的性能。
translated by 谷歌翻译
我们提出了批量虚拟对抗训练(BVAT),这是一种用于图卷积网络(GCN)的新型正则化方法。 BVAT解决了GCN的缺点,这些GCN不考虑模型输出分布的平滑性,而不考虑输入周围的局部扰动。我们提出了两种算法,基于样本的BVAT和基于优化的BVAT,它们适用于通过发现远离彼此的节点子集的虚拟对抗扰动或为所有节点生成虚拟对抗扰动来促进图形结构数据模型的平滑性。使用优化过程。对三个引文网络数据集Cora,Citeseer和Pubmed以及知识图数据集Nell的广泛实验验证了所提方法的有效性,该方法在半监督节点分类任务中建立了最先进的结果。
translated by 谷歌翻译
图像属性转移旨在将输入图像改变为具有预期属性的目标,近年来已经受到极大关注。然而,大多数现有方法缺乏将目标属性和无关信息去相关的能力,即其他属性。和背景信息,因此经常遭受模糊和文物。针对这些问题,我们提出了一种新颖的属性流形编码GAN(AME-GAN),用于全功能属性传输,可以修改和调整图像中的细节。具体来说,我们的方法将输入图像分为图像属性部分和图像背景部分,分别由属性潜变量和背景潜变量控制。通过将属性潜变量强加到高斯分布和背景潜变量到均匀分布,属性转移过程变得可控,图像生成更加逼真。此外,我们采用条件多尺度鉴别器来渲染准确和高质量的目标属性图像。三个流行数据集的实验结果证明了我们提出的方法在属性转移和图像生成质量两方面的优越性。
translated by 谷歌翻译
主题模型在自然语言处理及其他方面得到广泛应用。在这里,我们提出了一种新的框架,用于评估基于合成语料库的概率主题建模算法,该合成语料库包含明确定义的地面真实主题结构。我们的方法的主要创新是通过比较标记级别的指定主题标签来量化种植和推断的主题结构之间的一致性的能力。在实验中,我们的方法产生关于主题模型的相对强度的新颖见解,因为语料库特征变化,当种植结构薄弱时,主题模型的第一个证据是“不可检测的阶段”。我们还通过预测真实世界语料库中主题建模算法分类任务的性能,确定了对合成公司获得的见解的实际相关性。
translated by 谷歌翻译
深度量度学习已经广泛应用于许多计算机视觉任务中,并且最近,它在\ emph {零镜头图像检索和聚类}(ZSRC)中更具吸引力,其中要求良好的嵌入以便可以很好地区分未读类。大多数现有的作品认为这个“好”的嵌入只是为了区别对象,因此竞相设计强有力的度量目标或硬样本挖掘策略来倾向于歧视性嵌入。然而,在本文中,我们首先强调的是,泛化性是这种“良好”嵌入的核心要素,并且在很大程度上影响了零射击设置中的度量性能。然后,我们提出能量混淆对抗度量学习(ECAML)框架,以明确优化健壮的度量。主要通过引入有趣的能量混淆正则化术语来实现,该术语大胆地脱离了传统的判别性目标设计的度量学习思想,并试图“混淆”学习的模型,以通过减少对所见类的过度拟合来促进其泛化性。我们以对抗的方式将这个混淆时期与传统的度量目标一起训练。尽管“迷惑”网络似乎很奇怪,但我们表明我们的ECAML确实是用于度量学习的有效正则化技术,并且适用于各种传统度量方法。本文通过实验证明了学习嵌入与良好概括的重要性,在流行的CUB,CARS,斯坦福在线产品和ZSRC任务的In-Shop数据集中实现了最先进的性能。\ textcolor [rgb] {1,0 ,0} {代码见http://www.bhchen.cn/}。
translated by 谷歌翻译
胸部X线摄影是一种非常强大的成像模式,允许对患者的胸部进行详细检查,但需要专门的培训才能正确解释。随着高性能通用计算机视觉算法的出现,胸部X射线照片的准确自动分析越来越受到研究人员的关注。然而,开发这些技术的关键挑战是缺乏足够的数据。在这里,我们描述了MIMIC-CXR,一个371,920个胸部X射线的大型数据集,与2011年至2016年间来自Beth Israel DeaconessMedical Center的227,943个成像研究相关联。每个成像研究可以涉及一个或多个图像,但大多数情况下与两个图像相关联:正面视图和侧视图。图像提供有14个标签,这些标签来自应用于相应的自由文本放射学报告的自然语言处理工具。所有图像均已去除识别,以保护患者隐私。该数据库是免费提供的,以促进和鼓励医学计算机视觉的广泛研究。
translated by 谷歌翻译
最近,基于深度学习的方法已经主导了文本识别领域。通过大量的训练数据,他们中的大多数都可以实现最先进的表演。然而,很难从真实场景中收集和标记高效的文本序列图像。为了缓解这个问题,提出了几种合成文本序列图像的方法,但它们通常需要复杂的前面或后续步骤。在这项工作中,我们提出了一种方法,它能够生成无限的训练数据而无需任何辅助预处理/后处理。我们将生成任务作为图像到图像转换来处理,并利用条件对抗网络根据语义对象生成逼真的文本序列图像。评估我们的方法涉及一些评估指标,结果表明数据的口径是令人满意的。代码和数据集将很快公开发布。
translated by 谷歌翻译
本文回顾了最近十年,2007-2017中国分词(CWS)的发展历程。特别关注已经渗透到自然语言处理(NLP)的大多数领域的深度学习技术。我们得出的基本观点是,与传统的监督学习方法相比,基于神经网络的方法没有表现出任何优越的性能。最关键的挑战仍然在于对词汇量(IV)和词汇外(OOV)词汇的识别。然而,由于神经模型具有捕捉自然语言的本质结构的潜力,我们对可能在不久的将来到来的重要进展持乐观态度。
translated by 谷歌翻译
转移学习可以通过利用来自不同但相关的源域的大量标记数据来解决目标域中未标记数据的学习任务。转移学习的核心问题是学习共享特征空间,其中来自两个域的数据的分布匹配。该学习过程可以命名为转移表示学习(TRL)。特征转换方法对于确保TRL的成功至关重要。 TRL中最常用的特征变换方法是基于内核的非线性映射到高维空间,然后是线性维度减少。但内核函数缺乏可解释性,难以选择。为此,TSK模糊系统(TSK-FS)与传递学习相结合,提出了一种更直观,可解释的建模方法,称为TSK-FS(TRL-TSK-FS)传递表示学习。具体来说,TRL-TSK-FS从两个方面实现了TRL。一方面,源域和目标域中的数据被转换为模糊特征空间,其中两个域之间数据的分布距离最小化。另一方面,通过线性判别分析和主成分分析来保留数据的判别信息和地理属性。另外,所提出的方法产生了另一个优点,即,通过用TSK-FS的先行部分构造模糊映射而不是难以选择的核函数来实现非线性变换。对文本和图像数据集进行了大量实验。结果显示了该方法的优越性。
translated by 谷歌翻译