我们提出了批量虚拟对抗训练(BVAT),这是一种用于图卷积网络(GCN)的新型正则化方法。 BVAT解决了GCN的缺点,这些GCN不考虑模型输出分布的平滑性,而不考虑输入周围的局部扰动。我们提出了两种算法,基于样本的BVAT和基于优化的BVAT,它们适用于通过发现远离彼此的节点子集的虚拟对抗扰动或为所有节点生成虚拟对抗扰动来促进图形结构数据模型的平滑性。使用优化过程。对三个引文网络数据集Cora,Citeseer和Pubmed以及知识图数据集Nell的广泛实验验证了所提方法的有效性,该方法在半监督节点分类任务中建立了最先进的结果。
translated by 谷歌翻译
准确的相对姿势是视觉测距(VO)和同时定位和映射(SLAM)的关键组成部分之一。最近,联合优化相对姿态和目标图像深度的自我监督学习框架引起了社会的关注。以前的工作依赖于相邻帧之间的深度和姿势产生的光度误差,其由于反射表面和遮挡而在真实场景下包含大的系统误差。在本文中,我们通过在自我监督的框架中引入由极性几何约束的匹配损失来弥合几何损耗和光度损失之间的差距。在KITTIdataset上进行评估,我们的方法大大超过了最先进的无监督自我运动估计方法。代码和数据可从以下网址获得://github.com/hlzz/DeepMatchVO。
translated by 谷歌翻译
图像属性转移旨在将输入图像改变为具有预期属性的目标,近年来已经受到极大关注。然而,大多数现有方法缺乏将目标属性和无关信息去相关的能力,即其他属性。和背景信息,因此经常遭受模糊和文物。针对这些问题,我们提出了一种新颖的属性流形编码GAN(AME-GAN),用于全功能属性传输,可以修改和调整图像中的细节。具体来说,我们的方法将输入图像分为图像属性部分和图像背景部分,分别由属性潜变量和背景潜变量控制。通过将属性潜变量强加到高斯分布和背景潜变量到均匀分布,属性转移过程变得可控,图像生成更加逼真。此外,我们采用条件多尺度鉴别器来渲染准确和高质量的目标属性图像。三个流行数据集的实验结果证明了我们提出的方法在属性转移和图像生成质量两方面的优越性。
translated by 谷歌翻译
卷积神经网络(CNN)在计算机视觉应用中的成功伴随着计算和存储成本的显着增加,这禁止其在资源有限的环境中使用,例如移动或嵌入式设备。为此,CNN压缩的研究已经兴起。在本文中,我们提出了一种新的滤波器修剪方案,称为结构化稀疏正则化(SSR),以同时加速计算并减少CNN的存储器开销,这可以由各种现成的深度学习库支持。具体地说,所提出的方案将两个不同的结构差异正则化结合到过滤器修剪的原始目标函数中,其将全局输出和局部修剪操作完全地协调到自适应prunefilters。我们进一步提出了一种使用拉格朗日乘子(AULM)方案的替代更新,以有效地解决其优化问题。 AULM遵循ADMM的原则,在促进CNN的结构化稀疏性和优化识别损失之间交替进行,这导致了一个非常有效的求解器(2.5倍于最近的工作直接解决了基于稀疏性的群体化)。此外,通过施加结构化稀疏性,在线推断具有极强的记忆性,因为同时减少了滤波器和输出特征图的数量。已提出的方案已经部署到各种最先进的CNN结构上,包括LeNet,AlexNet,VGG,ResNet和GoogLeNet在不同的数据集上。定量结果表明,所提出的方案相对于最先进的方法实现了优越的性能。我们进一步展示了用于转移学习任务的压缩方案,包括领域适应和对象检测,它们也显示出超过现有技术的令人兴奋的性能提升。
translated by 谷歌翻译
深度量度学习已经广泛应用于许多计算机视觉任务中,并且最近,它在\ emph {零镜头图像检索和聚类}(ZSRC)中更具吸引力,其中要求良好的嵌入以便可以很好地区分未读类。大多数现有的作品认为这个“好”的嵌入只是为了区别对象,因此竞相设计强有力的度量目标或硬样本挖掘策略来倾向于歧视性嵌入。然而,在本文中,我们首先强调的是,泛化性是这种“良好”嵌入的核心要素,并且在很大程度上影响了零射击设置中的度量性能。然后,我们提出能量混淆对抗度量学习(ECAML)框架,以明确优化健壮的度量。主要通过引入有趣的能量混淆正则化术语来实现,该术语大胆地脱离了传统的判别性目标设计的度量学习思想,并试图“混淆”学习的模型,以通过减少对所见类的过度拟合来促进其泛化性。我们以对抗的方式将这个混淆时期与传统的度量目标一起训练。尽管“迷惑”网络似乎很奇怪,但我们表明我们的ECAML确实是用于度量学习的有效正则化技术,并且适用于各种传统度量方法。本文通过实验证明了学习嵌入与良好概括的重要性,在流行的CUB,CARS,斯坦福在线产品和ZSRC任务的In-Shop数据集中实现了最先进的性能。\ textcolor [rgb] {1,0 ,0} {代码见http://www.bhchen.cn/}。
translated by 谷歌翻译
胸部X线摄影是一种非常强大的成像模式,允许对患者的胸部进行详细检查,但需要专门的培训才能正确解释。随着高性能通用计算机视觉算法的出现,胸部X射线照片的准确自动分析越来越受到研究人员的关注。然而,开发这些技术的关键挑战是缺乏足够的数据。在这里,我们描述了MIMIC-CXR,一个371,920个胸部X射线的大型数据集,与2011年至2016年间来自Beth Israel DeaconessMedical Center的227,943个成像研究相关联。每个成像研究可以涉及一个或多个图像,但大多数情况下与两个图像相关联:正面视图和侧视图。图像提供有14个标签,这些标签来自应用于相应的自由文本放射学报告的自然语言处理工具。所有图像均已去除识别,以保护患者隐私。该数据库是免费提供的,以促进和鼓励医学计算机视觉的广泛研究。
translated by 谷歌翻译
最近,基于深度学习的方法已经主导了文本识别领域。通过大量的训练数据,他们中的大多数都可以实现最先进的表演。然而,很难从真实场景中收集和标记高效的文本序列图像。为了缓解这个问题,提出了几种合成文本序列图像的方法,但它们通常需要复杂的前面或后续步骤。在这项工作中,我们提出了一种方法,它能够生成无限的训练数据而无需任何辅助预处理/后处理。我们将生成任务作为图像到图像转换来处理,并利用条件对抗网络根据语义对象生成逼真的文本序列图像。评估我们的方法涉及一些评估指标,结果表明数据的口径是令人满意的。代码和数据集将很快公开发布。
translated by 谷歌翻译
本文回顾了最近十年,2007-2017中国分词(CWS)的发展历程。特别关注已经渗透到自然语言处理(NLP)的大多数领域的深度学习技术。我们得出的基本观点是,与传统的监督学习方法相比,基于神经网络的方法没有表现出任何优越的性能。最关键的挑战仍然在于对词汇量(IV)和词汇外(OOV)词汇的识别。然而,由于神经模型具有捕捉自然语言的本质结构的潜力,我们对可能在不久的将来到来的重要进展持乐观态度。
translated by 谷歌翻译
转移学习可以通过利用来自不同但相关的源域的大量标记数据来解决目标域中未标记数据的学习任务。转移学习的核心问题是学习共享特征空间,其中来自两个域的数据的分布匹配。该学习过程可以命名为转移表示学习(TRL)。特征转换方法对于确保TRL的成功至关重要。 TRL中最常用的特征变换方法是基于内核的非线性映射到高维空间,然后是线性维度减少。但内核函数缺乏可解释性,难以选择。为此,TSK模糊系统(TSK-FS)与传递学习相结合,提出了一种更直观,可解释的建模方法,称为TSK-FS(TRL-TSK-FS)传递表示学习。具体来说,TRL-TSK-FS从两个方面实现了TRL。一方面,源域和目标域中的数据被转换为模糊特征空间,其中两个域之间数据的分布距离最小化。另一方面,通过线性判别分析和主成分分析来保留数据的判别信息和地理属性。另外,所提出的方法产生了另一个优点,即,通过用TSK-FS的先行部分构造模糊映射而不是难以选择的核函数来实现非线性变换。对文本和图像数据集进行了大量实验。结果显示了该方法的优越性。
translated by 谷歌翻译
准确地注释医学图像是图像艾滋病应用的关键步骤。然而,由于其高复杂性和需要经验丰富的医生,注释医学图像将招致大量的注释工作和费用。为了减轻注释成本,提出了一些主动学习方法。但是这样的方法只是减少了注释候选人的数量而没有研究医生将采取多少努力,这是不够的,因为即使注释少量医疗数据也会花费大量时间给医生。在本文中,我们提出了一个新的标准来评估医生注释医学图像的努力。首先,通过主动学习和U形网络,我们采用一种暗示性注释策略来选择最有效的注释候选者。然后我们利用一个精细的注释平台来减轻对每个候选人的注意力,并首先利用一个新的标准来定量计算医生所做的努力。在我们的工作中,我们以MRbrain组织分割为例来评估所提出的方法。对众所周知的IBSR18数据集和MRBrainS18挑战数据集进行的大量实验表明,使用提出的策略,只需使用60%的注释即可实现最先进的分割性能,并且注释工作可以减轻至少44%,44% ,47%分别来自CSF,GM,WM。
translated by 谷歌翻译