作为自然语言处理的基本问题,测量不同文档之间的距离是很重要的。在现有的方法中,Word Mover的距离(WMD)在文档语义匹配方面取得了显着的成功,因为它作为一个无参数模型具有明确的物理洞察力。但是,WMD基本上是基于经典的Wasserstein度量,因此它无法有力地代表不同长度的文本之间的语义相似性。在本文中,我们应用新开发的Wasserstein-Fisher-Rao(WFR)度量来自非平衡最优传输理论来测量不同文档之间的距离。拟议的WFR文件距离保持了WMD的可解释性和简洁性。我们证明,当比较不同长度的文本时,WFR文档距离具有显着的优势。此外,为了快速计算WFR距离,已经开发了一种基于GPU的加速Sinkhorn算法。 8个数据集的KNN分类结果显示其明显优于WMD。
translated by 谷歌翻译
由于基于各种深度神经网络(DNN)的框架的高计算复杂性以及需要处理的越来越大量的医学图像,基于云的医学图像分析最近变得流行。已经证明,对于医学图像,从局部到云的传输比云自身的计算要昂贵得多。为此,3D图像压缩技术已被广泛应用于减少数据流量。然而,大多数现有的图像压缩技术是围绕人类视觉开发的,即,它们被设计为使人眼可以感知的扭曲最小化。在本文中,我们将基于深度学习的医学图像分割作为载体,并且有趣地证明了机器和人类对压缩质量的不同看法。压缩后的医学图像具有良好的质量w.r.t.人类视觉可能导致较差的分割准确性。然后,我们设计了一个面向机器视觉的3Dimage压缩框架,专为使用DNN进行分割而定制。我们的方法自动提取并保留对分割最重要的图像特征。利用HVSMR 2016挑战数据集对广泛采用的分割框架进行综合实验表明,与现有的JPEG 2000方法相比,我们的方法在相同的压缩率下可以实现更高的分割精度,或者在相同的分割精度下具有更好的压缩率。据作者所知,这是第一个用于云中分割的机器视觉引导医学图像压缩框架。
translated by 谷歌翻译
引用表达基础旨在用引用表达式定位图像中的某些对象或人,其中关键挑战是理解和对齐来自视觉和文本域的各种类型的信息,例如视觉属性,位置和与周围区域的交互。尽管注意机制已成功应用于交叉模态,但以前的注意力模型仅关注两种模态的最主要特征,而忽略了图像与参考表达之间可能存在多重综合文本 - 视觉对应的事实。为了解决这个问题,我们设计了一种新的跨模式引导的擦除方法,我们从文本或视觉域中丢弃最主要的信息,以在线生成难以训练的样本,并驱动模型发现互补的文本 - 视觉对应。大量实验证明了我们提出的方法的有效性,该方法在三个参考表达式接地数据集上实现了最先进的性能。
translated by 谷歌翻译
未经授权远程访问来自网络摄像机的流式视频的风险突显了对更强大的隐私保护的需求。为此,我们模拟了一个无镜头编码孔径(CA)相机作为外观编码器,即第一层隐私保护。我们的目标是从编码孔径视频中进行人类动作识别,其编码孔径掩模未知并且不需要重建。我们通过使用基于相位相关和对数极坐标变换的不可逆运动特征来插入第二层隐私保护。相位相关对转换进行编码,而对数极坐标变换对面内旋转和缩放进行编码。 Weshow翻译功能的关键属性是掩码不变的。该属性允许我们通过消除对特定掩模设计的依赖来简化分类器的训练。基于UCF和NTUdatasets子集的结果显示了我们系统的可行性。
translated by 谷歌翻译
放射成像提供有效的解剖学测量,这在疾病诊断和评估中是有用的。先前的研究表明,左室壁重塑可以提供预测心房纤颤的治疗结果的信息。然而,从医学图像分割左心房结构仍然是非常耗时的。神经网络的当前进展可以帮助创建自动分割模型,以减少临床医生的工作量。在这项初步研究中,我们提出了具有卷积神经网络的自动化,两阶段,三维U-Nets,用于左心房分割的挑战性任务。与以前的二维图像分割方法不同,我们使用3D U-Nets直接在3D中获得心腔。双3D U-Net结构包括第一个U-Net tocoarsely段和定位左心房,以及第二个U-Net,用于在更高分辨率下准确地分割左心房。此外,我们根据额外的距离信息引入一个轮廓损失来调整最终分割。我们将数据随机分成训练数据集(80个主题)和验证数据集(20个主题),以训练具有不同增强设置的多个模型。实验表明,验证数据集的平均Dice系数约为0.91-0.92,灵敏度约为0.90-0.94,特异性为0.99。与传统的Dice损失相比,通过Contour损失训练的模型通常提供具有相似Dicecoefficient的较小Hausdorff距离,并且在预测中具有较少的连通分量。最后,我们在集合预测中集成了几个训练模型来分割测试数据集。
translated by 谷歌翻译
Image compression-based approaches for defending against the adversarial-example attacks, which threaten the safety use of deep neural networks (DNN), have been investigated recently. However, prior works mainly rely on directly tuning parameters like compression rate, to blindly reduce image features, thereby lacking guarantee on both defense efficiency (i.e. accuracy of polluted images) and classification accuracy of benign images, after applying defense methods. To overcome these limitations, we propose a JPEG-based defensive compression framework, namely "feature distillation", to effectively rectify adversarial examples without impacting classification accuracy on benign data. Our framework significantly escalates the defense efficiency with marginal accuracy reduction using a two-step method: First, we maximize malicious features filtering of adversarial input perturbations by developing defensive quantization in frequency domain of JPEG compression or decompression, guided by a semi-analytical method; Second , we suppress the distortions of benign features to restore classification accuracy through a DNN-oriented quan-tization refine process. Our experimental results show that proposed "feature distillation" can significantly surpass the latest input-transformation based mitigations such as Quilting and TV Minimization in three aspects, including defense efficiency (improve classification accuracy from ∼ 20% to ∼ 90% on adversarial examples), accuracy of benign images after defense (≤ 1% accuracy degradation), and processing time per image (∼ 259× Speedup). Moreover, our solution can also provide the best defense efficiency (∼ 60% accuracy) against the recent adaptive attack with least accuracy reduction (∼ 1%) on benign images when compared with other input-transformation based defense methods.
translated by 谷歌翻译
最近,综合学习的进展提出了合成图像的训练模型,可以有效地降低人力和物质资源的成本。然而,由于与真实图像相比合成图像的不同分布,所期望的性能仍然不能实现。真实图像由多种形式的光取向组成,而合成图像由均匀的光取向组成。这些特征分别被认为是室外和室内场景的特征。解决这个问题,前一种方法学会了一种模型来改善合成图像的真实感。与以往的方法不同,本文采用净化真实图像的第一步。通过风格转移任务,将室外真实图像的分布转换为室内合成图像,从而减少光的影响。因此,本文提出了一种区域时间风格转移网络,其保留了输入图像(真实图像)的图像内容信息(例如,注视方向,瞳孔中心位置),同时推断了风格图像的风格信息(例如,图像颜色结构,语义特征)。合成图像)。此外,网络加速了模型的收敛速度,并适应多尺度图像。使用混合研究(定性和定量)方法进行实验,以证明在复杂方向上纯化真实图像的可能性。定性地,将所提出的方法与LPW数据集的一系列室内和室外场景中的可用方法进行比较。在定量计中,它通过在交叉数据集上训练凝视估计模型来评估纯化图像。结果显示,与原始实际图像相比,基线方法有显着改进。
translated by 谷歌翻译
目前用于人类活动识别(HAR)的金标准基于相机的使用。然而,相机系统的可扩展性差使得它们在追求在移动计算环境中更广泛地采用HAR的目标上是不切实际的。因此,研究人员反而依赖于可穿戴传感器,特别是惯性传感器。一种特别流行的可穿戴设备是智能手表,由于其集成的惯性和光学传感能力,在非突出的路径中实现更好的HAR具有很大的潜力。如果通常在智能手表或类似设备中找到的腕式光学传感器可以用作数据可用性识别的有用来源,本文试图通过确定来简化可穿戴方法。该方法有可能消除对惯性传感元件的需求,这又会降低智能手表和健身追踪器的成本和复杂性。这可能潜在地考虑到HAR的硬件要求,同时保留来自单个光学传感器的心率监测和活动捕获的功能。我们的方法依赖于基于适当缩放的光信号图来采用用于活动识别的机器视觉。我们采用这种方法,以便产生易于由非技术用户解释和解释的分类。更具体地,使用光电容积描记器信号时间序列的图像来重新训练最初在ImageNet数据库上训练的卷积神经网络的倒数第二层。然后,我们使用来自倒数第二层的2048维特征作为支持向量机的输入。实验结果的平均分类准确率为92.3%。该结果优于光学和惯性传感器的组合(78%)并且使用...来说明HAR系统的能力。
translated by 谷歌翻译
最近使用深度神经网络的研究已经显示出非凡的转换,特别是对于艺术和照片般逼真的图像。然而,使用全局特征相关的方法无法捕获小的,复杂的纹理并且保持艺术品的正确纹理尺度,并且基于局部补丁的方法在全局效果上是有缺陷的。在本文中,我们提出了一个新颖的特征金字塔融合神经网络,称为GLStyleNet,它通过最佳聚合VGG网络中的层来充分考虑多尺度和多级金字塔特征,并分层执行样式转移,具有多个不同的损失。我们提出的方法从损失函数约束和特征融合两个方面保留了图像的高频像素信息和低频构造信息。我们的方法不仅可以灵活地调整内容和风格之间的交易,还可以在全局和本地之间进行控制。与最先进的方法相比,我们的方法不仅可以传递大规模,明显的风格线索,还可以传递微妙,精致的方法,并且可以大大提高风格转换的质量。我们展示了我们的肖像风格转移,艺术风格转移,照片写实风格转移和中国古代绘画风格转移任务的方法的有效性。实验结果表明,我们的统一方法比以往最先进的方法提高了图像样式传递质量,同时也在一定程度上加速了整个过程。我们的代码可在https://github.com/EndyWon/GLStyleNet上获得。
translated by 谷歌翻译
代词通常在诸如中文之类的支持语言中被省略,通常导致在完成翻译的产生方面的重大挑战。最近,王等人。 (2018)提出了一种新的基于重构的方法来减轻神经机器翻译模型的下降代词(DP)翻译问题。在这项工作中,我们从两个角度改进了原始模型。首先,我们采用共享的重构,更好地利用编码器和解码器表示。其次,我们共同学习以端到端的方式翻译和预测DP,以避免从外部DP预测模型传播的错误。实验结果表明,该方法显着提高了翻译性能和DP预测准确性。
translated by 谷歌翻译