Along with the widespread use of face recognition systems, their vulnerability has become highlighted. While existing face anti-spoofing methods can be generalized between attack types, generic solutions are still challenging due to the diversity of spoof characteristics. Recently, the spoof trace disentanglement framework has shown great potential for coping with both seen and unseen spoof scenarios, but the performance is largely restricted by the single-modal input. This paper focuses on this issue and presents a multi-modal disentanglement model which targetedly learns polysemantic spoof traces for more accurate and robust generic attack detection. In particular, based on the adversarial learning mechanism, a two-stream disentangling network is designed to estimate spoof patterns from the RGB and depth inputs, respectively. In this case, it captures complementary spoofing clues inhering in different attacks. Furthermore, a fusion module is exploited, which recalibrates both representations at multiple stages to promote the disentanglement in each individual modality. It then performs cross-modality aggregation to deliver a more comprehensive spoof trace representation for prediction. Extensive evaluations are conducted on multiple benchmarks, demonstrating that learning polysemantic spoof traces favorably contributes to anti-spoofing with more perceptible and interpretable results.
translated by 谷歌翻译
We present SpeechMatrix, a large-scale multilingual corpus of speech-to-speech translations mined from real speech of European Parliament recordings. It contains speech alignments in 136 language pairs with a total of 418 thousand hours of speech. To evaluate the quality of this parallel speech, we train bilingual speech-to-speech translation models on mined data only and establish extensive baseline results on EuroParl-ST, VoxPopuli and FLEURS test sets. Enabled by the multilinguality of SpeechMatrix, we also explore multilingual speech-to-speech translation, a topic which was addressed by few other works. We also demonstrate that model pre-training and sparse scaling using Mixture-of-Experts bring large gains to translation performance. The mined data and models are freely available.
translated by 谷歌翻译
标记医学图像取决于专业知识,因此很难在短时间内以高质量获取大量注释的医学图像。因此,在小型数据集中充分利用有限标记的样品来构建高性能模型是医疗图像分类问题的关键。在本文中,我们提出了一个深入监督的层选择性注意网络(LSANET),该网络全面使用功能级和预测级监督中的标签信息。对于特征级别的监督,为了更好地融合低级功能和高级功能,我们提出了一个新颖的视觉注意模块,层选择性注意(LSA),以专注于不同层的特征选择。 LSA引入了一种权重分配方案,该方案可以在整个训练过程中动态调整每个辅助分支的加权因子,以进一步增强深入监督的学习并确保其概括。对于预测级的监督,我们采用知识协同策略,通过成对知识匹配来促进所有监督分支之间的层次信息互动。使用公共数据集MedMnist,这是用于涵盖多种医学专业的生物医学图像分类的大规模基准,我们评估了LSANET在多个主流CNN体系结构和各种视觉注意模块上评估。实验结果表明,我们所提出的方法对其相应的对应物进行了实质性改进,这表明LSANET可以为医学图像分类领域的标签有效学习提供有希望的解决方案。
translated by 谷歌翻译
障碍物检测是机器人导航中的一个安全问题,即立体声匹配是一种流行的基于视觉的方法。尽管深度神经网络在计算机视觉中显示出令人印象深刻的结果,但以前的大多数障碍物检测都仅利用传统的立体声匹配技术来满足实时反馈的计算限制。本文提出了一种计算高效的方法,该方法利用深度神经网络直接从立体声图像中检测占用率。我们的方法没有从立体声数据中学习点云对应,而是根据体积表示提取紧凑的障碍物分布。此外,我们根据解码器产生的OCTREES以粗到1的方式修剪安全空间的计算。结果,我们在机载计算机上实现实时性能(NVIDIA JETSON TX2)。我们的方法可检测到32米的范围准确的障碍,并以最先进的立体声模型的计算成本的2%的计算成本获得了更好的IOU(相交)和CD(倒角距离)。此外,我们通过使用真实机器人进行自主导航实验来验证方法的鲁棒性和现实世界的可行性。因此,我们的工作有助于缩小机器人感知中基于立体声的系统与计算机视觉中最新的立体声模型之间的差距。为了应对高质量的现实世界立体声数据集的稀缺性,我们收集了一个1.36小时的立体声数据集,该数据集用jackal机器人来微调我们的模型。数据集,代码和更多可视化可在https://lhy.xyz/stereovoxelnet/上获得
translated by 谷歌翻译
学习准确的深度对于多视图3D对象检测至关重要。最近的方法主要是从单眼图像中学习深度,由于单眼深度学习的性质不足,这会面临固有的困难。在这项工作中,我们提出了一种新颖的环绕时间立体声(STS)技术,而不是使用唯一的单眼深度方法,而是利用跨时间之间的几何对应关系来促进准确的深度学习。具体而言,我们将自我车辆周围所有相机的视野视为统一的视图,即环绕浏览量,并在其上进行暂时立体声匹配。利用与STS不同框架之间的几何对应关系并与单眼深度结合在一起,以产生最终的深度预测。关于Nuscenes的综合实验表明,STS极大地提高了3D检测能力,特别是对于中距离和长距离对象。在带有RESNET-50骨架的BEVDEPTH上,STS分别提高了MAP和NDS,分别提高了2.6%和1.4%。当使用较大的主链和较大的图像分辨率时,观察到一致的改进,证明了其有效性
translated by 谷歌翻译
生成精确反映客户行为的表示形式是在Alexa提供个性化技能路由体验的重要任务。目前,负责将Alexa流量路由到提供商或技能的动态路由(DR)团队依赖于两个功能作为个人信号:每个客户的每种技能使用情况的绝对交通计数和规范化的交通计数。他们俩都没有考虑基于网络的结构来进行客户与技能之间的交互,这些结构包含更丰富的信息以获得客户的喜好。在这项工作中,我们首先构建了基于图形的客户与调用技能的过去交互,在该技能中,用户请求(说服)被建模为边缘。然后,我们提出了一个基于图形卷积网络(GCN)的模型,即个性化的动态路由功能编码器(PDRFE),该模型生成了从构建图中学到的个性化客户表示。与现有模型相比,PDRFE能够在图形卷积函数中进一步捕获上下文信息。我们提出的模型的性能通过下游任务,缺陷预测来评估,该任务可预测从客户的嵌入及其触发技能的嵌入中的缺陷标签。与基准相比,我们提出的模型的跨熵度量提高了多达41%的改善。
translated by 谷歌翻译
社会机器人行为的最终用户编程通常受到预定义的运动的限制。我们提出了一个伪造的机器人界面,该接口提供了一种更直观的编程机器人表达运动的方法。当用户操纵机器人的木偶时,实际机器人会复制动作,提供实时视觉反馈。通过此提议的界面,即使在有限的培训中,新手用户也可以有效地设计和程序表达运动。我们介绍了我们的初步用户研究结果。
translated by 谷歌翻译
预训练模型已在许多代码智能任务中有效。这些模型在大规模未标记的语料库中进行了预训练,然后在下游任务中进行了微调。但是,由于预训练和下游任务的输入是不同的形式,因此很难充分探索预训练模型的知识。此外,微调的性能强烈依赖于下游数据的量,而实际上,具有稀缺数据的场景很常见。自然语言处理(NLP)领域的最新研究表明,迅速调整,一种调整的新范式,减轻上述问题并在各种NLP任务中实现了有希望的结果。在迅速调整中,在调整过程中插入的提示提供了特定于任务的知识,这对于具有相对较少数据的任务特别有益。在本文中,我们凭经验评估了代码智能任务中迅速调整的用法和效果。我们对流行的预训练模型Codebert和codet5进行及时调整,并尝试三个代码智能任务,包括缺陷预测,代码摘要和代码翻译。我们的实验结果表明,在所有三个任务中,迅速调整始终优于微调。此外,及时调整在低资源场景中显示出很大的潜力,例如,对于代码摘要,平均将微调的BLEU分数提高了26%以上。我们的结果表明,我们可以调整代码智能任务的迅速调整,以实现更好的性能,尤其是在缺乏特定于任务的数据时,我们可以调整及时调整。
translated by 谷歌翻译
随着电子商务行业的繁荣,将各种方式(例如愿景和语言)用于描述产品项目。了解这种多样化的数据是一个巨大的挑战,尤其是通过有用的图像区域提取文本序列中的属性值对。尽管以前的一系列作品已致力于这项任务,但很少有人研究障碍,阻碍了进一步的进一步改进:1)上流单模式预处理的参数不足,而无需在下游多人中进行适当的合理微调。 - 模式任务。 2)要选择图像的描述性部分,不管先验的信息应通过更强的编码器将与语言相关的信息编码为常见的语言嵌入空间,从而广泛应用了简单的晚期融合。 3)由于产品之间的多样性,它们的属性集往往差异很大,但是当前的方法以不必要的最大范围预测,并带来更多潜在的假阳性。为了解决这些问题,我们在本文中提出了一种新颖的方法,可以通过统一学习方案和动态范围最小化提高多模式电子商务属性的价值提取:1)首先,统一方案旨在共同培训多模式任务带有预审计的单模式参数。 2)其次,提出了一种文本引导的信息范围最小化方法,以将每种模态的描述性部分自适应地编码为具有强大审慎的语言模型的相同空间。 3)此外,提出了一种原型引导的属性范围最小化方法,以首先确定当前产品的适当属性集,然后选择原型以指导所选属性的预测。关于流行的多模式电子商务基准的实验表明,我们的方法比其他最新技术的方法更出色。
translated by 谷歌翻译
轨迹预测和行为决策是自动驾驶汽车的两项重要任务,他们需要对环境环境有良好的了解;通过参考轨迹预测的输出,可以更好地做出行为决策。但是,大多数当前解决方案分别执行这两个任务。因此,提出了结合多个线索的联合神经网络,并将其命名为整体变压器,以预测轨迹并同时做出行为决策。为了更好地探索线索之间的内在关系,网络使用现有知识并采用三种注意力机制:稀疏的多头类型用于减少噪声影响,特征选择稀疏类型,可最佳地使用部分先验知识,并与Sigmoid多头激活类型,用于最佳使用后验知识。与其他轨迹预测模型相比,所提出的模型具有更好的综合性能和良好的解释性。感知噪声稳健性实验表明,所提出的模型具有良好的噪声稳健性。因此,结合多个提示的同时轨迹预测和行为决策可以降低计算成本并增强场景与代理之间的语义关系。
translated by 谷歌翻译