传统的无监督域自适应(UDA)假设训练数据是从单个域采样的。这忽略了从多个来源收集的更实际的场景训练数据,需要多源域适应。我们为解决这一问题做出了三大贡献。首先,我们提出了一种新的深度学习方法,即多源域自适应的时间匹配M3SDA,旨在通过动态调整其特征分布的时刻,将从多个标记源域学到的知识转移到未标记的目标域。其次,我们为多源域适应的矩相关误差界提供了合理的理论分析。第三,我们收集并注释了迄今为止最大的UDAdataset六个不同的域和大约60万个图像分布在345个类别中,解决了多源UDA研究中数据可用性的差距。进行了广泛的实验,以证明我们提出的模型的有效性,该模型大大优于现有的最先进的方法。
translated by 谷歌翻译
正规化在监督学习中起着至关重要的作用。大多数现有方法以结构不可知的方式实施全局正则化。在本文中,我们提出了一个新的方向,并提出通过对其拓扑复杂性进行规范化来强化分类边界的结构简单性。特别是,我们对拓扑复杂性的测量以有意义的方式包含拓扑特征(例如,连通分量,句柄等)的重要性,并提供对虚假拓扑结构的直接控制。我们将新测量作为训练分类器中的拓扑惩罚。我们还提出了一种有效的算法来计算这种惩罚的梯度。我们的方法提供了一种拓扑简化模型全局结构的新方法,而不必牺牲模型的太多灵活性。我们展示了我们的新拓扑正则化器在一系列合成和真实数据集上的有效性。
translated by 谷歌翻译
视觉定位是一个有吸引力的问题,它基于查询图像估计来自数据库图像的相似定位。它是各种应用的关键任务,例如自动驾驶汽车,辅助导航和增强现实。任务的挑战性问题在于查询和数据库图像之间的不同外观变化,包括照明变化,季节变化,动态对象变化和观点变化。为了应对这些挑战,本文提出了全景环形透镜和强大的深度图像描述符的全景环形定位器。处理由单个摄像机捕获的全景环形图像并将其馈送到NetVLAD网络中以形成活动的深度描述符,并且利用顺序匹配来生成定位结果。在公共数据集和现场进行的实验说明了所提出的系统的验证。
translated by 谷歌翻译
本文旨在学习用于视频人脸识别任务的视频的紧凑表示。我们做出以下贡献:首先,我们提出了一种基于元注释的聚合方案,该方案自适应地和细粒度地对所有帧中的每个特征维度的特征进行权衡,以形成紧凑且不可判断的表示。它最好利用每个框架的有价值或不受歧视的部分来促进面部识别的表现,而不像通常的方法那样丢弃或鄙视低质量的框架。其次,我们构建了一个由特征嵌入模块和特征聚合模块组成的特征聚合网络。嵌入模块是用于从面部图像提取特征向量的卷积神经网络,而聚合模块由级联的两个元注意块组成,其自适应地将特征向量聚合成单个固定长度表示。网络可以处理任意数量的窗口,并且对帧顺序不敏感。第三,我们验证了所提出的聚合方案的性能。公开可用的数据集(例如YouTube面部数据集和IJB-A数据集)上的实验显示了我们的方法的有效性,并且它在验证和识别协议上实现了竞争性能。
translated by 谷歌翻译
尽管从结构化(场景图)或自由形式〜(句子)描述中产生高质量图像有一些令人兴奋的进展,但大多数仍然保证图像级语义一致性,即生成的图像匹配描述的语义。然而,它仍然缺乏以更可控的方式合成图像的研究,例如精细地操纵每个物体的视觉外观。因此,为了生成具有优选对象和丰富交互的图像,我们提出了一种表示为PasteGAN的asemi参数方法,用于从thecene图生成图像,其中对象的空间排列及其成对关系由场景图和物体外观由给定的物体作物决定。为了增强输出中对象的交互,我们设计了一个裁剪精炼网络,将对象以及它们之间的关系嵌入到一个地图中。多重损失协同工作以保证生成的图像高度尊重作物并遵守场景图,同时保持优异的图像质量。如果没有提供作物,则还建议通过编码场景图中对象周围的交互来从我们的外部对象槽中挑选最兼容的作物。通过对Visual Genome和COCO-Stuff的评估,我们提出的方法在初始得分和大学得分方面明显优于SOTA方法。广泛的实验也证明了我们的方法能够用给定的对象生成复杂多样的图像。
translated by 谷歌翻译
可靠和准确的车道检测一直是自动驾驶领域的长期问题。近年来,已经开发了许多方法,其使用图像(或视频)作为图像空间中的输入和原因。在本文中,我们认为精确的图像估计不会转化为精确的3D车道边界,这是现代运动规划算法所需的输入。为了解决这个问题,我们提出了一种新颖的深度神经网络,它可以利用LiDAR和相机传感器,并直接在3D空间中产生非常准确的估计。我们在高速公路和城市中展示了我们的方法的性能,并在复杂情景中显示非常准确的估计,例如交通繁忙(产生遮挡),分叉,合并和交叉。
translated by 谷歌翻译
面部姿势估计在许多实际应用中引起了很多关注,例如人机交互,注视估计和驾驶员监控。同时,基于端到端深度学习的面部姿势估计越来越受欢迎。然而,面部姿势估计受到一个挑战:缺乏足够的训练数据用于许多姿势,特别是对于大型姿势。受近视姿势下面部观察相似的观察启发,我们将面部姿态估计重新表述为标签分布学习问题,将每个面部图像作为与高斯标签分布而非单个标签相关联的示例,并构建训练有素的卷积神经网络具有多损失功能的AFLW数据集和300WLP数据集,可直接从彩色图像预测面部姿势。在几个流行的基准测试中进行了大量实验,包括AFLW2000,BIWI,AFLW和AFW,其中我们的方法显示出优于其他最先进方法的显着优势。
translated by 谷歌翻译
本文介绍了一种可穿戴辅助设备,它具有一副眼镜的形状,允许视障人士在陌生环境中安全快速地导航,并感知复杂的环境,自动决定移动的方向。该设备使用消费者红色,绿色,蓝色和深度(RGB-D)相机和惯性测量单位(IMU)来检测障碍物。由于该装置利用相邻图像帧之间的地面高度连续性,因此能够准确且快速地从障碍物中分割地面。基于检测到的地面,计算最佳可行走方向,然后通过转换的蜂鸣声通知用户。此外,通过利用深度学习技术,设备可以在语义上对检测到的障碍物进行分类,以改善用户对周围环境的感知。它将部署在asmartphone上的卷积神经网络(CNN)与基于深度图像的对象检测相结合,以确定对象类型是什么以及对象位于何处,然后通过语音通知用户此类信息。我们通过差异实验评估了设备的性能,其中20名视障人士被要求佩戴设备并搬到办公室,并发现他们能够避免障碍,并在复杂的情况下找到方法。
translated by 谷歌翻译
本文提出了一种在草地上作业的新型垃圾捡拾机器人。利用陡峭的神经网络进行垃圾识别,机器人能够准确,自主地检测垃圾。此外,通过使用深度神经网络的地面分割,提出了一种新颖的导航策略来引导机器人四处移动。通过垃圾识别和自动导航功能,机器人可以高效,自主地清理地面上的垃圾,如公园或学校。实验结果表明,垃圾识别精度可以达到95%,即使没有路径规划,导航策略也可以达到与传统方法几乎相同的清洁效率。因此,拟议的机器人可以作为一个很好的帮助,以减轻清洁工在垃圾清理任务上的体力劳动。
translated by 谷歌翻译
为了帮助盲人在室内环境中高效安全地到达目的地,本文提出了一种新型的可穿戴导航设备。定位,寻路,路线跟踪和避障模块是导航系统中必不可少的组件,而在路线跟踪期间考虑避障是一项艰巨的任务,因为内部环境复杂,多变且可能与动态物体相关。为了解决这个问题,我们提出了一种新颖的方案,该方案利用动态的子目标选择策略来引导用户到达目的地并同时帮助他们绕过障碍。该方案是部署在一对可穿戴光学透视镜上的完整导航系统的关键部件,用于盲人日常行走的易用性。所提出的导航设备已经在一组个人身上进行了测试,并证明对室内导航任务有效。嵌入式传感器成本低,体积小,易于集成,使得眼镜可以广泛用作可穿戴的消费设备。
translated by 谷歌翻译