深度学习推理加速器是从与Pthreads并行化的C语言软件程序合成的。软件实现使用着名的生产者/消费者模型,其中并行线程通过FIIFO队列互连。 LegUp高级综合(HLS)工具在并行FPGA硬件中合成线程,将软件并行性转换为空间并行性。生成一个完整的系统,在合成加速器中实现卷积,池化和填充,并在嵌入式ARM处理器上执行剩余任务。加速器结合了精确度降低,以及一种新的卷积零重量跳跃方法。在中型的英特尔Arria 10 SoC FPGA上,VGG-16的峰值性能为138有效GOPS。
translated by 谷歌翻译
本文旨在学习用于视频人脸识别任务的视频的紧凑表示。我们做出以下贡献:首先,我们提出了一种基于元注释的聚合方案,该方案自适应地和细粒度地对所有帧中的每个特征维度的特征进行权衡,以形成紧凑且不可判断的表示。它最好利用每个框架的有价值或不受歧视的部分来促进面部识别的表现,而不像通常的方法那样丢弃或鄙视低质量的框架。其次,我们构建了一个由特征嵌入模块和特征聚合模块组成的特征聚合网络。嵌入模块是用于从面部图像提取特征向量的卷积神经网络,而聚合模块由级联的两个元注意块组成,其自适应地将特征向量聚合成单个固定长度表示。网络可以处理任意数量的窗口,并且对帧顺序不敏感。第三,我们验证了所提出的聚合方案的性能。公开可用的数据集(例如YouTube面部数据集和IJB-A数据集)上的实验显示了我们的方法的有效性,并且它在验证和识别协议上实现了竞争性能。
translated by 谷歌翻译
本文提出了一种改进智能机器人对话交互性的新方法,以实现更真实的身体姿势。这些序列到序列(seq2seq)模型适用于合成由十二个上身关键点的运动表示的机器人的手势,不仅仅是说话阶段,而且还有前面的方法难以实现的收听阶段。我们从Youtube收集并预处理了人工对话的实质视频,以训练我们的基于seq2seq的模型,并通过测试集上的均方误差(MSE)和余弦相似度来评估它们。实现模型以驱动虚拟化身和物理人体机器人,以展示我们在实践中对交互能力的改进。通过我们的模型合成的身体姿势,avatarand Pepper在与人类交流时表现得更加智能。
translated by 谷歌翻译
现有的域自适应方法通常假设不同的域具有相同的标签空间,这对于实际应用是非常有限的。在本文中,我们关注开放的域域适应的更现实和具有挑战性的情况。特别是,在开放集域适应中,我们允许来自源域和目标域的类部分重叠。在这种情况下,由于两个域中的标签空间不同,传统分布对齐的假设不再适用。为了应对这一挑战,我们提出了一种新方法,它被称为已知类自觉集合(KASE),它建立在最近开发的自集合模型之上。在InKASE中,我们首先引入一个知名类意识识别(KAR)模块来识别目标域中的已知和未知类,这是通过鼓励已知类的低交叉熵和基于来自未知类的源数据的高熵来实现的。 。然后,我们开发了一个知识级的意识适应(KAA)模块,通过重新权衡基于KAR预测的已知类别的未标记目标样本的可能性,从源域到目标更好地适应。在多个基准数据集上进行了大量实验证明我们的方法的有效性。
translated by 谷歌翻译
面部姿势估计在许多实际应用中引起了很多关注,例如人机交互,注视估计和驾驶员监控。同时,基于端到端深度学习的面部姿势估计越来越受欢迎。然而,面部姿势估计受到一个挑战:缺乏足够的训练数据用于许多姿势,特别是对于大型姿势。受近视姿势下面部观察相似的观察启发,我们将面部姿态估计重新表述为标签分布学习问题,将每个面部图像作为与高斯标签分布而非单个标签相关联的示例,并构建训练有素的卷积神经网络具有多损失功能的AFLW数据集和300WLP数据集,可直接从彩色图像预测面部姿势。在几个流行的基准测试中进行了大量实验,包括AFLW2000,BIWI,AFLW和AFW,其中我们的方法显示出优于其他最先进方法的显着优势。
translated by 谷歌翻译
本文介绍了一种可穿戴辅助设备,它具有一副眼镜的形状,允许视障人士在陌生环境中安全快速地导航,并感知复杂的环境,自动决定移动的方向。该设备使用消费者红色,绿色,蓝色和深度(RGB-D)相机和惯性测量单位(IMU)来检测障碍物。由于该装置利用相邻图像帧之间的地面高度连续性,因此能够准确且快速地从障碍物中分割地面。基于检测到的地面,计算最佳可行走方向,然后通过转换的蜂鸣声通知用户。此外,通过利用深度学习技术,设备可以在语义上对检测到的障碍物进行分类,以改善用户对周围环境的感知。它将部署在asmartphone上的卷积神经网络(CNN)与基于深度图像的对象检测相结合,以确定对象类型是什么以及对象位于何处,然后通过语音通知用户此类信息。我们通过差异实验评估了设备的性能,其中20名视障人士被要求佩戴设备并搬到办公室,并发现他们能够避免障碍,并在复杂的情况下找到方法。
translated by 谷歌翻译
本文提出了一种在草地上作业的新型垃圾捡拾机器人。利用陡峭的神经网络进行垃圾识别,机器人能够准确,自主地检测垃圾。此外,通过使用深度神经网络的地面分割,提出了一种新颖的导航策略来引导机器人四处移动。通过垃圾识别和自动导航功能,机器人可以高效,自主地清理地面上的垃圾,如公园或学校。实验结果表明,垃圾识别精度可以达到95%,即使没有路径规划,导航策略也可以达到与传统方法几乎相同的清洁效率。因此,拟议的机器人可以作为一个很好的帮助,以减轻清洁工在垃圾清理任务上的体力劳动。
translated by 谷歌翻译
为了帮助盲人在室内环境中高效安全地到达目的地,本文提出了一种新型的可穿戴导航设备。定位,寻路,路线跟踪和避障模块是导航系统中必不可少的组件,而在路线跟踪期间考虑避障是一项艰巨的任务,因为内部环境复杂,多变且可能与动态物体相关。为了解决这个问题,我们提出了一种新颖的方案,该方案利用动态的子目标选择策略来引导用户到达目的地并同时帮助他们绕过障碍。该方案是部署在一对可穿戴光学透视镜上的完整导航系统的关键部件,用于盲人日常行走的易用性。所提出的导航设备已经在一组个人身上进行了测试,并证明对室内导航任务有效。嵌入式传感器成本低,体积小,易于集成,使得眼镜可以广泛用作可穿戴的消费设备。
translated by 谷歌翻译
本文提出了一种改进的方法,用于生成和适应合成图像,用于深度卷积神经网络(CNNs)的训练,以执行智能自动售货机中的目标检测任务。虽然生成合成数据已证明在监督学习方法中补充训练数据是有效的,但仍然存在生成与复杂真实场景类似的虚拟图像并最小化冗余训练数据的挑战。为了解决这些问题,我们考虑模拟放置在虚拟场景中的杂乱物体和用于在数据处理过程中捕获整个场景的扭曲的广角摄像机,并使用精心设计的生成网络对生成的图像进行后处理以使它们成为可能。更类似于真实图像。已经进行了各种实验来证明使用所生成的虚拟图像来提高具有有限的实际训练数据的一个存在的数据集的检测精度的效率以及将训练的网络应用于在新环境中收集的数据集的可扩展性。
translated by 谷歌翻译
培训集的质量和规模对基于深度学习的面部相关任务的结果有很大影响。然而,收集和标记具有高质量和平衡分布的充分样本仍然是费力且昂贵的工作,因此广泛使用各种数据增强技术来丰富训练数据集。在本文中,我们从转换类型和方法的角度系统地回顾了面部数据增强的现有工作,并采用了最先进的方法。在所有这些方法中,我们把重点放在基于深度学习的工作上,特别是近年来被认为是更强大和有效工具的生成性对抗网络。我们提出他们的原则,讨论结果并展示他们的应用以及限制。还介绍了用于评估这些方法的不同评估指标。我们指出了面部数据增加领域的挑战和机遇,并提供了简短而富有洞察力的讨论。
translated by 谷歌翻译