视觉定位是一个有吸引力的问题,它基于查询图像估计来自数据库图像的相似定位。它是各种应用的关键任务,例如自动驾驶汽车,辅助导航和增强现实。任务的挑战性问题在于查询和数据库图像之间的不同外观变化,包括照明变化,季节变化,动态对象变化和观点变化。为了应对这些挑战,本文提出了全景环形透镜和强大的深度图像描述符的全景环形定位器。处理由单个摄像机捕获的全景环形图像并将其馈送到NetVLAD网络中以形成活动的深度描述符,并且利用顺序匹配来生成定位结果。在公共数据集和现场进行的实验说明了所提出的系统的验证。
translated by 谷歌翻译
我们提出了一种新颖的高频残差学习框架,它为移动和嵌入式视觉问题提供了一种高效的多尺度网络(MSNet)架构。该架构利用两个网络:低分辨率网络有效地近似低频分量和高分辨率网络,通过重用上采样的低分辨率特征来学习高频残差。通过分类器校准模块,MSNetcan可在推理期间动态分配计算资源,以实现更快的速度和准确性权衡。我们在challengeImageNet-1k数据集上评估我们的方法,并观察不同基础网络的一致改进。在具有alpha = 1.0的ResNet-18和MobileNet上,MSNet在两种架构上都能获得1.5%的准确率,而不会增加计算量。在alpha = 0.25的更高效的MobileNet上,我们的方法在相同的计算量下获得3.8%的准确率。
translated by 谷歌翻译
最近人工智能的快速发展(人工智能,主要由机器学习研究,特别是深度学习驱动)已经在各种应用中获得了惊人的成功。但是,为了进一步将AI技术应用于实际环境中,应该解决有关AI生态系统的几个重要问题。我们将主要问题确定为数据隐私,所有权和交换,这些问题很难通过当前的机器学习培训方法集中范式来解决。因此,我们提出了基于区块链的新模型训练范例,名为Galaxy Learning,用于训练具有分布式数据的模型并保留其所有者的数据所有权。在这个新的范例中,加密模型会被移动,并且一旦经过训练就会联合起来。通过区块链及其智能合约实现模型培训以及沟通。培训数据的定价取决于其贡献,因此不是数据所有权的交换。在这篇立场文件中,我们描述了GalaxyLearning的动机,范例,设计和挑战以及机遇。
translated by 谷歌翻译
计算机视觉近年来取得了令人瞩目的进展。同时,手机已经成为数百万人的主要计算平台。除了移动电话之外,许多自治系统依靠视觉数据来做出决策,其中一些系统的能量有限(例如无人驾驶飞行器也称为无人驾驶飞机和移动机器人)。这些系统依赖电池,能效至关重要。本文保留了两个主要目的:(1)检查低功率解决方案的最新技术,以检测图像中的对象。自2015年以来,IEEE年度国际低功耗图像识别挑战赛(LPIRC)一直致力于识别最节能的计算机视觉解决方案。本文总结了2018年获奖者的解决方案。 (2)建议研究方向以及低功耗计算机视觉的机会。
translated by 谷歌翻译
本文介绍了以舒适为中心的可穿戴式机器人的设计原则及其在轻型和可反向驱动的膝外骨骼中的应用。将不适感作为机械设计和控制问题进行处理,本文提出了三种解决方案:1)新的可穿戴结构优化了表带附着结构,适合布局,改善了传统可穿戴结构设计的过度剪切力; 2)滚动接头和双铰链机构分别减少了矢状面正面的不对中,而没有增加机械复杂性和惯性; 3)低阻抗机械传动减少了致动器对人体的反射和阻尼,因此外骨骼是高度可反向驱动的。运动学仿真表明,在最大膝关节处,机器人关节和膝关节之间的不对准可减少74%。在实验中,无动力模式下的外骨骼表现出1.03 Nmroot均方(RMS)低阻力矩。扭矩控制实验证明了三个人类受试者的0.31 Nm RMS扭矩跟踪误差。
translated by 谷歌翻译
视频基础的任务,在视频中暂时定位自然语言描述,在理解视频中起着重要作用。现有的研究采用了在整个视频上滑动窗口的策略,或者在预分段视频中详尽地排列所有可能的剪辑 - 句子对,这不可避免地遭受了彻底列举的候选人。为了缓解这个问题,我们通过学习一个基于其策略逐步调节时间地形边界的代理,将这个任务表达为一个顺序决策的问题。具体来说,我们提出了一个基于强化学习的框架,通过多任务学习改进,并通过在训练期间考虑额外的监督边界信息来显示稳定的性能增益。我们提出的框架在ActivityNet'18 DenseCaption数据和Charades-STA数据集上实现了最先进的性能,同时每个视频仅观察10个或更少的剪辑。
translated by 谷歌翻译
生成对抗网络(GAN)最近因其在图像生成,转换和超分辨率方面的出色表现而备受关注。然而,GAN很少被研究和训练用于分类,导致生成的图像可能不适合于分类。在本文中,我们提出了一种新颖的Generative AdversarialClassifier(GAC),特别适用于低分辨率手写字符识别。具体地,在正常GAN的训练过程中另外涉及分类器,GAC被校准用于学习有益于分类的合适结构和恢复字符图像。实验结果表明,我们提出的方法可以在基准数据CASA-HWDB1.1和MNIST上分别获得8x超分辨率,大约10%和20%的显着性能,分别比目前最先进的方法高。
translated by 谷歌翻译
这项工作考虑了计算大张量的\ textit {规范多元分解}(CPD)的问题。先前的工作主要利用数据稀性来处理这个问题,这不适合处理在医学成像,计算机视觉和遥感等应用中经常出现的密集器。随机优化因处理密集数据时的低内存成本和每次迭代复杂性而闻名。然而,现有随机CPD算法难以结合信号和数据分析中感兴趣的各种约束和规则化。许多此类算法的收敛性质也不清楚。在这项工作中,我们提出了具有约束/正则化的大规模CPD的随机优化框架。该框架在双重随机化时尚下工作,可以被视为\ textit {randomizedblock坐标下降}(BCD)和\ textit {随机近端梯度}(SPG)的明智组合。该算法具有轻量级更新和小内存占用,并且可以很好地扩展。此外,该框架具有相当大的灵活性 - 许多常用的正则化器和约束可以在所提出的方案下容易地处理。收敛性分析也支持这种方法。使用大规模密集张量的数值结果来展示所提出方法的有效性。
translated by 谷歌翻译
事实证明,线性混合模型在众多应用中非常有用,例如,主题建模,聚类和源分离。作为线性混合模型的一个关键方面,在独立分量分析和约束矩阵分解等框架下,对模型参数的可识别性进行了研究。然而,当线性混合物被一个未知的非线性函数 - 在许多情况下是很好的动机和更现实的 - 来解决时 - 可识别性问题的研究要少得多。这项工作提出了一个非常基础的非线性混合模型的识别标准。现实世界的应用程序,并提供可识别性保证。提出了一种基于明智设计的神经网络的实际实现方案,实现了该标准,并提出了一种有效的学习算法。该方法的合成和实际数据有效性的数值结果。
translated by 谷歌翻译
对抗性的例子是微妙的扰动输入,其目的是误导机器学习模型以产生不正确的输出。虽然大多数现有工作都侧重于在多类别分类问题中产生对抗性扰动,但许多现实世界的应用程序属于多标签设置,其中一个实例可能与多个标签相关联。例如,垃圾邮件制造者可能会生成具有恶意广告的对抗性垃圾邮件,同时保持其他标签(如主题标签)不变。为了分析多标签学习模型的脆弱性和稳健性,我们研究了多标签对抗性扰动的产生。由于与一个实例相关联的肯定标签的数量不确定,以及多个标签通常彼此不相互独立的事实,这是一个具有挑战性的任务。为了弥合这一差距,本文提出了针对多标签分类问题的年龄攻击框架,并对深度神经网络的扰动进行了总体分析。利用标签之间的排序关系,我们进一步设计了基于攻击的框架来攻击多个 - 标签排名算法。我们指定了两个提出的框架之间的联系,并分别设计了基于每个框架的两个特定方法,以生成有针对性的多标签扰动。现实世界多标签图像分类和分解问题的实验证明了我们提出的框架的有效性,并提供了多标签深度学习模型在有针对性的攻击策略下的脆弱性的见解。最后将进一步介绍和讨论几个有趣的发现,包括未经修饰的防御策略,这可能会增强多标签深度学习模型的解释性和稳健性。
translated by 谷歌翻译