用于编写,编译和优化深度学习(DL)模型的框架最近在计算机视觉和自然语言处理等领域取得了进展。扩展这些框架以适应DL模型和硬件平台的快速多样化环境,在表现力,可组合性和可移植性之间提出了挑战性的挑战。我们提出了一个新的中间表示(IR)和DLmodels的编译框架。功能性,静态类型的中继IR统一并概括了DL IR,并且可以表达最先进的模型。 Relay的表达IR需要仔细设计类型系统,自动区分和优化。 Relay的可扩展编译器可以消除抽象开销并瞄准新的硬件平台。来自Relay的设计见解可以应用于现有框架,以开发支持扩展的IR,而不会影响表现力,可组合性和可移植性。我们的评估证明,继电器原型已经可以为运行在CPU,GPU和FPGA上的各类模型提供竞争性能。
translated by 谷歌翻译
深度估计是自主车辆理解和重建3D环境以及在执行期间避开障碍的重要能力。诸如LiDAR之类的精确深度传感器通常很重,很昂贵并且只能提供稀疏深度,而诸如立体相机之类的较浅深度传感器则相比较。我们提出了一种端到端学习算法,它能够使用稀疏,噪声的输入深度进行细化和深度完成。我们的模型还生成相机姿势作为副产品,使其成为自主系统的绝佳解决方案。我们在indoorand室外数据集上评估我们的方法。实证结果表明,与其他竞争方法相比,我们的方法在KITTI~ \ cite {kitti_geiger2012we}数据集上表现良好,同时在处理TUM~ \ cite {sturm12iros}数据集上的稀疏,噪声输入深度方面具有卓越的性能。
translated by 谷歌翻译
图像超分辨率(SR)是一种重要的图像处理技术,用于提高计算机视觉中图像和视频的分辨率。近年来,使用深度学习技术的图像超分辨率取得了显着进步。在本次调查中,我们的目的是以系统的方式对使用深度学习方法的图像超分辨率技术的最新进展进行调查。一般而言,我们可以将现有的SR技术研究大致分为三大类:监督SR,无监督SR和域特定SR。此外,我们还介绍了其他一些重要问题,例如公开的基准数据集和绩效评估指标。最后,我们通过强调未来社区应进一步解决的几个未来问题和未决问题来结束本次调查。
translated by 谷歌翻译
机器人团队需要有效的沟通才能解决复杂的协作任务。在实践中,通信的编码和语义通常由专家手动定义;无论行为本身是定制的,基于优化的还是学习的,都是如此。我们使用神经网络来呈现代理体系结构和训练方法,以基于不知道通信的专家策略的示例来学习面向任务的通信语义。 Aperimeter防御游戏说明了系统能够处理动态变化的代理数量及其在性能方面的优雅降级,因为通信约束被收紧或专家的可观察性假设被打破。
translated by 谷歌翻译
高质量的计算机视觉模型通常解决了解真实世界图像的一般分布的问题。然而,大多数相机只观察到这种分布的很小一部分。这提供了通过将紧凑的低成本模型专门用于由单面板观察到的特定分布框架来实现更有效推断的可能性。在本文中,我们采用模型蒸馏技术(使用高成本教师的输出监督低成本学生模型),将精确,低成本的语义分割模型专门化为目标视频流。我们不是从视频流中学习离线数据的专业学生模型,而是通过实时视频在线培训学生,间歇性地运行教师以提供学习目标。 Onlinemodel蒸馏产生语义分割模型,即使目标视频的分布是非静态的,它们也会使Mask R-CNN教师接近7到17倍的推理运行时成本(11到26x FLOP)。我们的方法不需要对目标视频流进行离线预训练,并且比基于流或视频对象分割的解决方案实现更高的准确性和更低的成本。我们还提供了一个新的视频数据集,用于评估长时间运行的视频流的推理效率。
translated by 谷歌翻译
视网膜模板匹配和配准是低成本成像设备的重要眼科学挑战。然而,来自这些设备的图像通常具有小视场(FOV)和图像质量降级,使得匹配困难。在这项工作中,我们开发了一种有效且准确的视网膜匹配技术,该技术结合了降维和相互信息(MI),称为RetinaMatch。维度简化将MI优化初始化为粗略定位过程,这缩小了优化域并避免了局部最优。在开放式眼底图像数据库STARE上模拟了RetinaMatch的有效性,模拟了FOV和预期的降解,以及连接到智能手机的基于适配器的光学器件所获得的视网膜图像。 RetinaMatch在人类视网膜图像上实现了超过94%的成功率,匹配的目标注册误差平均低于2个像素,不包括观察者的变异性。它优于标准模板匹配解决方案。在重复测量容器直径的应用中,预期会出现单像素误差。此外,我们的方法可以用于基于区域的配准的图像镶嵌过程,当基于特征的方法失败时提供稳健的方法。据我们所知,这是视网膜图像的第一个模板匹配算法,其中包含来自不受约束的视网膜区域的小模板图像。在新兴的混合现实市场的背景下,我们设想自动视网膜图像匹配和配准方法可用于先进的远程眼科和长期视网膜监测。
translated by 谷歌翻译
机器学习为行业中的各种服务提供支持,包括搜索,翻译,推荐系统和安全性。这些模型的规模和重要性要求它们在异构硬件设备的阵列中高效,富有表现力和可移植性。这些限制通常是不一致的;为了更好地适应它们,我们提出了一种称为Relay的新的高级中间代表(IR)。 Relay被设计为功能强大的静态类型语言,其目标是实现高效的编译,表达和可移植性。我们讨论了Relay的目标并强调其重要的设计约束。我们的原型是开源NNVM编译器框架的一部分,该框架为亚马逊的深度学习框架MxNet提供支持。
translated by 谷歌翻译
双语词汇嵌入已被广泛用于捕捉不同人类语言中的双语语义的相似性。然而,许多应用,如跨语言搜索和问答,可以在很大程度上受益于句子和词汇之间的跨语言对应。为弥合这一差距,我们提出了一种利用双语词典的神经嵌入模型。训练所提出的模型将字面词定义映射到跨语言目标词,我们用不同的句子编码技术进行探索。为了加强对有限资源的学习过程,我们的模型采用了几种批判性学习策略,包括不同语言桥梁的多任务学习,以及词典模型与双语词汇嵌入模型的联合学习。实验评估侧重于两个应用。跨语言反向字典检索任务的结果表明我们的模型基于描述理解双语概念的可能性,并且突出了所提出的学习策略在提高性能方面的有效性。同时,我们的模型有效地解决了双语词汇识别问题,并且明显优于以前的方法。
translated by 谷歌翻译
卷积神经网络作为深度学习的重要分支,大大提高了建筑物检测的性能。为了进一步加速建筑物检测向自动绘图的发展,abenchmark数据集在公平比较中具有重要意义。然而,当前公共数据集中仍存在若干问题,这些问题仍然存在于这一任务中。首先,尽管建筑物检测通常被认为与提取屋顶轮廓相当,但大多数数据集直接提供建筑物足迹作为测试和评估的背景真相;这些基准测试的挑战比屋顶分割更复杂,因为浮雕位移导致屋顶轮廓和足迹之间的不对称程度。另一方面,图像数据集应具有大量和高空间分辨率,以有效地训练建筑物的高性能深度学习模型。不幸的是,遥感社区仍缺乏可以同时满足这些要求的适当基准数据集。在本文中,我们提出了一个新的大型基准数据模型用于屋顶分割的航空影像(AIRS)。该数据集提供了7.5厘米分辨率的航拍图像的广泛覆盖,包含超过220,000个建筑物。为AIRS提出的任务被定义为屋顶分割。实现了几种最先进的语义分割深度学习方法,用于性能评估和分析所提出的数据集。结果可作为未来工作的基准。
translated by 谷歌翻译
多语言知识图(KG)嵌入提供实体和结构化知识的潜在语义表示和跨语言推理,这有利于各种知识驱动的跨语言NLP任务。然而,精确学习这种跨语言推理通常受到实体对齐的低覆盖率的阻碍在许多幼稚园。由于许多多语言工作组也提供实体的文字描述,因此在本文中,我们介绍了一种基于嵌入的方法,该方法利用弱对齐的多语言KG,使用实体描述进行半监督的跨语言学习。 Ourapproach执行两种嵌入模型的协同训练,即多语言KGembedding模型和多语言文字描述嵌入模型。这些模型是在一个基于维基百科的大型三语数据集上进行培训的,其中对于训练来说,不确定性是否对齐。实验结果表明,所提出的方法在实体对齐任务中的性能提高了共同训练的迭代次数,并最终达到了显着超过以往方法的阶段。我们还表明,我们的方法具有提升零射击实体对齐能力和跨语言KGcompletion的能力。
translated by 谷歌翻译