我们提出了一种新的网络架构,用于基于标准自旋霍尔磁隧道结的自旋神经元,允许它们同时并行地计算多个关键卷积神经网络功能,从而节省空间和时间。整流线性单元传递函数和局部汇集函数的近似值与卷积运算本身同时计算。在MNIST数据集上执行概念验证模拟,对于所有卷积,激活和池化操作的组合,以低于1 nJ的成本实现高达98%的准确度。模拟对热噪声具有显着的鲁棒性,即使在非常小的磁性层下也能很好地运行。
translated by 谷歌翻译
如今,轨道车辆本地化基于基础设施侧的Balises(信标)以及车载里程,以确定铁路段是否被占用。这种粗略锁定导致铁路网络的次优使用。新的铁路标准提出使用以铁路车辆为中心的移动块来增加网络的容量。然而,这种方法需要对所有车辆进行准确而稳健的位置和速度估算。在这项工作中,我们研究了当前视觉和视觉惯性运动估计框架对铁路应用的适用性,挑战和局限性。在工业,郊区和环境中记录的多个数据集中,对RTK-GPS地面实况进行了评估。我们的研究结果表明,立体视觉惯性测量法具有很大的潜力,可以提供精确的运动估计,因为它具有补充传感器模态,并且在与其他框架相比具有挑战性的情况下表现出优越的性能。
translated by 谷歌翻译
本研究提出了一系列模拟实验的结果,在噪声影响下评估和比较了四种不同的流形对齐方法。通过模拟三维空间中两种不同的双摆的动力学来创建数据。使用全局距离的半监督特征级流形对齐的方法产生了最令人信服的可视化。然而,半监督特征级局部对准方法导致较小的对准误差。这些局部对准方法对噪声也更稳健,并且比其他方法更快。
translated by 谷歌翻译
我们提出了一个独立于网络的手持系统,可以实时翻译和保存外国餐馆菜单项目。该系统基于便携式多媒体设备的使用,例如智能手机或PDA。使用机器翻译引擎和特定于上下文的语料库可以获得准确和快速的翻译,我们应用两个预处理步骤,称为翻译标准化和$ n $ -gram合并。短语表生成的数量比市场应用中常用的数量级轻,因此使得翻译在计算上更便宜,并且降低了电池使用量。使用多媒体信息(包括菜肴和成分的图像)以及成分列表来减轻翻译歧义。我们在iPod TouchSecond Generation上为在西班牙旅行的英语使用者实现了我们系统的原型。我们的测试表明,我们的翻译方法比谷歌翻译等翻译技术具有更高的准确性,并且几乎是即时的。应用程序的存储器要求,包括图像数据库,也在设备的限制范围内。通过将其与营养信息数据库相结合,我们提出的系统可以用来帮助那些遵循医学饮食的人在旅行时保持这种饮食。
translated by 谷歌翻译
这项工作为开放词汇视觉语音识别提供了可扩展的解决方案。为实现这一目标,我们构建了现有最大的视觉语音识别数据集,包括一对文本和面对面的视频剪辑(3,886小时的视频)。同时,我们设计并训练了一个集成的唇读系统,包括一个视频处理管道,将原始视频映射到稳定的嘴唇和音素序列,一个可扩展的深度神经网络,将唇部视频映射到手机分配序列,以及一个生产级别的语音输出字序列的解码器。所提出的系统在保持的集合上实现了40.9%的字错误率(WER)。相比之下,当访问其他类型的上下文信息时,专业的lipreaders在同一数据集上实现86.4%或92.9%的WER。我们的方法显着改进了其他的读取方法,包括LipNet和Watch,Attend和Spell(WAS)的变体,它们分别只能达到89.8%和76.8%的WER。
translated by 谷歌翻译
人工智能(AI)最近经历了复兴,在视觉,语言,控制和决策等关键领域取得了重大进展。部分原因在于廉价数据和廉价的计算资源,它们符合深度学习的自然优势。然而,在许多不同压力下发展的人类智能的许多定义特征仍然是当前方法所无法实现的。特别是,超越一个人的经验 - 从人类智慧中获得人类智慧的标志 - 仍然是现代人工智能的一项艰巨挑战。以下是部分立场文件,部分审查和部分统一。认为组合概括必须是人工智能达到人类能力的首要任务,结构化表征和计算是实现这一目标的关键。就像生物学使用自然和培养合作一样,我们拒绝“手工工程”和“端到端”学习之间的错误选择,而是主张从其互补优势中获益的方法。我们探索在深度学习架构中如何使用关系归纳偏差可以促进对实体,关系和组成它们的规则的学习。我们为AI工具包提供了一个新的构建模块,它具有强大的关系引导偏差 - 图形网络 - 它概括和扩展了在图形上运行的神经网络的各种方法,并提供了一个简单的界面来操纵结构化知识和生产结构化行为。我们讨论图网络如何支持关系推理和组合泛化,为更复杂,可解释和灵活的推理模式奠定基础。作为本文的参考,我们发布了一个用于构建图形网络的开源软件库,并演示了如何在实践中使用它们。
translated by 谷歌翻译
本文介绍了一种新的开放式域名问答框架,其中猎犬和读者互相迭代地互动。框架与机器读取模型的体系结构无关,只需要访问读取器的令牌级隐藏表示。 Theretriever使用快速最近邻搜索来缩放到包含数百万个段落的语料库。门控循环单元在读取器状态的每个步进条件下更新查询,并且重新构造的查询用于通过检索器对段落进行排序。我们进行分析并显示有用的互动有助于从信息中检索信息性段落。最后,我们展示了我们的多步推理框架在应用于各种大型开放域数据集的两个广泛使用的读者架构Dr.DrQA和BiDAF时带来了一致的改进 - TriviaQA-unfiltered,QuasarT,SearchQA和SQuAD-Open。
translated by 谷歌翻译
处理高方差是无模型增强学习(RL)中的重大挑战。现有方法是不可靠的,使用不同的初始化/种子表现出从一次运行到另一次运行的性能的高度变化。着眼于连续控制中出现的问题,我们提出了一种增强无模型RL的功能规范化方法。特别是,将深层政策的行为与先前的政策相似,即我们在功能空间中进行规范化。我们证明功能正则化会产生偏差 - 方差权衡,并提出一种自适应调整策略来优化这种权衡。当政策先验具有控制理论稳定性保证时,我们进一步表明,这种正规化近似预先保证了整个学习过程中的稳定性。我们在一系列设置上验证了我们的认可度,并证明了与单独的deepRL相比,显着降低了方差,保证了动态稳定性和更有效的学习。
translated by 谷歌翻译
许多人类活动需要几分钟才能展开。为了表示它们,相关工作选择统计池,忽略时间结构。其他选择卷积方法,如CNN和非局部。虽然成功地学习时间概念,但它们缺乏对长达数分钟的时间依赖性的建模。我们提出VideoGraph,一种实现最佳双重世界的方法:代表长达数分钟的人类活动并学习其基本的时间结构。 VideoGraph学习基于图形的人类活动表示。图形,其节点和边缘完全从视频数据集中学习,使得VideoGraph适用于没有节点级别注释的问题。结果是对基准测试的相关工作进行了改进:Epic-Kitchen和Breakfast。此外,我们证明VideoGraph能够在长达数分钟的视频中容忍人类活动的时间结构。
translated by 谷歌翻译
假设我们希望从“用户喜欢项目p或项目q?”形式的配对比较来估计用户的偏好向量w,其中用户和项目都嵌入在低维欧几里德空间中,其距离反映了用户和项目的相似性。这些观察结果出现在许多设置中,包括心理测量学和心理学实验,搜索任务,广告和推荐系统。在这样的任务中,查询可能非常恶劣并且受到不同级别的响应噪声的影响;因此,我们的目标是根据先前比较的结​​果选择最具信息量的对。我们提供了关于贪婪信息最大化在这种情况下的益处和挑战的新理论见解,并开发了最大化信息增益下限的双重策略,并且分别简单地分析和计算。我们使用来自区域世界数据集的模拟响应来验证我们的策略,通过它们与贪婪信息最大化相似的性能,以及它们优越的偏好估计,最先进的选择方法以及随机查询。
translated by 谷歌翻译