人类是高保真模仿的专家 - 通常在一次尝试中非常模仿演示。人类使用此功能快速解决atask实例,并引导学习新任务。在自主代理中实现这些可能性是一个悬而未决的问题。在本文中,我们介绍了非政策RL算法(MetaMimic)来缩小这一差距。 MetaMimic可以学习(i)高保真一次性模仿各种新技能的政策,以及(ii)使代理人能够更有效地解决任务的政策。 MetaMimic依赖于将所有经验存储在存储器中并重放这些经验以通过非策略RL学习大规模深度神经网络策略的原理。在我们所知的情况下,本文介绍了用于深度RL的最大现有神经网络,并且表明需要具有归一化的较大网络来实现对于具有挑战性的操纵任务的一次性高保真模仿。结果还表明,尽管任务奖励稀少,并且无法访问示威者行动,但可以从愿景中学习这两种类型的政策。
translated by 谷歌翻译
We propose a distributed architecture for deep reinforcement learning atscale, that enables agents to learn effectively from orders of magnitude moredata than previously possible. The algorithm decouples acting from learning:the actors interact with their own instances of the environment by selectingactions according to a shared neural network, and accumulate the resultingexperience in a shared experience replay memory; the learner replays samples ofexperience and updates the neural network. The architecture relies onprioritized experience replay to focus only on the most significant datagenerated by the actors. Our architecture substantially improves the state ofthe art on the Arcade Learning Environment, achieving better final performancein a fraction of the wall-clock training time.
translated by 谷歌翻译
条件计算旨在增加网络的大小和准确性,推理成本略有增加。以前的硬路由模型明确地将输入转发给专家子集。我们建议使用软条件计算,相反,它使用所有专家,同时仍允许通过参数路由进行有效推理。具体地说,对于给定的卷积层,我们希望计算$ n $ experts $ \ alpha_1 \ cdot(W_1 * x)+ \ ldots + \ alpha_n \ cdot(W_n * x)$的线性组合,其中$ \ alpha_1,\ ldots,\ alpha_n $是通过渐变下降学习的输入函数。简单的评估需要$ n $ convolutions。我们提出了上述计算的等价形式,$(\ alpha_1 W_1 + \ ldots + \ alpha_n W_n)* x $,它只需要一个卷积。我们通过扩展MobileNetV1,MobileNetV2和ResNet-50模型架构来展示我们的方法CondConv的功效,以获得更高的准确度,同时保持有效的推理。在ImageNet分类数据集上,CondConvi将MobileNetV1(0.5x)模型的前1个验证准确度从63.8%提高到71.6%,同时仅将推理成本提高了27%。在COCO对象检测中,CondConv将MobileNetV1(1.0x)SSD模式的minival mAP从20.3提高到22.4,推理成本仅增加4%。
translated by 谷歌翻译
无词汇语音识别自然地处理词汇外(OOV)词的问题。在本文中,我们表明基于字符的语言模型(LM)可以执行与基于单词的LM一样的语音识别,即字错误率(WER),甚至不会将解码限制为词典。我们研究基于字符的LM并表明卷积LM可以有效地利用大(字符)上下文,这是下游良好的语音识别性能的关键。我们特别表明,使用基于字符的LM的OOV字的话语的无词典解码性能(WER)优于基于词典的解码,无论是基于字符还是基于词的LM。
translated by 谷歌翻译
机器学习(ML)分类器易受对抗性示例的攻击。 anadversarial示例是一个输入样本,可以稍微修改以有意地导致ML分类器对其进行错误分类。在这项工作中,我们研究了基于ML的恶意软件检测程序的白盒和灰盒子逃逸攻击,并在现实环境中进行了性能评估。我们提出了一个框架,用于向恶意软件检测系统部署灰盒和黑盒攻击。我们比较了减轻攻击的防御方法。
translated by 谷歌翻译
高斯过程是随机函数的主要分布类别,但它们存在众所周知的问题,包括难以缩放和关于某些形状约束(例如非本性)的不灵活性。在这里,我们提出深度随机样条,一种灵活的随机函数类,通过深度神经网络转换高斯噪声获得,其中输出是样条的参数。与高斯过程不同,DeepRandom Splines允许我们在继承深度生成模型的丰富性和易处理性的同时容易地实施形状约束。我们还提出了点过程数据的观测模型,该模型使用深度随机样条模拟每个点过程的强度函数并将其应用于神经科学数据以获得尖峰活动的低维表示。通过变分自动编码器进行推理,该自动编码器使用可以处理多点过程作为输入的新型循环编码器结构。
translated by 谷歌翻译
在本文中,我们通过利用卷积神经网络(CNN)的高能力来解决自动抄表(AMR)问题。我们设计了一个两阶段方法,它采用Fast-YOLO物体探测器进行计数器检测,并评估三种不同的基于CNN的计数器识别方法。在AMR文献中,由于图像属于服务公司,因此大多数数据集不可用于研究社区。从这个意义上讲,我们引入了一个名为UFPR-AMR数据集的新公共数据集,其中包含2,000个完全和手动注释的图像。据我们所知,该数据集比文献中发现的最大公共数据集大三倍,并且包含一个定义的评估协议,以协助开发和评估AMR方法。此外,我们建议使用数据增强技术生成具有更多示例的平衡训练集,以训练CNN模型用于计数器识别。在提出的数据集中,获得了令人印象深刻的结果,并且对每个模型进行了详细的速度/准确度权衡评估。在公共数据集中,使用少于200个用于训练的图像实现了最先进的结果。
translated by 谷歌翻译
我们引入了一种完全可微分的新型光束搜索解码器,可以通过推理过程在训练时进行优化。我们的解码器允许我们组合以不同粒度运行的模型(例如声学和语言模型)。当目标序列未通过考虑两者之间的所有可能比对而与输入序列对齐时,可以使用它。我们通过将其应用于语音识别,联合训练声学和单词级语言模型来展示我们的方法。系统是端到端的,梯度从字级转换流经整个架构。最近的研究表明,具有基于注意力的机制的深度神经网络足够强大,可以成功地从最终转录中训练声学模型,同时隐藏地学习语言模型。相反,我们表明,有可能与一个明确且可能经过预先训练的语言模型共同训练声学模型。
translated by 谷歌翻译
结直肠肝转移是最具侵袭性的肝脏恶性肿瘤之一。虽然基于CT图像的病变类型的定义决定了诊断和治疗策略,但是癌症和非癌性病变之间的区分是关键的并且需要高度熟练的专业知识,经验和时间。在目前的工作中,我们引入了端到端的深度学习方法,以帮助区分肝脏的腹部CT图像中的结直肠癌和良性囊肿的肝转移。 Ourapproach结合了InceptionV3的高效特征提取,结合了ImageNet的残余连接和预先训练的权重。该体系结构还包括完全连接的分类层,以生成病变类型的概率输出。我们使用一个内部临床生物库,其中有来自63名患者的230个肝脏病变。精确度为0.96,aF1得分为0.92,用所提出的方法获得的结果超过了现有技术的方法。我们的工作为将机器学习工具纳入专业放射学软件提供了基础,以帮助医生早期发现和治疗肝脏病变。
translated by 谷歌翻译
给定输入字符串s和特定的Lindenmayer系统(所谓的Fibonacci语法),我们定义了一个自动机,它能够(i)确定s是否属于Fibonacci语法可以生成的字符串集(换句话说,如果是对应于语法的一代),如果是,则(ii)重建前一代。
translated by 谷歌翻译