我们提出了神经逻辑机器(NLM),一种用于归纳学习和逻辑推理的神经符号体系结构。 NLM利用两种神经网络的功能 - 作为函数逼近器和逻辑编程 - 作为具有属性,关系,逻辑连接词和量词的对象的符号处理器。在接受小规模任务(例如sortingshort数组)的训练之后,NLM可以恢复提升的规则,并推广到大规模任务(例如排序更长的数组)。在我们的实验中,NLM在许多任务中实现了完美的一般化,从家庭树和一般图的关系推理任务到决策制定任务,包括排序阵列,寻找最短路径和玩块世界。对于神经网络或单独的归纳逻辑编程来说,大多数这些任务很难实现。
translated by 谷歌翻译
当输出类别的数量很大时,softmax函数的计算非常昂贵。在本文中,我们提出了一种新的softmaxinference加速方法,Dakedly Sparse Softmax(DS-Softmax),利用稀疏专家的稀疏混合来有效地检索top-k类。与大多数现有方法不同,需要和近似fixedsoftmax,我们的方法是基于学习并且可以调整softmax权重以用于更好的近似。特别是,我们的方法学习了一个两级层次结构,它将整个输出类空间划分为几个部分重叠的空间。每个专家都是稀疏的,只包含输出类的子集。 Tofind top-k类,稀疏混合使我们能够快速找到最可能的专家,而稀疏专家使我们能够在小尺度范围内进行搜索。我们凭经验对几个实际任务(包括神经机器翻译,语言建模和图像分类)进行评估,并证明可以在不损失性能的情况下实现显着的计算减少。
translated by 谷歌翻译
在本文中,我们提出神经短语到短语机器翻译(NP $ ^ 2 $ MT)。我们的模型使用短语注意机制来发现解码器用来生成输出(目标)短语的相关输入(源)段。我们还设计了一种有效的动态编程算法来解码分段,这些分段允许比Huang等人现有的基于神经短语的机器翻译方法更快地训练模型。 (2018)。此外,我们的方法可以在解码期间自然地与外部短语词典集成。经验实验表明,我们的方法与基准数据集上的最新方法具有可比性。但是,当训练和测试数据来自不同的分布或域时,我们的方法表现更好。
translated by 谷歌翻译
在本文中,我们提出了一种全监督扬声器二值化方法,称为无界交错状态递归神经网络(UIS-RNN)。来自输入容量的提取的说话者判别嵌入(a.k.a.d-向量),每个单独的说话者由参数共享RNN建模,而不同说话者的RNN状态在时域中交织。 ThisRNN自然地与距离相关的中国餐馆进程(ddCRP)集成,以容纳未知数量的发言者。我们的系统受到严格监督,并能够从带有时间标记的扬声器标签的示例中学习。我们在NIST SRE2000 CALLHOME上实现了7.6%的diarization错误率,这比使用光谱聚类的最先进方法更好。此外,我们的方法以在线方式解码,而大多数最先进的系统依赖于离线群集。
translated by 谷歌翻译
随着神经网络模型的规模今天急剧增加,对模型压缩算法的研究变得非常重要。尽管有许多实际上成功的压缩方法,但模型压缩的基本限制仍然未知。在本文中,我们通过速率失真理论研究模型压缩的基本极限。我们将速率失真函数从数据压缩到模型压缩,以量化基本极限。我们证明了速率失真函数的下界,并证明了它对线性模型的可行性。在我们的理论的推动下,我们进一步提出了一种考虑神经网络结构的修正算法,并证明了它对合成和真实神经网络模型的良好性能。
translated by 谷歌翻译
早期发现网络攻击对于智能电网的安全可靠运行至关重要。在文献中,已经提出了异常值检测方案,其具有逐个样本的决策和需要完美攻击模型的在线检测方案。在本文中,我们将在线攻击/异常检测问题制定为部分可观察马尔可夫决策过程(POMDP)问题,并提出了一种通用鲁棒在线检测算法,该算法使用了无模型强化学习(RL)框架。数值研究说明了所提出的基于RL的算法在及时准确检测针对智能网格的网络攻击方面的有效性。
translated by 谷歌翻译
本文讨论了估计图像中人们一般视觉注意力的挑战性问题。我们提出的方法旨在跨越多个自然社会场景,并提供主题的注意和凝视的全貌。相比之下,早期关于凝视和注意力估计的工作集中在更具体的背景下的约束问题。特别是,我们的模型明确地表示凝视方向并处理帧外凝视目标。我们使用多任务学习方法来利用三个不同的数据集。我们在广泛使用的基准测试中评估我们的方法,用于单一任务,例如注视角度估计和图像内部注意,以及广义视觉注意力预测的新挑战性任务。此外,我们已经为我们将在公开发布的实验中使用的MMDB和GazeFollow数据集创建了扩展注释。
translated by 谷歌翻译
开发代理商参与复杂的目标导向对话具有挑战性,因为长时间对话中的主要学习信号非常稀疏。在本文中,我们提出了一种分而治之的方法,可以发现并开发任务的隐藏结构以实现有效的策略首先,鉴于成功的示例对话,我们建议Subgoal DiscoveryNetwork(SDN)以无人监督的方式将复杂的面向目标的任务划分为一组简单的子目录。然后,我们使用这些子目标通过分层强化学习来学习多层次政策。我们通过为旅行计划的复合任务构建对话代理来展示我们的方法。模拟和真实用户的实验表明,我们的方法与需要人类定义的子目标的最先进方法相竞争。此外,我们表明,所学习的子目标通常是人类可理解的。
translated by 谷歌翻译
从放射学图像中准确识别和定位异常是临床诊断和治疗计划中不可或缺的一部分。为这些任务建立高度准确的预测模型通常需要大量手动用标签注释并找到异常部位的图像。然而,实际上,这种带注释的数据对于获取来说是昂贵的,尤其是具有位置注释的数据。我们需要能够只使用少量位置注释的方法。为了解决这一挑战,我们提出了一种统一的方法,通过相同的基础模型对所有图像同时进行疾病识别和定位。我们证明了我们的方法可以有效地利用类信息和有限位置注释,并且在分类和本地化任务中显着地优于比较参考基线。
translated by 谷歌翻译
在本文中,我们提出了基于神经短语的机器翻译(NPMT)。我们的方法使用Sleep-WAke Networks(SWAN)明确地模拟输出序列中的短语结构,SWAN是最近提出的基于分段的序列建模方法。为了减轻SWAN的单调对齐要求,我们引入了一个新的层来执行输入序列的(软)局部重新排序。与现有的神经机器翻译(NMT)方法不同,NPMT不使用基于注意力的解码机制。相反,它按顺序直接输出短语,并可以线性时间解码。我们的实验表明,与强大的NMT基线相比,NPMT在IWSLT 2014德国 - 英语/英语 - 德语和IWSLT 2015英国 - 越南机器翻译任务中取得了优异的表现。我们还观察到我们的方法在输出语言中产生了有意义的短语。
translated by 谷歌翻译