Recently, improving the relevance and diversity of dialogue system has attracted wide attention. For a post x, the corresponding response y is usually diverse in the real-world corpus, while the conventional encoder-decoder model tends to output the high-frequency (safe but trivial) responses and thus is difficult to handle the large number of responding styles. To address these issues, we propose the Atom Responding Machine (ARM), which is based on a proposed encoder-composer-decoder network trained by a teacher-student framework. To enrich the generated responses, ARM introduces a large number of molecule-mechanisms as various responding styles, which are conducted by taking different combinations from a few atom-mechanisms. In other words, even a little of atom-mechanisms can make a mickle of molecule-mechanisms. The experiments demonstrate diversity and quality of the responses generated by ARM. We also present generating process to show underlying interpretability for the result.
translated by 谷歌翻译
在本研究中,我们专注于从Web语料库中提取知识渊博的片段和注释可知文档,其中包括来自社会媒体和We-media的文档。非正式地,知识渊博的片段是指文本描述概念,实体的属性或实体之间的关系,而知识文档是具有足够知识的片段的文档。这些可知的片段和文档可以在多种应用中有所帮助,例如知识库构建和面向知识的服务。以前的研究使用基于模式的方法提取了知识渊博的片段。在这里,我们提出了基于语义的方法来完成这项任务。具体而言,开发基于CNN的模型以同时提取知识渊博的片段和注释可知文档。此外,CNN的“低级共享,高级别拆分”结构旨在处理来自不同内容域的文档。与构建多个特定领域的CNN相比,该联合模型不仅可以大大节省训练时间,而且可以明显提高预测精度。在Wechat公共平台的真实数据集中演示了所提出的方法的优越性。
translated by 谷歌翻译
我们提出了两种算法,它们可以在有限和一般随机非凸优化中比最先进的算法更快地找到局部最小值。所提出的算法的核心是$ \ text {One-epoch-SNVRG} ^ + $使用随机嵌套方差减少(Zhou etal。,2018a),其优于最先进的方差约简算法,如SCSG( Lei等,2017)。特别是,对于有限求和优化问题,建议的$ \ text {SNVRG} ^ {+} + \ text {Neon2} ^ {\ text {finite}} $算法达到$ \ tilde {O}(n ^ {1 / 2} \ epsilon ^ { - 2} + n \ epsilon_H ^ { - 3} + n ^ {3/4} \ epsilon_H ^ { - 7/2})$梯度复杂度收敛到$(\ epsilon,\ epsilon_H) )$ - second-ordertationary point,胜过$ \ text {SVRG} + \ text {Neon2} ^ {\ text {finite}} $(Allen-Zhu and Li,2017),这是现有的最佳算法,在广泛的范围内。对于一般随机优化问题,建议$ \ text {SNVRG} ^ {+} + \ text {Neon2} ^ {\ text {online}} $达到$ \ tilde {O}(\ epsilon ^ { - 3} + \ epsilon_H ^ { - 5} + \ epsilon ^ { - 2} \ epsilon_H ^ { - 3})$梯度复杂度,优于$ \ text {SVRG} + \ text {Neon2} ^ {\ text {online}}在某些制度下,$(Allen-Zhu和Li,2017)和Natasha2(Allen-Zhu,2017)。此外,我们探讨了目标函数的三阶平滑带来的加速度。
translated by 谷歌翻译
在本文中,我们提出了一个新的实体关系提取任务范例。我们将任务转换为多回合问题回答问题,即,实体和关系的提取被转换为从上下文识别答案跨度的任务。这种多转QA形式化有几个关键优势:首先,问题查询编码我们想要识别的实体/关系类的重要信息;其次,QA提供了一种自然的方式来联合建模实体和关系;第三,它允许我们利用完善的机器阅读理解(MRC)模型。在ACE和CoNLL04公司的实验表明,所提出的范例明显优于以前的最佳模型。我们能够获得所有ACE04,ACE05和CoNLL04数据集的最新结果,增加了三个数据集的SOTA结果49.6(+1.2),60.3(+0.7)和69.2(+1.4) , 分别。此外,我们构建了一个新开发的数据集RESUME,它需要多步推理来构造实体依赖关系,而不是先前数据集中三元组提取中的单步依赖提取。提出的多转QA模型也在RESUME数据集上实现了最佳性能。
translated by 谷歌翻译
我们提出了一个新的CogQA框架,用于多跳问题回答inweb-scale文档。受认知科学中的双重过程理论的启发,该框架通过协调隐式提取模块(系统1)和显式推理模块(系统2)逐步在迭代过程中构建\ textit {认知图}。在给出准确答案的同时,我们的框架进一步提供了可解释的推理路径。具体而言,基于BERT和图形神经网络的实现有效处理了HotpotQAfullwiki数据集中的多跳推理问题的数百万个文档,在排行榜上获得了34.9的联合$ F_1 $得分,而最佳竞争对手的得分为23.6。
translated by 谷歌翻译
对于文本分析,人们经常采用有损表示来完全忽略单词顺序或将每个单词嵌入为低维密集特征向量。在本文中,我们提出了卷积泊松因子分析(CPFA),其直接在无损表示上操作,该无损表示将每个文档中的字处理为高维单热矢量序列。为了表现其性能,我们进一步提出了卷积Poisson伽玛信念网络(CPGBN),它通过新概率汇集层将CPFA与伽马信念网络耦合。 CPFA将单词组成短语并捕获非常特定的短语级主题,而CPGBN进一步构建了更加通用的短语级主题的层次结构。为了有效推理,我们开发了Gibbs采样器和基于Weibull分布的卷积变分自动编码器。实验结果表明,CPGBN可以提取捕获单词顺序信息的高质量文本潜在表示,因此可以作为构建块来丰富各种忽略单词顺序的现有潜变量模型。
translated by 谷歌翻译
交通信号控制是一种新兴的应用场景,用于加强学习。除了作为影响人们通勤日常生活的重要问题之外,交通信号控制在适应动态交通环境和协调包括车辆和行人在内的数千名代理人方面对于强化学习提出了独特的挑战。现代强化学习成功的关键因素依赖于商品模拟器来生成大量用于学习的数据样本。然而,最常用的开源流量模拟器SUMO不能扩展到大型公路网和大流量,这阻碍了对交通场景的强化学习的研究。这促使我们创建一个新的流量模拟器CityFlow,它具有基本优化的数据结构和高效的算法。 CityFlow可以根据合成和真实数据支持灵活的道路网络和交通流量定义。它还提供了用户友好的强化学习界面。最重要的是,CityFlow比SUMO快20多倍,并且能够通过交互式渲染形式监控来支持全市范围的交通模拟。除了交通信号控制,CityFlow还可以作为其他交通研究的基础,并为智能交通领域的测试机器学习方法创造新的可能性。
translated by 谷歌翻译
为了解决医学图像在图像超分辨率重建过程中由于缺乏高频细节而导致严重模糊的问题,提出了一种基于密集神经网络和混合注意机制的医学图像超分辨率方法。所提出的方法将混合注意块添加到密集神经网络(DenseNet),使得神经网络可以将更多的注意力集中在具有足够高频细节的区域和信道上。去除Batchnormalization层以避免高频纹理细节的丢失。最后得到的高分辨率医学图像是利用网络末端的反卷层作为上采样算子获得的。实验结果表明,该方法对峰值信号的改善分别为0.05db~11.25dB和0.6%~14.04%。 - 噪声比(PSNR)度量和结构相似性指数(SSIM)度量,分别与主流图像超分辨率方法进行比较。这项工作为医学图像超分辨率重建的理论研究提供了新的思路。
translated by 谷歌翻译
一次性神经结构搜索(NAS)是一种很有前途的方法,可以在不进行任何单独培训的情况下显着缩短搜索时间。它可以作为来自过度参数化网络的体系结构参数的网络压缩问题。但是,大多数一次性NAS方法存在两个问题。首先,节点与其前身和后继者之间的依赖关系经常被忽视,这导致对零操作的不当处理。其次,基于他们的高度修剪架构参数是值得怀疑的。在本文中,我们采用经典的贝叶斯学习方法,通过使用分层自动相关性确定(HARD)先验建模体系结构参数来缓解这两个问题。与其他NAS方法不同,我们仅为一个训练过度参数化网络,然后更新体系结构。令人印象深刻的是,这使我们能够在使用单个GPU的0.2个GPUdays内在CIFAR-10上的代理和无代理任务中找到架构。作为副产品,我们的方法可以直接转移到压缩卷积神经网络,通过强制执行结构稀疏性,实现极其稀疏的网络而不会出现准确的恶化。
translated by 谷歌翻译
现有的神经机器翻译(NMT)方法从左到右通过令牌生成目标语言序列令牌。然而,这种单向解码框架不能充分利用可以在从右到左的解码方向上产生的目标侧未来上下文,因此遭受不平衡输出的问题。在本文中,我们介绍了一种同步双向神经机器翻译(SB-NMT),它同时和交互地使用从左到右和从右到左的解码来预测其输出,以便同时利用历史和未来信息。具体来说,我们首先提出一种新的算法,在单个模型中实现同步双向解码。然后,我们提出了一个交互式解码模型,其中从左到右(从右到左)生成不仅取决于其先前生成的输出,而且还依赖于从右到左(从左到右)解码预测的未来上下文。我们广泛评估了大规模NIST中英文,WMT14英语 - 德语和WMT18俄语 - 英语翻译任务的SB-NMT模型。实验结果表明,我们的模型在强变换器模型上分别实现了3.92,1.49和1.04个BLEU点的显着改进,并获得了中英文和英德翻译任务的最新表现。
translated by 谷歌翻译