我们根据修辞结构理论(RST)提出了一种有效的句子级语篇分析的神经框架。我们的框架包括一个话语分段器,用于识别文本中的基本话语单元(EDU),以及一个以低调的方式构建话语树的话语分析器。分段器和解析器都基于PointerNetworks并在线性时间内运行。我们的分段器得出$ F_1 $得分为95.4,我们的解析器在累计标签(关系)指标上获得了$ F_1 $ 81.7分,超过以前的方法,并且在两项任务上都达成了人类协议(98.3和83.0 $) F_1 $)。
translated by 谷歌翻译
通过将单语嵌入映射到ashared空间,对抗训练在学习没有任何平行数据的双语词典方面取得了令人瞩目的成功。然而,最近的研究表明,在更具挑战性的语言对中,非对抗性方法具有优越的性能。在这项工作中,访问了用于无监督单词翻译的对抗性自动编码器,并提出了一些新的扩展,以产生更稳定的训练和改进的结果。我们的方法包括正则化术语以强制循环一致性和输入重建,并将目标编码器作为对手来对抗相应的鉴别器。对欧洲,非欧洲和低资源语言的广泛试验表明,与最近提出的对抗性和非对抗性方法相比,我们的方法更加稳健并且具有更好的性能。
translated by 谷歌翻译
充足的身体活动和安宁的睡眠在许多慢性病的预防和治疗中起着重要作用。能够主动筛查和监测这种慢性病将是整体健康向前迈出的一大步。可穿戴设备的普及迅速增加提供了重要的新来源,使得可以实时跟踪用户的生活方式。在本文中,我们提出了一种新的无监督表示学习技术,称为activity2vec,它学习并“总结”离散值活动时间序列。它通过三个组成部分来学习:(i)时间段中活动水平的共现和大小,(ii)时间段的邻近背景,以及(iii)通过对抗性训练促进主体不变性。我们评估我们的用线性分类器对四种无序预测任务的方法。经验评估表明,我们提出的方法可以比许多强基线更好地扩展和表现。对抗性政权通过促进主体不变的特征,有助于提高我们的表征的普遍性。我们还表明,在一天的水平上使用表示是最好的,因为人类活动是根据日常程序来构建的
translated by 谷歌翻译
大多数最先进的神经机器翻译系统尽管在建筑骨架中不同(例如复发,卷积),但仍具有必不可少的特征:注意力。然而,大多数现有的注意方法都是基于令牌的,并且忽略了短语对齐的重要性,短语对齐是基于短语的统计机器翻译成功的关键。在本文中,我们提出了基于短语的注意方法来模拟n-gram的作为注意力实体。我们将基于短语的注意力纳入最近提出的变形金刚网络中,并证明我们的方法是使用WMT'16 trainingdata在WMT newstest2014上对英语到德语的1.3 BLEU和0.5 BLEU forGerman到英语的翻译任务进行改进。
translated by 谷歌翻译
实体解析(ER)是数据集成中的基本问题之一,其中基于机器学习(ML)的分类器通常提供最先进的结果。相当多的人力投入到特征工程和培训数据创建中。在本文中,我们研究了一个新问题:给定ER的数据集D_T,有限或没有训练数据,是否可以通过重用和调整来自相同或相关域的数据集D_S的训练数据来训练D_T上的良好ML分类器?我们的主要贡献包括:(1)基于分布式表示的方法,用于将来自不同数据集的元组编码到标准特征空间中; (2)确定培训数据重用可能有益的常见情景; (3)用于处理上述每个场景的五种算法。我们对来自5个不同领域(出版物,电影,歌曲,餐馆和书籍)的12个数据集进行了全面的实验。 Ourexperiments表明,我们的算法提供了显着的好处,例如为固定的训练数据大小提供卓越的性能。
translated by 谷歌翻译
我们共同解决社区论坛中问答的两个重要任务:给出一个新问题,(i)找到相关的现有问题,以及(ii)找到这个新问题的相关答案。我们进一步使用辅助任务来完成前两个,即(iii)在问题 - 评论线程中找到关于线程问题的好答案。我们使用深度神经网络(DNN)来学习有意义的任务特定嵌入,然后我们将其合并到多任务设置的条件随机场(CRF)模型中,在复杂的图形结构上执行联合学习。虽然DNN仅在训练生成嵌入时获得竞争结果,但CRF利用嵌入和任务之间的依赖性,在各种评估指标上显着且一致地改善结果,从而显示DNN和结构学习的互补性。
translated by 谷歌翻译
睡眠在人类健康方面起着至关重要的作用,包括精神和身体。睡眠呼吸暂停等睡眠障碍的患病率正在增加,肥胖等因素的快速增加。睡眠呼吸暂停最常用连续正气压(CPAP)治疗,其保持适当的压力以确保持续的气流。人们普遍认为,除了防止空气通道坍塌外,深度和REM睡眠阶段的增加将是CPAP疗法改善睡眠健康的良好指标。然而,目前,没有机制可以仅从CPAP流量数据中容易地检测患者的睡眠阶段。我们首次提出了一种仅基于流量信号的自动睡眠分期模型。最近,深度神经网络通过消除手工制作的特征在睡眠分期中表现出高精度。然而,这些方法专门专注于从输入信号中提取信息特征,而不会对输出序列中的睡眠阶段的动态进行任何关注。我们提出了一种端到端框架,它使用深度卷积 - 递归神经网络从原始流信号中提取高级特征,然后使用基于条件随机场的结构化输出层来模拟睡眠阶段的时间转换结构。我们使用我们的模型对之前的方法进行了10%的改进,可以扩展到之前的睡眠阶段深度学习方法。我们还表明,我们的方法可用于精确跟踪睡眠指标,如睡眠阶段计算的睡眠效率,可用于监测CPAP治疗对睡眠呼吸暂停的反应。除了技术贡献之外,我们期望这项研究能够促进睡眠科学中的新研究问题,特别是对CPAP治疗患者对睡眠结构轨迹的理解。
translated by 谷歌翻译
互联网上视频数据的爆炸式增长需要有效且高效的技术,以便为无法播放视频的人自动生成字幕。尽管视频字幕研究取得了很大进展,特别是在视频特征编码方面,语言解码器仍然主要基于流行的RNN解码器,例如LSTM,它倾向于选择与视频对齐的频繁字。在本文中,我们提出了用于视频字幕的aboundary-aware层次语言解码器,它包括一个基于GRU的高级语言解码器,作为全局(字幕级)语言模型,以及一个基于GRU的低级语言解码器,工作作为本地(短语级)语言模型。最重要的是,我们将二进制门引入低级GRU语言解码器以检测语言边界。结合其他高级组件,包括联合视频预测,共享软关注和边界感知视频编码,我们的集成视频字幕框架可以发现分层语言信息并区分句子中的主语和宾语,这在语言生成过程中通常会引起混淆。对二次使用的视频字幕数据集进行了大量实验,MSR-Video-to-Text(MSR-VTT)\ cite {xu2016msr}和YouTube-to-Text(MSVD)\ cite {chen2011collecting}表明我们的方法具有很强的竞争力,最先进的方法。
translated by 谷歌翻译
大多数现有的视觉问答(VQA)工作都致力于提高预测答案的准确性,同时忽略了解释。我们认为,与答案本身相比,答案的解释更为重要,因为它使得问题和答案过程更易于理解和追溯。为此,我们提出了VQA-E的新任务(带解释的VQA),其中计算模型需要用预测答案生成解释。 Wefirst构建一个新的数据集,然后在多任务学习架构中构建VQA-E问题。我们的VQA-E数据集通过智能地利用可用字幕自动从VQAv2数据集派生。我们进行了一项用户研究,以验证由我们的方法合成的解释的质量。我们定量地表明,额外的监督fromexplanations不仅可以产生富有洞察力的文本句子来证明答案,而且还可以提高答案预测的性能。我们的模型在VQA v2dataset上以明显的余量执行最先进的方法。
translated by 谷歌翻译
图像字幕是涉及计算机视觉和自然语言处理的多模式任务,其目标是学习从图像到其自然语言描述的映射。通常,映射函数是从训练的图像 - 字幕对集合中学习的。但是,对于某些语言,可能无法使用大规模图像标题配对语料库。我们通过语言旋转提出了一种不成对的图像字幕问题的方法。我们的方法从pivotlanguage(中文)中有效地捕获图像捕获者的特征,并使用另一个目标语言(中英文)句子平行语料库将其与目标语言(英语)对齐。我们在两个图像到英语的基准数据集上评估我们的方法:MSCOCO和Flickr30K。针对几种基线方法的定量比较证明了我们的方法的有效性。
translated by 谷歌翻译