本文描述了针对机器翻译(MT),实体发现和链接(EDL)以及文本和语音中的情景帧(SF文本和语音)的检测的低资源人类语言技术(LoReHLT)2018评估的ARIEL-CMU提交。
translated by 谷歌翻译
最近的证据指出高表现预测模型的脆弱性,我们将注意力转向多选择阅读理解。特别是,这项工作引入了一种新方法,通过对部分文档的预测进行加权全局归一化来改进对长文档的选择。我们表明,将我们的方法应用于适用于答案选择的跨度预测模型有助于在NarrativeQA(具有答案选择任务的具有挑战性的阅读理解数据集)的长期总结中建模性能,并且我们通过+36.2平均倒数等级强烈改进任务基线性能。
translated by 谷歌翻译
自然语言处理(NLP)中的许多工作都是针对资源丰富的语言,对新的,资源较少的语言进行推广具有挑战性。我们提出了两种方法,通过使用语言动机的子词单元调整连续的单词表示来改进对低资源语言的泛化:音素,语素和字素。我们的方法既需要平行语料库也不需要双语词典,并且在依赖于这些资源的先前方法上提供了显着的性能。我们展示了我们对四种语言的命名实体识别方法的有效性,即维吾尔语,土耳其语,孟加拉语和印地语,其中维吾尔语和孟加拉语是低资源语言,并且还进行机器翻译实验。通过转移学习开发子词可以为维吾尔语提供+ 15.2 NER F1,为孟加拉语提供+9.7 F1。我们还在单语设置中显示了改进,我们实现了(平均)+3 F1和(平均)+1.35 BLEU。
translated by 谷歌翻译
测试和评估是连接和自动化车辆(CAV)开发和部署中的关键步骤,但是没有系统的框架来生成测试场景库。在本文的第一部分中,提出了一个年龄框架,用四个相关的研究问题来解决测试情景库生成(TSLG)问题。从理论上提出并分析了解决每个研究问题的方法。在论文的第二部分,设计并实现了三个案例研究,以证明所提出的方法。首先,切入案例设计为安全评估,并为框架中的三个特定问题提供答案,即辅助目标函数设计,自然驾驶数据(NDD)分析和替代模型(SM)构造。其次,公路行李箱设计用于功能评估。第三,设计汽车跟踪案例以显示所提出的方法处理高维场景的能力。为了解决更高维度带来的挑战,通过强化学习(RL)技术增强了所提出的方法。通过模拟选择和评估典型的CAV模型。结果表明,与公共道路试验方法相比,所提出的方法可以使CAV评估过程加速$ 255 $ $ 3.75 \ times10 ^ 5 $ times,同样具有指数的准确性。
translated by 谷歌翻译
心理健康和社交媒体一直是密切相关的研究领域。在这项研究中,提出了一种新的模型,AD预测模型,用于实时推文中的焦虑抑制预测。这种混合性焦虑抑郁症主要与不稳定的思维过程,烦躁不安和失眠有关。基于语言线索和用户发布模式,使用5元组向量<字,时间,频率,情感,对比度>来定义特征集。建立一种与焦虑相关的词汇来检测焦虑指标的存在。分析推特的时间和频率是否存在不规则性,并且进行意见极性分析以发现发布行为的不一致性。该模型使用三个分类器(多项式na \“ive bayes,梯度增强和随机森林)进行训练,并使用集合投票分类器进行多数投票。对抽样100个用户的推文评估初步结果,建议的模型分类精度为85.09 %。
translated by 谷歌翻译
世界上绝大多数语言对都是资源不足的,因为他们几乎没有可用的并行数据。不幸的是,机器翻译(MT)系统目前在这种设置中不能很好地工作。除了在有限监督下学习的技术挑战之外,还存在另一个挑战:评估在低资源语言对上训练的方法非常困难,因为很少有自由和公开可用的基准。在这项工作中,我们从维基百科页面中获取句子,并在两个非常低资源的语言对中引入新的评估数据集,即尼泊尔语 - 英语和僧伽罗语 - 英语。这些是具有非常不同的形态和语法的语言,对于这些语言,很少有域外并行数据可用,并且可以自由地使用相对大量的单语数据。我们描述了收集和交叉检查翻译质量的过程,并使用多种学习设置报告基线性能:完全监督,弱监督,半监督和全监督。我们的实验表明,目前最先进的方法在该基准测试中表现相当差,对研究低资源MT的研究社区构成了挑战。有关重现实验的数据和代码,请访问https://github.com/facebookresearch/flores。
translated by 谷歌翻译
尽管它们在各种任务中表现出色,但在存在对抗性输入的情况下,神经网络仍然会发生灾难性的变化 - 不可察觉的但却是自然输入的相互扰动的版本。我们目睹了试图训练强大网络的防御者和攻击者之间的武器,以构建对抗性的例子。结束军备竞赛的一个承诺是开发经过认证的防御措施,这些防御措施对于一些家庭中的诽谤者来说是可靠的。这些经过认证的防御措施是基于凸面松弛的,这种凸起构成了对家庭中掠夺者最严重损失的上限。以前的放松在没有针对相应放松训练的网络上是松散的。在本文中,我们提出了一种新的半确定性放宽方法,用于证明适用于任意RELU网络的鲁棒性。我们表明,我们提出的放松比以前的放松更严格,并在三个不同的“外国网络”上产生有意义的鲁棒性保证,这些“外部网络”的训练目标与我们提出的放松无关。
translated by 谷歌翻译
我们解决了概率主题建模的两个挑战,以便更好地估计给定上下文中单词的概率,即P(单词|上下文):( 1)上下文中没有语言结构:概率主题模型通过总结给定的上下文来忽略单词顺序作为一个“词袋”,因此上下文中的单词语义会丢失。 LSTM-LM通过考虑局部搭配模式中的词序来学习每个词的向量空间表示,并模拟语言的复杂特征(例如,语法和语义),而TM同时从整个文档中学习潜在表示并发现潜在的主题结构。我们通过将TM和LM组合在一个统一的概率框架(称为asctx-DocNADE)中来统一学习单词出现意义的两个补充范式。 (2)有限的上下文和/或较小的文档训练语料库:在少数文字出现(即缺乏上下文)的设置中,在少数文档的语料库中提示文本或数据稀疏性,TM的应用具有挑战性。我们通过语言模型方法将外部知识结合到神经自回归主题模型中来解决这一挑战:我们使用单词嵌入作为LSTM-LM的输入,目的是改善较小和/或短文本语料库中的单词主题映射。提议的DocNADE扩展名为ctx-DocNADEe。我们提出了新的神经自回归主题模型变体,结合神经LM和嵌入先验,在泛化(困惑),可解释性(主题一致性)和适用性(检索和分类)方面始终优于现有技术状态TM超过6长文本8来自不同领域的短文本数据集。
translated by 谷歌翻译
我们在主题模型中解决了两个挑战:(1)关于词的上下文信息有助于确定它们的实际含义,例如,在人工神经网络与生物神经网络的对比中使用的“网络”。 Generativetopic模型推断出主题 - 单词分布,不考虑或只考虑很少的上下文。在这里,我们扩展了神经自回归主题模型,以便在语言建模时尚中利用文档中单词周围的完整上下文信息。提出的模型被命名为iDocNADE。 (2)由于短文本中的单词出现次数(即缺少上下文)和少量文档的语料库中的数据稀疏性,主题模型的应用在这些文本上具有挑战性。因此,我们提出了一种将外部知识结合到神经自回归主题模型中的简单有效的方法:我们使用嵌入作为分布式先验。建议的变体命名为DocNADE2和iDocNADE2。我们提出了新的神经自回归主题模型变体,它们在多样化的6个长文本和8个短文本数据集中,在概括性,可解释性(主题一致性)和适用性(猎犬分类)方面始终优于最先进的生成主题模型。
translated by 谷歌翻译
我们提出了一种新的两阶段方法来进行多主题功能磁共振成像(fMRI)数据的功能网络估计,该数据应用基于模型的图像分割来确定群体代表性连通图。在我们的方法中,我们首先改进基于聚类的独立分量分析(ICA),以生成一致的主题部分的组件图,然后通过MAP-MRF(最大先验 - 马尔可夫随机场)标记来估计组代表图。对于后者,我们提供了anovel和有效的变分贝叶斯算法。我们使用合成数据遵循理论模型研究所提出方法的性能,并且使用模拟fMRI数据证明其在组代表性功能网络的盲提取中的可行性。我们预计所提出的方法将用于识别人群中常见的神经元特征,并可进一步扩展到现实世界的临床诊断。
translated by 谷歌翻译