本文描述了针对机器翻译(MT),实体发现和链接(EDL)以及文本和语音中的情景帧(SF文本和语音)的检测的低资源人类语言技术(LoReHLT)2018评估的ARIEL-CMU提交。
translated by 谷歌翻译
最近的证据指出高表现预测模型的脆弱性,我们将注意力转向多选择阅读理解。特别是,这项工作引入了一种新方法,通过对部分文档的预测进行加权全局归一化来改进对长文档的选择。我们表明,将我们的方法应用于适用于答案选择的跨度预测模型有助于在NarrativeQA(具有答案选择任务的具有挑战性的阅读理解数据集)的长期总结中建模性能,并且我们通过+36.2平均倒数等级强烈改进任务基线性能。
translated by 谷歌翻译
自然语言处理(NLP)中的许多工作都是针对资源丰富的语言,对新的,资源较少的语言进行推广具有挑战性。我们提出了两种方法,通过使用语言动机的子词单元调整连续的单词表示来改进对低资源语言的泛化:音素,语素和字素。我们的方法既需要平行语料库也不需要双语词典,并且在依赖于这些资源的先前方法上提供了显着的性能。我们展示了我们对四种语言的命名实体识别方法的有效性,即维吾尔语,土耳其语,孟加拉语和印地语,其中维吾尔语和孟加拉语是低资源语言,并且还进行机器翻译实验。通过转移学习开发子词可以为维吾尔语提供+ 15.2 NER F1,为孟加拉语提供+9.7 F1。我们还在单语设置中显示了改进,我们实现了(平均)+3 F1和(平均)+1.35 BLEU。
translated by 谷歌翻译
世界上绝大多数语言对都是资源不足的,因为他们几乎没有可用的并行数据。不幸的是,机器翻译(MT)系统目前在这种设置中不能很好地工作。除了在有限监督下学习的技术挑战之外,还存在另一个挑战:评估在低资源语言对上训练的方法非常困难,因为很少有自由和公开可用的基准。在这项工作中,我们从维基百科页面中获取句子,并在两个非常低资源的语言对中引入新的评估数据集,即尼泊尔语 - 英语和僧伽罗语 - 英语。这些是具有非常不同的形态和语法的语言,对于这些语言,很少有域外并行数据可用,并且可以自由地使用相对大量的单语数据。我们描述了收集和交叉检查翻译质量的过程,并使用多种学习设置报告基线性能:完全监督,弱监督,半监督和全监督。我们的实验表明,目前最先进的方法在该基准测试中表现相当差,对研究低资源MT的研究社区构成了挑战。有关重现实验的数据和代码,请访问https://github.com/facebookresearch/flores。
translated by 谷歌翻译
尽管它们在各种任务中表现出色,但在存在对抗性输入的情况下,神经网络仍然会发生灾难性的变化 - 不可察觉的但却是自然输入的相互扰动的版本。我们目睹了试图训练强大网络的防御者和攻击者之间的武器,以构建对抗性的例子。结束军备竞赛的一个承诺是开发经过认证的防御措施,这些防御措施对于一些家庭中的诽谤者来说是可靠的。这些经过认证的防御措施是基于凸面松弛的,这种凸起构成了对家庭中掠夺者最严重损失的上限。以前的放松在没有针对相应放松训练的网络上是松散的。在本文中,我们提出了一种新的半确定性放宽方法,用于证明适用于任意RELU网络的鲁棒性。我们表明,我们提出的放松比以前的放松更严格,并在三个不同的“外国网络”上产生有意义的鲁棒性保证,这些“外部网络”的训练目标与我们提出的放松无关。
translated by 谷歌翻译
我们解决了概率主题建模的两个挑战,以便更好地估计给定上下文中单词的概率,即P(单词|上下文):( 1)上下文中没有语言结构:概率主题模型通过总结给定的上下文来忽略单词顺序作为一个“词袋”,因此上下文中的单词语义会丢失。 LSTM-LM通过考虑局部搭配模式中的词序来学习每个词的向量空间表示,并模拟语言的复杂特征(例如,语法和语义),而TM同时从整个文档中学习潜在表示并发现潜在的主题结构。我们通过将TM和LM组合在一个统一的概率框架(称为asctx-DocNADE)中来统一学习单词出现意义的两个补充范式。 (2)有限的上下文和/或较小的文档训练语料库:在少数文字出现(即缺乏上下文)的设置中,在少数文档的语料库中提示文本或数据稀疏性,TM的应用具有挑战性。我们通过语言模型方法将外部知识结合到神经自回归主题模型中来解决这一挑战:我们使用单词嵌入作为LSTM-LM的输入,目的是改善较小和/或短文本语料库中的单词主题映射。提议的DocNADE扩展名为ctx-DocNADEe。我们提出了新的神经自回归主题模型变体,结合神经LM和嵌入先验,在泛化(困惑),可解释性(主题一致性)和适用性(检索和分类)方面始终优于现有技术状态TM超过6长文本8来自不同领域的短文本数据集。
translated by 谷歌翻译
我们在主题模型中解决了两个挑战:(1)关于词的上下文信息有助于确定它们的实际含义,例如,在人工神经网络与生物神经网络的对比中使用的“网络”。 Generativetopic模型推断出主题 - 单词分布,不考虑或只考虑很少的上下文。在这里,我们扩展了神经自回归主题模型,以便在语言建模时尚中利用文档中单词周围的完整上下文信息。提出的模型被命名为iDocNADE。 (2)由于短文本中的单词出现次数(即缺少上下文)和少量文档的语料库中的数据稀疏性,主题模型的应用在这些文本上具有挑战性。因此,我们提出了一种将外部知识结合到神经自回归主题模型中的简单有效的方法:我们使用嵌入作为分布式先验。建议的变体命名为DocNADE2和iDocNADE2。我们提出了新的神经自回归主题模型变体,它们在多样化的6个长文本和8个短文本数据集中,在概括性,可解释性(主题一致性)和适用性(猎犬分类)方面始终优于最先进的生成主题模型。
translated by 谷歌翻译
我们提出了一种新的两阶段方法来进行多主题功能磁共振成像(fMRI)数据的功能网络估计,该数据应用基于模型的图像分割来确定群体代表性连通图。在我们的方法中,我们首先改进基于聚类的独立分量分析(ICA),以生成一致的主题部分的组件图,然后通过MAP-MRF(最大先验 - 马尔可夫随机场)标记来估计组代表图。对于后者,我们提供了anovel和有效的变分贝叶斯算法。我们使用合成数据遵循理论模型研究所提出方法的性能,并且使用模拟fMRI数据证明其在组代表性功能网络的盲提取中的可行性。我们预计所提出的方法将用于识别人群中常见的神经元特征,并可进一步扩展到现实世界的临床诊断。
translated by 谷歌翻译
本文介绍了一种自动检测Munro'sMicroabscess在人体皮肤活检角质层(SC)中的方法,以实现对银屑病的机器辅助诊断。使用最近的deeplearning算法的进展来解决检测有核细胞存在的中性粒细胞的挑战。 SC层的分离,从层中提取贴片,然后关于中性粒细胞的存在或不存在对贴片进行分类形成整体方法的基础,该整体方法通过基于U-Net的分割网络和用于分类的胶囊网络的集成来实现。本胶囊网的新颖设计导致参数数量的急剧减少,而在整体性能上没有任何明显的折衷。该研究进一步解决了处理千兆像素图像(10倍)与千兆像素图像(40倍)的挑战。对由273个真实图像组成的数据集进行的实验得出的预期结果表明,基于目前的研究,实际系统是可行的。可以通过以下网址获得我们系统的实现://github.com/Anabik/CapsDeMM。
translated by 谷歌翻译
研究表明,孩子可以在很小的时候接触到智能设备。这对儿童 - 计算机互动,儿童在线安全和早期教育的研究具有重要意义。基于此类研究已经构建了许多系统。在这项工作中,我们提出了多种技术来自动检测智能设备上是否存在儿童,这可以作为此类系统的第一步。我们的方法在操作支持触摸的现代计算设备时基于行为差异来区分儿童。从触摸屏和内置传感器记录的数据中提取行为差异。为了评估提出的方法的有效性,已经从50个儿童和成人创建了一个新的数据集,与智能手机上的现成应用程序进行交互。结果表明,在仅使用触摸信息或5秒的传感器读数的连续8次触摸手势之后,可以实现99%的准确度和小于0.5%的错误率。如果从多个传感器使用信息,则仅在3次传感之后,可以实现类似的性能。
translated by 谷歌翻译