我们介绍了一组九个挑战任务,测试理解功能词。这些任务是通过结构化突变数据集的句子来创建的,以便能够理解特定类型的功能词(例如,介词,wh-words)。使用这些探测任务,我们探索了各种预训练目标对句子编码器(例如,语言建模,CCG超级标准和自然语言推理(NLI))对学习代表的影响。我们的结果表明,对CCG进行预训练 - 我们最常用的语法 - 在我们的探究任务中平均表现最佳,这表明句法知识有助于词汇理解。语言建模也显示出强大的性能,支持其广泛用于预训练最先进的NLP模型。总的来说,没有预训练目标支配董事会,我们的功能词探测任务突出了预训练目标之间的几个直观差异,例如,NLI有助于理解否定。
translated by 谷歌翻译
关于语境化词语表示问题的研究 - 用于句子理解的可重用神经网络组件的发展 - 最近出现了一系列进展,其中心是使用ELMo等方法进行语言建模的无监督预训练任务。本文提供了第一个大规模的系统研究,比较了该语境中不同的预训练任务,既作为语言建模的补充,也作为潜在的替代。该研究的主要结果支持使用语言模型作为预训练任务,并使用语言模型的多任务学习在可比模型中设置新的技术水平。然而,仔细观察这些结果可以发现令人担忧的强大基线和跨越目标任务的惊人变化的结果,这表明广泛使用的预训练和冻结句子编码器的范例可能不是进一步工作的理想平台。
translated by 谷歌翻译
我们提供了5000篇经过丰富注释的医学文章摘要的语料库,描述了临床随机对照试验。注释包括描述登记的患者群体的文本跨度的界限,研究的干预和他们的比较,以及测量的结果(“PICO”元素)。这些跨度在更细粒度级别进一步注释,例如,其中的个体干预被标记并映射到结构化医学词汇表。我们从不同的工作人员那里获得了不同专业知识和成本的注释。我们详细描述了我们的数据收集过程和语料库本身。然后,我们概述了一系列具有挑战性的NLP任务,这些任务有助于搜索医学文献和循证医学实践。
translated by 谷歌翻译
全世界有数百万人缺席他们国家的人口普查。准确,现有和细化的人口指标对于改善政府资源配置,衡量疾病控制,应对自然灾害以及研究这些社区人类生活的任何方面至关重要。卫星图像可以提供足够的信息来建立人口普查地图,而无需政府人口普查的成本和时间。我们提出了两种卷积神经网络(CNN)架构,它可以有效地组合来自多个源的卫星图像输入,以准确地预测一个区域的人口密度。在本文中,我们使用来自印度农村的卫星图像和2011年SECC人口普查的人口标签。我们的最佳模型比以前的纸张以及LandScan(全球人口分布的社区标准)实现了更好的性能。
translated by 谷歌翻译
图形是许多问题的自然抽象,其中节点代表性和边缘代表实体之间的关系。在过去十年中出现的一个重要的研究领域是使用图形作为非线性降维的车辆,其方式类似于基于流形学习的预防措施,用于下游数据库处理,机器学习和可视化。在这个系统而全面的实验调查中,我们对几个流行的网络代表学习方法进行了基准测试,这些方法在两个关键任务上运行:链接预测和节点分类。我们检查了12个无监督嵌入方法在15个数据集上的性能。据我们所知,我们的研究规模 - 无论是方法数量还是数据集数量 - 都是迄今为止最大的研究。我们的结果揭示了关于这个领域迄今为止工作的几个关键见解。首先,我们发现某些基线方法(特定于任务的启发式方法,以及经典的多种方法)经常被解雇或以前的努力未被考虑,可以参与竞争。某些类型的数据集,如果它们适当调整。其次,我们发现最近基于矩阵因子化的方法从定性的角度提供了一些小的但相对一致的优点,即替代方法(例如,基于随机游走的方法)。具体来说,我们发现MNMF是一种社区保留嵌入方法,是链路预测任务中最具竞争力的方法。虽然NetMF是节点分类最具竞争力的基线。第三,nosingle方法在节点分类和链接预测任务上完全优于其他嵌入方法。我们还提供了几个深入分析,揭示了某些算法表现良好的设置(例如,邻域上下文对性能的作用) - 指导了用户。
translated by 谷歌翻译
同步小批量SGD是大规模分布式机器学习的最先进技术。然而,在实践中,它的收敛性受到工作节点之间的慢速通信轮流的瓶颈。减少通信的一个自然解决方案是使用\ emph {`local-SGD'}模型,其中工作人员独立地模拟模型并且偶尔同步。这种算法改进了计算 - 通信的权衡,但其收敛性并未得到很好的理解。我们提出了一种非渐近误差分析,它可以比较\ emph {one-shot averaging},即单个通信循环独立工作者,以及\ emph {小批量平均},即每个步骤进行通信。我们还为大步长($ t ^ { - \ alpha} $,$ \ alpha \ in(1 / 2,1)$)提供通信频率的自适应下限,并显示\ emph {Local-SGD}减少了通信乘以$ O \ Big(\ frac {\ sqrt {T}} {P ^ {3/2}} \ Big)$,$ T $渐变和$ P $机器的总数。
translated by 谷歌翻译
我们提出了基于稀疏表示的分类(SRC)方法的基于转导深度学习的公式。所提出的网络包括卷积自动编码器以及完全连接的层。自动编码器网络的作用是学习用于分类的强大深度特征。另一方面,放置在编码器和解码器网络之间的完全连接层负责寻找稀疏表示。然后将估计的稀疏代码用于分类。对三个不同数据集的各种实验表明,所提出的网络导致稀疏表示,其提供比最先进的SRC方法更好的分类结果。源代码可在以下网址获得:github.com/mahdiabavisani/DSRC。
translated by 谷歌翻译
极化热到可见面验证需要匹配包含显着域差异的两个图像。最近的几种方法试图从热图像合成可见面以进行交叉模态匹配。在本文中,我们采用不同的方法,而不是仅仅关注从热面合成可见面,我们还建议从可见面合成热面。我们的直觉基于以下因素:热图像还包含关于人员的一些有辨别力的信息以供验证。来自预训练的卷积神经网络(CNN)的深度特征从原始图像和合成图像中提取。然后融合这些特征以生成模板,然后将其用于验证。所提出的合成网络基于自我关注生成对抗网络(SAGAN),其基本上允许有效的注意引导图像合成。对ARL极化热表面数据集的广泛实验表明,所提出的方法实现了最先进的性能。
translated by 谷歌翻译
我们提出了一种在胶囊网络(CapsNets)中快速推理的方法,通过关于相邻网络层之间链接囊的路由系数的关键洞察力的优势。由于路由系数负责将对象部分分配给整体,并且对象整体通常包含类似的类内和不同的类间部分,因此路由系数倾向于为每个对象类形成唯一的签名。对于快速参考,首先使用来自训练数据集的示例以通常的方式训练网络。之后,与训练示例相关联的路由系数被离线累积并用于创建一组“主”路由系数。在推理期间,使用这些主路由系数代替动态计算的路由系数。我们通过单个矩阵乘法运算有效地替代了动态路由过程中的for循环迭代,从而显着提高了推理速度。与动态路由过程相比,快速推理降低了MNIST,背景MNIST,Fashion MNIST和Rotated MNIST数据集的测试精度,小于0.5%,CIFAR10大约为5%。
translated by 谷歌翻译
心电图(ECG)是一种广泛使用的医学测试,通常由从心脏表面记录收集的12个电压对时间轨迹组成。在这里,我们假设深度神经网络可以预测ECG电压 - 时间曲线的重要未来临床事件(一年全因死亡率)。我们在预测一年死亡率方面表现出良好的表现,平均AUC为0.85,该模型交叉验证了1,775,926个12导联心电图,这是在大型区域卫生系统中34年期间收集的。即使在由医生解释为“正常”的大部分ECG中(n = 297,548),预测一年死亡率的模型表现仍然很高(AUC = 0.84),而Cox比例风险模型显示危险度为6.6(p <0.005) )在30年的随访期内,对于两个预测组(死亡与活着的一个心电图)。对三位心脏病专家进行的一项盲法调查显示,即使在显示240个标记为真阳性(死亡)和真阴性(活着)的样本后,模型所捕获的模式对于心脏病学家来说通常并不明显。尽管如此,深度学习可以为12导联静息心电图的解释添加重要的预后信息,即使在医生将其解释为“正常”的情况下也是如此。
translated by 谷歌翻译