多个实例学习(MIL)是对诊断病理学的整个幻灯片图像(WSI)进行分类的强大方法。 MIL对WSI分类的基本挑战是发现触发袋子标签的\ textit {critical Instances}。但是,先前的方法主要是在独立和相同的分布假设(\ textit {i.i.d})下设计的,忽略了肿瘤实例或异质性之间的相关性。在本文中,我们提出了一种新颖的基于多重检测的多重实例学习(MDMIL)来解决上述问题。具体而言,MDMIL是由内部查询产生模块(IQGM)和多重检测模块(MDM)构建的,并在训练过程中基于内存的对比度损失的辅助。首先,IQGM给出了实例的概率,并通过在分布分析后汇总高度可靠的功能来为后续MDM生成内部查询(IQ)。其次,在MDM中,多重检测交叉注意(MDCA)和多头自我注意力(MHSA)合作以生成WSI的最终表示形式。在此过程中,智商和可训练的变异查询(VQ)成功建立了实例之间的联系,并显着提高了模型对异质肿瘤的鲁棒性。最后,为了进一步在特征空间中实施限制并稳定训练过程,我们采用基于内存的对比损失,即使在每次迭代中有一个样本作为输入,也可以实现WSI分类。我们对三个计算病理数据集进行实验,例如CamelyOn16,TCGA-NSCLC和TCGA-RCC数据集。优越的准确性和AUC证明了我们提出的MDMIL比其他最先进方法的优越性。
translated by 谷歌翻译
众所周知,端到端的神经NLP体系结构很难理解,这引起了近年来为解释性建模的许多努力。模型解释的基本原则是忠诚,即,解释应准确地代表模型预测背后的推理过程。这项调查首先讨论了忠诚的定义和评估及其对解释性的意义。然后,我们通过将方法分为五类来介绍忠实解释的最新进展:相似性方法,模型内部结构的分析,基于反向传播的方法,反事实干预和自我解释模型。每个类别将通过其代表性研究,优势和缺点来说明。最后,我们从它们的共同美德和局限性方面讨论了上述所有方法,并反思未来的工作方向忠实的解释性。对于有兴趣研究可解释性的研究人员,这项调查将为该领域提供可访问且全面的概述,为进一步探索提供基础。对于希望更好地了解自己的模型的用户,该调查将是一项介绍性手册,帮助选择最合适的解释方法。
translated by 谷歌翻译
我们介绍了第一个机器学习引力波搜索模拟数据挑战(MLGWSC-1)的结果。在这一挑战中,参与的小组必须从二进制黑洞合并中识别出复杂性和持续时间逐渐嵌入在逐渐更现实的噪声中的引力波信号。 4个提供的数据集中的决赛包含O3A观察的真实噪声,并发出了20秒的持续时间,其中包含进动效应和高阶模式。我们介绍了在提交前从参与者未知的1个月的测试数据中得出的6个输入算法的平均灵敏度距离和运行时。其中4个是机器学习算法。我们发现,最好的基于机器学习的算法能够以每月1个的错误警报率(FAR)的速度(FAR)实现基于匹配过滤的生产分析的敏感距离的95%。相反,对于真实的噪音,领先的机器学习搜索获得了70%。为了更高的范围,敏感距离缩小的差异缩小到某些数据集上选择机器学习提交的范围$ \ geq 200 $以优于传统搜索算法的程度。我们的结果表明,当前的机器学习搜索算法可能已经在有限的参数区域中对某些生产设置有用。为了改善最新的技术,机器学习算法需要降低他们能够检测信号并将其有效性扩展到参数空间区域的虚假警报率,在这些区域中,建模的搜索在计算上很昂贵。根据我们的发现,我们汇编了我们认为,将机器学习搜索提升到重力波信号检测中的宝贵工具,我们认为这是最重要的研究领域。
translated by 谷歌翻译
我们提出了一种新的形式的傅立叶分析以及相关的信号处理概念,该信号(或数据)由边缘加权的定向无环图(DAGS)索引。这意味着我们的傅立叶基础产生了我们定义的适当的转移和卷积操作员的概念。 DAG是捕获数据之间因果关系的常见模型,而我们的框架在这​​种转变,卷积和傅立叶变换中仅是从DAG中的前辈计算出来的。傅立叶变换需要DAG的传递闭合,根据边缘重量的解释,可能会为此形式。示例包括影响水平,距离或污染分布。我们的框架与先前的GSP不同:它特定于DAG和杠杆,并扩展了Moebius反转的经典理论。对于原型应用,我们考虑DAGS建模动态网络,其中边缘会随着时间而变化。具体而言,我们对感染的传播对从现实世界接触数据获得的DAG进行建模,并从样品中学习感染信号,假设傅立叶域中的稀疏性。
translated by 谷歌翻译
基于视觉的导航需要处理复杂的信息以做出以任务为导向的决策。应用包括自动驾驶机器人,自动驾驶汽车以及对人类的辅助愿景。该过程中的关键要素之一是在像素空间中提取和选择相关特征,以便基于操作选择,适合哪种机器学习技术。但是,在模拟中接受培训的深度强化学习代理人在现实世界中部署在现实世界中通常会表现出不满意的结果,这是因为感知差异称为$ \ textit {现实gap} $。尚未探索以弥合这一差距的方法是自我注意力。在本文中,我们(1)对基于3D环境的基于自我注意力的导航进行系统探索,并从不同的超参数集中观察到的行为,包括它们的概括能力; (2)目前的策略来提高代理的概括能力和导航行为; (3)展示在模拟中训练的模型如何能够实时处理现实世界图像。据我们所知,这是使用少于4000个参数成功导航3D动作空间的基于自我注意力的代理的首次演示。
translated by 谷歌翻译
技能在就业市场和许多人力资源(HR)过程中起着核心作用。在其他数字经验之后,当今的在线工作市场有候选人希望根据他们的技能看到正确的机会。同样,企业越来越需要使用数据来确保其劳动力中的技能保持未来。但是,有关技能的结构化信息通常缺少,并且基于自我或经理评估的流程已证明与所得数据的采用,完整性和新鲜度有关。鉴于明确或仅隐含地描述了数千种可能的技能标签,并且缺乏精细注释的培训语料库,提取技能是一项艰巨的任务。以前的技能提取工作过于简化任务,将其用于明确的实体检测任务,或者基于手动注释的培训数据,如果应用于完整的技能词汇,这是不可行的。我们根据遥远的字面匹配,提出了一个用于技能提取的端到端系统。我们提出并评估了几种负面验证数据集中的几种负面抽样策略,以提高技能提取对隐式提及技能的推广,尽管在遥远的监督数据中缺乏这种隐性技能。我们观察到,使用ESCO分类法从相关技能中选择负面示例会产生最大的进步,并且在一个模型中结合三种不同的策略进一步提高了性能,在RP@5中最多可达8个百分点。我们介绍了基于ESCO分类法的手动注释评估基准,以进行技能提取,并在其上验证模型。我们发布基准数据集以进行研究目的,以刺激对任务的进一步研究。
translated by 谷歌翻译
培训越来越多的语言模型的最新趋势已大大提高了语言任务的机器学习绩效。但是,培训较大模型的巨大成本可以使他们过高地调整它们的昂贵,从而激发了对更有效方法的研究。基于梯度的高参数优化提供了在训练期间调整超参数的能力,但以前尚未以序列到序列设置进行研究。我们首次将基于梯度的简单和一般基于梯度的高参数优化方法应用于顺序到序列任务,证明了效率和性能在强大的基线上的神经机器翻译和自然语言理解(NLU)任务(通过T5预测) )。对于翻译,我们显示该方法跨语言对,比贝叶斯高参数优化更有效,并且某些超参数的学习时间表可以超过最佳的恒定值调整。对于T5,我们表明在预训练期间学习超参数可以提高下游NLU任务的性能。当同时学习多个超参数时,我们表明,全球学习率可以遵循训练的时间表,以提高性能,并且无法通过贪婪方法的“短马偏见”来解释。我们发布用于促进进一步研究的代码。
translated by 谷歌翻译
人工神经网络从其生物学对应物中汲取了很多灵感,成为我们最好的机器感知系统。这项工作总结了一些历史,并将现代理论神经科学纳入了深度学习领域的人工神经网络的实验。具体而言,迭代幅度修剪用于训练稀疏连接的网络,重量减少33倍而不会损失性能。这些用于测试并最终拒绝这样的假设:仅体重稀疏就可以改善图像噪声稳健性。最近的工作减轻了使用重量稀疏性,激活稀疏性和主动树突建模的灾难性遗忘。本文复制了这些发现,并扩展了培训卷积神经网络的方法,以更具挑战性的持续学习任务。该代码已公开可用。
translated by 谷歌翻译
我们提出了一种两阶段的培训方法,用于开发单个NMT模型,以翻译英语和英语的看不见的语言。对于第一阶段,我们将编码器模型初始化以鉴定XLM-R和Roberta的权重,然后对25种语言的平行数据进行多种语言微调。我们发现该模型可以推广到对看不见的语言的零击翻译。在第二阶段,我们利用这种概括能力从单语数据集生成合成的并行数据,然后用连续的反向翻译训练。最终模型扩展到了英语到许多方向,同时保持了多到英语的性能。我们称我们的方法为ecxtra(以英语为中心的跨语言(x)转移)。我们的方法依次利用辅助并行数据和单语言数据,并且在概念上很简单,仅在两个阶段都使用标准的跨熵目标。最终的ECXTRA模型对8种低资源语言的无监督NMT进行了评估,该语言为英语至哈萨克语(22.3> 10.4 bleu)以及其他15个翻译方向的竞争性能而获得了新的最先进。
translated by 谷歌翻译
本文回顾了概念,建模方法和最新发现,沿着不同级别的神经网络模型的抽象范围,包括跨(1)样本跨(2)分布,(3)域,(4)任务,(5)模态的概括,(2) ,和(6)范围。 (1)样品概括的结果表明,对于ImageNet而言,几乎所有最近的改进都减少了训练误差,而过度拟合则保持平坦。几乎消除了所有训练错误,未来的进度将需要专注于减少过度拟合。统计数据的观点突出显示了(2)分布概括如何交替地视为样本权重的变化或输入输出关系的变化。总结了(3)域概括的转移学习方法,以及最新的进步和域适应性基准数据集的财富。在(4)任务概括中调查的最新突破包括很少的元学习方法和BERT NLP引擎以及最近(5)个模态概括研究,这些研究整合了图像和文本数据,并应用了跨嗅觉的生物学启发的网络,视觉和听觉方式。回顾了最近(6)个范围泛化结果,将知识图嵌入深度NLP方法中。此外,讨论了关于大脑的模块化结构以及多巴胺驱动的条件导致抽象思维的步骤。
translated by 谷歌翻译