成功的深度学习模型往往涉及培训具有比训练样本数量更多的参数的神经网络架构。近年来已经广泛研究了这种超分子化的模型,并且通过双下降现象和通过优化景观的结构特性,从统计的角度和计算视角都建立了过分统计化的优点。尽管在过上分层的制度中深入学习架构的显着成功,但也众所周知,这些模型对其投入中的小对抗扰动感到高度脆弱。即使在普遍培训的情况下,它们在扰动输入(鲁棒泛化)上的性能也会比良性输入(标准概括)的最佳可达到的性能更糟糕。因此,必须了解如何从根本上影响稳健性的情况下如何影响鲁棒性。在本文中,我们将通过专注于随机特征回归模型(具有随机第一层权重的两层神经网络)来提供超分度化对鲁棒性的作用的精确表征。我们考虑一个制度,其中样本量,输入维度和参数的数量彼此成比例地生长,并且当模型发生前列地训练时,可以为鲁棒泛化误差导出渐近精确的公式。我们的发达理论揭示了过分统计化对鲁棒性的非竞争效果,表明对于普遍训练的随机特征模型,高度公正化可能会损害鲁棒泛化。
translated by 谷歌翻译
尽管在构建强大的神经网络方面具有明显的计算优势,但使用单步方法的对抗训练(AT)是不稳定的,因为它遭受了灾难性的过度拟合(CO):网络在对抗性训练的第一阶段获得了非平凡的鲁棒性,但突然达到了一个阶段在几次迭代中,他们很快失去了所有鲁棒性。尽管有些作品成功地预防了CO,但导致这种显着失败模式的不同机制仍然很少理解。但是,在这项工作中,我们发现数据结构与AT动力学之间的相互作用在CO中起着基本作用。特别是,通过对自然图像的典型数据集进行主动干预,我们建立了一个因果关系。在方法上单步中的数据和CO的发作。这种新的观点提供了对导致CO的机制的重要见解,并为更好地理解强大模型构建的一般动态铺平了道路。可以在https://github.com/gortizji/co_features上找到复制本文实验的代码。
translated by 谷歌翻译
随机对照试验(RCT)被认为是估计干预措施影响的黄金标准。最近的工作通过对年龄和种族等表的变量进行调节估计来研究RCT的效应异质性。但是,这种变量通常只在实验时间附近观察到,并且可能无法捕获效果变异的历史或地理原因。当实验单元与特定位置相关联时,卫星图像可以提供此类历史和地理信息,但是没有任何方法将其包含在描述效果异质性。在本文中,我们开发了一种方法,该方法使用深层概率建模框架估算,图像簇在治疗效果上具有相同的分布。我们将提出的方法与模拟中的替代方法进行比较,并在估计乌干达的反贫困干预措施的影响方面进行了比较。引入了因果正规化惩罚,以确保聚类模型在恢复平均治疗效果(ATE)方面的可靠性。最后,我们讨论了这些方法对其他领域的可行性,局限性以及适用性,例如医学和气候科学,其中图像信息很普遍。我们为在开源软件包中公开使用的所有建模策略制作代码。
translated by 谷歌翻译
因果关系的观察性研究需要调整混杂因素。在这些因素定义明确的单独随机变量的表格环境中,人们可以很好地理解混杂的效果。但是,在公共政策,生态学和医学中,决策通常是在非尾部环境中做出的,这些设置由图像中检测到的模式或对象(例如,地图,卫星或层析成像图像)所告知。使用此类图像进行因果推理会带来机会,因为图像中的对象可能与感兴趣的治疗和结果有关。在这些情况下,我们依靠图像来调整混淆,但观察到的数据并未直接标记重要对象的存在。在现实世界中的激励中,我们正式化了这一挑战,如何处理,以及哪些条件足以识别和估计因果关系。我们使用仿真实验分析有限样本的性能,并使用采用机器学习模型来估计图像混淆的倾向调整算法估算效果。我们的实验还检查了对图像模式机制错误指定的敏感性。最后,我们使用我们的方法来估计卫星图像中政策干预对非洲社区贫困的影响。
translated by 谷歌翻译
最近的工作证明了从生成语言模型中成功提取培训数据。但是,在文本分类模型中,这种提取是否可行,因为培训目标是预测类标签而不是下一字预测。这提出了一个有趣的挑战,并提出了关于文本分类设置中培训数据隐私的重要问题。因此,我们通过研究与学习任务无关的培训数据的意外记忆的问题来研究文本分类域中的潜在隐私泄漏。我们提出了一种算法,通过利用模型提供的类标签的可能性来提取部分文本的缺失令牌。我们通过将金丝雀插入训练集并试图在训练后提取令牌来测试算法的有效性。在我们的实验中,我们证明了在一定程度上可以成功提取。这也可以用作审计策略,以评估未经同意的任何未经授权使用个人数据的使用。
translated by 谷歌翻译
最近,Wong等人。表明,使用单步FGSM的对抗训练导致一种名为灾难性过度拟合(CO)的特征故障模式,其中模型突然变得容易受到多步攻击的影响。他们表明,在FGSM(RS-FGSM)之前添加随机扰动似乎足以防止CO。但是,Andriushchenko和Flammarion观察到RS-FGSM仍会导致更大的扰动,并提出了一个昂贵的常规化器(Gradalign),DEMATER(GARGALIGN)DES昂贵(Gradalign)Dust Forrasiniger(Gradalign)Dust co避免在这项工作中,我们有条不紊地重新审视了噪声和剪辑在单步对抗训练中的作用。与以前的直觉相反,我们发现在干净的样品周围使用更强烈的噪声与不剪接相结合在避免使用大扰动半径的CO方面非常有效。基于这些观察结果,我们提出了噪声-FGSM(N-FGSM),尽管提供了单步对抗训练的好处,但在大型实验套件上没有经验分析,这表明N-FGSM能够匹配或超越以前的单步方法的性能,同时达到3 $ \ times $加速。代码可以在https://github.com/pdejorge/n-fgsm中找到
translated by 谷歌翻译
尽管可解释的AI的大量研究重点是产生有效的解释,但较少的工作致力于人们如何理解和解释解释的问题。在这项工作中,我们通过研究基于显着性数据的解释来关注这个问题。文本模型的特征属性解释旨在传达输入文本的哪些部分比其他部分更具影响力。许多当前的解释方法,例如基于梯度或基于沙普利价值的方法,都提供了重要的衡量标准,这些方法在数学上是众所周知的。但是,一个人接受解释(解释)如何理解它?他们的理解是否与解释试图交流的内容相匹配?我们从经验上研究了输入的各种因素,特征 - 贡献解释和可视化程序对Laypeople对解释的解释的影响。我们询问人群工人对英语和德语的任务进行解释,并根据感兴趣的因素适合他们的回答。我们发现人们经常误解解释:尽管有直接传达重要性的解释,但肤浅和无关的因素(例如单词长度)影响了解释者的重要性分配。然后,我们证明其中一些失真可以减弱:我们提出了一种基于过度感受和低估的模型估计的方法来调整销售的方法,并探索条形图作为热图显着性可视化的替代方法。我们发现两种方法都可以减轻特定因素的扭曲作用,从而使对解释的理解更好地理解。
translated by 谷歌翻译
我们考虑一个矩阵完成问题,用于将社交或项目相似性图形作为侧面信息。我们开发了一种普遍的,无参数和计算的有效算法,该算法以分层图形聚类开始,然后迭代地改进图形聚类和矩阵额定值。在一个层次的随机块模型,尊重实际相关的社交图和低秩评级矩阵模型(要详细),我们证明了我们的算法实现了观察到的矩阵条目数量的信息 - 理论限制(即,最佳通过与较低的不可能结果一起导出的样本复杂性)通过最大似然估计。该结果的一个结果是利用社交图的层次结构,相对于简单地识别不同组的情况,在不诉诸于它们的情况下,可以产生相对于不同组的样本复杂性的大量增益。我们对合成和现实世界数据集进行了广泛的实验,以证实我们的理论结果,并展示了利用图形侧信息的其他矩阵完成算法的显着性能改进。
translated by 谷歌翻译
自然语言处理领域(NLP)最近看到使用预先接受训练的语言模型来解决几乎任何任务的大量变化。尽管对各种任务的基准数据集显示了很大的改进,但这些模型通常在非标准域中对临床领域的临床域进行次优,其中观察到预训练文件和目标文件之间的巨大差距。在本文中,我们的目标是通过对语言模型的域特定培训结束这种差距,我们调查其对多种下游任务和设置的影响。我们介绍了预先训练的Clin-X(临床XLM-R)语言模型,并展示了Clin-X如何通过两种语言的十个临床概念提取任务的大幅度优于其他预先训练的变压器模型。此外,我们展示了如何通过基于随机分裂和交叉句子上下文的集合来利用我们所提出的任务和语言 - 无人机模型架构进一步改善变压器模型。我们在低资源和转移设置中的研究显​​示,尽管只有250个标记的句子,但在只有250个标记的句子时,缺乏带注释数据的稳定模型表现。我们的结果突出了专业语言模型作为非标准域中的概念提取的Clin-X的重要性,但也表明我们的任务 - 无人机模型架构跨越测试任务和语言是强大的,以便域名或任务特定的适应不需要。 Clin-Xlanguage模型和用于微调和传输模型的源代码在https://github.com/boschresearch/clin\_x/和Huggingface模型集线器上公开使用。
translated by 谷歌翻译
在真实世界优化中,常见的是面对几个次级问题,互动和形成主要问题。子问题之间存在依赖性,使得不可能通过专注于一个组件来解决这样的问题。旅行小偷问题〜(TTP)属于此类别,由旅行销售人员问题〜(TSP)和背包问题〜(KP)形成。在本文中,我们通过优质多样性〜(QD)方法研究了TSP和KP的依赖性。 QD算法提供强大的工具,不仅可以获得高质量解决方案,还提供了在行为空间中的高性能解决方案的分布。我们使用众所周知的TSP和KP搜索操作员介绍基于Map-Elite的进化算法,将TSP和KP得分作为行为描述符。之后,我们进行全面的实验研究,表明使用应用于TTP的QD方法的有用性。首先,我们提供有关TSP / KP行为空间中高质量TTP解决方案的见解。之后,我们表明,通过使用我们的QD方法可以获得更好的TTP解决方案,并显示它可以改善用于在文献中基准测试的广泛TTP实例的最佳已知解决方案。
translated by 谷歌翻译