已知神经网络对初始化敏感。依赖神经网络的解释方法并不强大,因为当模型被初始化并用不同的随机种子训练时,它们的解释可能会有所不同。在许多安全关键应用(例如医疗保健中的疾病诊断)中,对模型初始化的敏感性是不可取的,其中解释性可能会对有助于决策产生重大影响。在这项工作中,我们引入了一种基于参数平均的新方法,以在表格数据设置(称为XTAB)中进行可靠的解释性。我们首先初始化并训练具有不同随机种子的浅网络(称为本地面具)的多个实例,以进行下游任务。然后,我们通过“平均”本地掩码的参数来获得全局掩码模型,并表明全局模型使用多数规则根据所有本地模型中的相对重要性来对特征进行排名。我们对各种真实和合成数据集进行了广泛的实验,表明所提出的方法可用于特征选择,并获得对亚最佳模型初始化不敏感的全局特征重要性。
translated by 谷歌翻译
我们介绍了一个简单而直观的框架,该框架通过对输入特征重要性的概率评估来提供统计模型的定量解释。核心思想来自利用Dirichlet分布来定义输入功能的重要性,并通过大致贝叶斯推断学习。学到的重要性具有概率的解释,并提供了每个输入特征与模型输出的相对重要性,从而评估了对其重要性量化的信心。由于在解释上使用了Dirichlet分布,因此我们可以定义封闭形式的差异来衡量不同模型下所学到的重要性之间的相似性。我们利用这种差异来研究特征重要性的解释性权衡,并在现代机器学习中的基本概念(例如隐私和公平)中进行了折衷。此外,BIF可以在两个层面上工作:全局说明(所有数据实例中的特征重要性)和局部说明(每个数据实例的个人特征重要性)。考虑到表格数据集和图像数据集,我们显示了方法对各种合成和真实数据集的有效性。该代码可在https://github.com/kamadforge/featimp_dp上获得。
translated by 谷歌翻译
Tabular biomedical data is often high-dimensional but with a very small number of samples. Although recent work showed that well-regularised simple neural networks could outperform more sophisticated architectures on tabular data, they are still prone to overfitting on tiny datasets with many potentially irrelevant features. To combat these issues, we propose Weight Predictor Network with Feature Selection (WPFS) for learning neural networks from high-dimensional and small sample data by reducing the number of learnable parameters and simultaneously performing feature selection. In addition to the classification network, WPFS uses two small auxiliary networks that together output the weights of the first layer of the classification model. We evaluate on nine real-world biomedical datasets and demonstrate that WPFS outperforms other standard as well as more recent methods typically applied to tabular data. Furthermore, we investigate the proposed feature selection mechanism and show that it improves performance while providing useful insights into the learning task.
translated by 谷歌翻译
我们提出了TABPFN,这是一种与小型表格数据集上的最新技术竞争性的自动化方法,而更快的速度超过1,000美元。我们的方法非常简单:它完全符合单个神经网络的权重,而单个正向通行证直接产生了对新数据集的预测。我们的AutoML方法是使用基于变压器的先验数据拟合网络(PFN)体系结构进行元学习的,并近似贝叶斯推断,其先验是基于简单性和因果结构的假设。先验包含庞大的结构性因果模型和贝叶斯神经网络,其偏见是小体系结构,因此复杂性较低。此外,我们扩展了PFN方法以在实际数据上校准Prior的超参数。通过这样做,我们将抽象先前的假设与对真实数据的启发式校准分开。之后,修复了校准的超参数,并在按钮按钮时可以将TABPFN应用于任何新的表格数据集。最后,在OpenML-CC18套件的30个数据集上,我们表明我们的方法优于树木,并与复杂的最新Automl系统相同,并且在不到一秒钟内产生的预测。我们在补充材料中提供所有代码和最终训练的TABPFN。
translated by 谷歌翻译
特征选择是机器学习的重要过程。它通过选择对预测目标贡献最大的功能来构建一个可解释且健壮的模型。但是,大多数成熟的特征选择算法,包括受监督和半监督,无法完全利用特征之间的复杂潜在结构。我们认为,这些结构对于特征选择过程非常重要,尤其是在缺乏标签并且数据嘈杂的情况下。为此,我们创新地向特征选择问题(即基于批量注意的自我划分特征选择(A-SFS))进行了创新的深入的自我监督机制。首先,多任务自我监督的自动编码器旨在在两个借口任务的支持下揭示功能之间的隐藏结构。在来自多自制的学习模型的集成信息的指导下,批处理注意机制旨在根据基于批处理的特征选择模式产生特征权重,以减轻少数嘈杂数据引入的影响。将此方法与14个主要强大基准进行了比较,包括LightGBM和XGBoost。实验结果表明,A-SFS在大多数数据集中达到了最高的精度。此外,这种设计大大降低了对标签的依赖,仅需1/10个标记的数据即可达到与那些先进的基线相同的性能。结果表明,A-SFS对于嘈杂和缺少数据也是最强大的。
translated by 谷歌翻译
联合学习(FL)使数据所有者能够在不共享其私人数据的情况下训练共享的全球模型。不幸的是,FL容易受到固有的公平问题的影响:由于客户数据分布的异质性,最终训练的模型可以在参与的客户中给予不成比例的优势。在这项工作中,我们提出了平等且公平的联合学习(E2FL),以同时保留两个主要公平属性,公平性和平等,从而产生公平的联合学习模型。我们验证了E2FL在不同现实世界中的应用程序中的效率和公平性,并表明E2FL在所有个人客户中的效率,不同群体的公平性以及公平性方面优于现有基准。
translated by 谷歌翻译
大多数机器学习算法由一个或多个超参数配置,必须仔细选择并且通常会影响性能。为避免耗时和不可递销的手动试验和错误过程来查找性能良好的超参数配置,可以采用各种自动超参数优化(HPO)方法,例如,基于监督机器学习的重新采样误差估计。本文介绍了HPO后,本文审查了重要的HPO方法,如网格或随机搜索,进化算法,贝叶斯优化,超带和赛车。它给出了关于进行HPO的重要选择的实用建议,包括HPO算法本身,性能评估,如何将HPO与ML管道,运行时改进和并行化结合起来。这项工作伴随着附录,其中包含关于R和Python的特定软件包的信息,以及用于特定学习算法的信息和推荐的超参数搜索空间。我们还提供笔记本电脑,这些笔记本展示了这项工作的概念作为补充文件。
translated by 谷歌翻译
如今,人工智能(AI)已成为临床和远程医疗保健应用程序的基本组成部分,但是最佳性能的AI系统通常太复杂了,无法自我解释。可解释的AI(XAI)技术被定义为揭示系统的预测和决策背后的推理,并且在处理敏感和个人健康数据时,它们变得更加至关重要。值得注意的是,XAI并未在不同的研究领域和数据类型中引起相同的关注,尤其是在医疗保健领域。特别是,许多临床和远程健康应用程序分别基于表格和时间序列数据,而XAI并未在这些数据类型上进行分析,而计算机视觉和自然语言处理(NLP)是参考应用程序。为了提供最适合医疗领域表格和时间序列数据的XAI方法的概述,本文提供了过去5年中文献的审查,说明了生成的解释的类型以及为评估其相关性所提供的努力和质量。具体而言,我们确定临床验证,一致性评估,客观和标准化质量评估以及以人为本的质量评估作为确保最终用户有效解释的关键特征。最后,我们强调了该领域的主要研究挑战以及现有XAI方法的局限性。
translated by 谷歌翻译
异构表格数据是最常用的数据形式,对于众多关键和计算要求的应用程序至关重要。在同质数据集上,深度神经网络反复显示出卓越的性能,因此被广泛采用。但是,它们适应了推理或数据生成任务的表格数据仍然具有挑战性。为了促进该领域的进一步进展,这项工作概述了表格数据的最新深度学习方法。我们将这些方法分为三组:数据转换,专业体系结构和正则化模型。对于每个小组,我们的工作提供了主要方法的全面概述。此外,我们讨论了生成表格数据的深度学习方法,并且还提供了有关解释对表格数据的深层模型的策略的概述。因此,我们的第一个贡献是解决上述领域中的主要研究流和现有方法,同时强调相关的挑战和开放研究问题。我们的第二个贡献是在传统的机器学习方法中提供经验比较,并在五个流行的现实世界中的十种深度学习方法中,具有不同规模和不同的学习目标的经验比较。我们已将作为竞争性基准公开提供的结果表明,基于梯度增强的树合奏的算法仍然大多在监督学习任务上超过了深度学习模型,这表明对表格数据的竞争性深度学习模型的研究进度停滞不前。据我们所知,这是对表格数据深度学习方法的第一个深入概述。因此,这项工作可以成为有价值的起点,以指导对使用表格数据深入学习感兴趣的研究人员和从业人员。
translated by 谷歌翻译
As the societal impact of Deep Neural Networks (DNNs) grows, the goals for advancing DNNs become more complex and diverse, ranging from improving a conventional model accuracy metric to infusing advanced human virtues such as fairness, accountability, transparency (FaccT), and unbiasedness. Recently, techniques in Explainable Artificial Intelligence (XAI) are attracting considerable attention, and have tremendously helped Machine Learning (ML) engineers in understanding AI models. However, at the same time, we started to witness the emerging need beyond XAI among AI communities; based on the insights learned from XAI, how can we better empower ML engineers in steering their DNNs so that the model's reasonableness and performance can be improved as intended? This article provides a timely and extensive literature overview of the field Explanation-Guided Learning (EGL), a domain of techniques that steer the DNNs' reasoning process by adding regularization, supervision, or intervention on model explanations. In doing so, we first provide a formal definition of EGL and its general learning paradigm. Secondly, an overview of the key factors for EGL evaluation, as well as summarization and categorization of existing evaluation procedures and metrics for EGL are provided. Finally, the current and potential future application areas and directions of EGL are discussed, and an extensive experimental study is presented aiming at providing comprehensive comparative studies among existing EGL models in various popular application domains, such as Computer Vision (CV) and Natural Language Processing (NLP) domains.
translated by 谷歌翻译
在新颖的类发现(NCD)中,目标是在一个未标记的集合中找到新的类,并给定一组已知但不同的类别。尽管NCD最近引起了社区的关注,但尽管非常普遍的数据表示,但尚未提出异质表格数据的框架。在本文中,我们提出了TabularNCD,这是一种在表格数据中发现新类别的新方法。我们展示了一种从已知类别中提取知识的方法,以指导包含异质变量的表格数据中新型类的发现过程。该过程的一部分是通过定义伪标签的新方法来完成的,我们遵循多任务学习中的最新发现以优化关节目标函数。我们的方法表明,NCD不仅适用于图像,而且适用于异质表格数据。进行了广泛的实验,以评估我们的方法并证明其对7种不同公共分类数据集的3个竞争对手的有效性。
translated by 谷歌翻译
背景:基于AI的足够大型,精心策划的医疗数据集的分析已被证明有望提供早期检测,更快的诊断,更好的决策和更有效的治疗方法。但是,从多种来源获得的如此高度机密且非常敏感的医疗数据通常受到高度限制,因为不当使用,不安全的存储,数据泄漏或滥用可能侵犯了一个人的隐私。在这项工作中,我们将联合学习范式应用于异质的,孤立的高清心电图集,该图从12铅的ECG传感器阵列到达来训练AI模型。与在中心位置收集相同的数据时,我们评估了所得模型的能力,与经过训练的最新模型相比,获得了等效性能。方法:我们提出了一种基于联合学习范式训练AI模型的隐私方法,以培训AI模型,以实现异质,分布式,数据集。该方法应用于基于梯度增强,卷积神经网络和具有长期短期记忆的复发神经网络的广泛机器学习技术。这些模型在一个心电图数据集上进行了培训,该数据集包含从六名地理分开和异质来源的43,059名患者收集的12个铅录音。研究结果:用于检测心血管异常的AI模型的结果集获得了与使用集中学习方法训练的模型相当的预测性能。解释:计算参数的方法在本地为全局模型做出了贡献,然后仅交换此类参数,而不是ML中的整个敏感数据,这有助于保留医疗数据隐私。
translated by 谷歌翻译
在过去几十年中,功能选择吸引了很多关注,因为它可以降低数据维度,同时保持功能的原始物理含义,这比功能提取可以更好地解释性。但是,大多数现有的功能选择方法,尤其是基于深度学习的方法,通常集中在仅具有很高分数的功能上,但忽略了那些在训练过程中得分较低的人以及重要的候选功能的顺序。这可能是有风险的,因为不幸的是,在培训过程中可能会忽略一些重要和相关的功能,从而导致次优的解决方案或误导性选择。在我们的工作中,我们通过利用较少重要性分数的功能来处理功能选择,并根据新颖的互补功能掩码提出功能选择框架。我们的方法是通用的,可以轻松地集成到现有的基于深度学习的特征选择方法中,以提高其性能。实验是在基准数据集上进行的,并表明所提出的方法可以选择比艺术状态更具代表性和信息性的特征。
translated by 谷歌翻译
我们解决了分类中群体公平的问题,目的是学习不会不公正地歧视人口亚组的模型。大多数现有方法仅限于简单的二进制任务或涉及难以实施培训机制。这降低了他们的实际适用性。在本文中,我们提出了Fairgrad,这是一种基于重新加权方案来实施公平性的方法,该计划根据是否有优势地迭代地学习特定权重。Fairgrad易于实施,可以适应各种标准公平定义。此外,我们表明它与各种数据集的标准基线相媲美,包括自然语言处理和计算机视觉中使用的数据集。
translated by 谷歌翻译
通过更换繁琐的手动收集地面真理标签,聚合多个弱监管源(WS)可以缓解多种机器学习应用中的数据标记瓶颈。然而,当前的现有技术不使用任何标记的训练数据的方法需要两个单独的建模步骤:基于WS源的基于WS源的概率潜在变量模型 - 使得在实践中很少 - 之后是下游模型训练。重要的是,建模的第一步不考虑下游模型的性能。为了解决这些警告,我们提出了一种直接学习下游模​​型的端到端方法,通过将其与先前概率后海报的概率标签最大化来直接学习下游模​​型。我们的结果表明,在下游测试集的最终模型性能方面,以及改善弱势监督源之间的依赖性的鲁棒性方面,对先前的工作进行了改进的性能。
translated by 谷歌翻译
可解释的人工智能(XAI)的新兴领域旨在为当今强大但不透明的深度学习模型带来透明度。尽管本地XAI方法以归因图的形式解释了个体预测,从而确定了重要特征的发生位置(但没有提供有关其代表的信息),但全局解释技术可视化模型通常学会的编码的概念。因此,两种方法仅提供部分见解,并留下将模型推理解释的负担。只有少数当代技术旨在将本地和全球XAI背后的原则结合起来,以获取更多信息的解释。但是,这些方法通常仅限于特定的模型体系结构,或对培训制度或数据和标签可用性施加其他要求,这实际上使事后应用程序成为任意预训练的模型。在这项工作中,我们介绍了概念相关性传播方法(CRP)方法,该方法结合了XAI的本地和全球观点,因此允许回答“何处”和“ where”和“什么”问题,而没有其他约束。我们进一步介绍了相关性最大化的原则,以根据模型对模型的有用性找到代表性的示例。因此,我们提高了对激活最大化及其局限性的共同实践的依赖。我们证明了我们方法在各种环境中的能力,展示了概念相关性传播和相关性最大化导致了更加可解释的解释,并通过概念图表,概念组成分析和概念集合和概念子区和概念子区和概念子集和定量研究对模型的表示和推理提供了深刻的见解。它们在细粒度决策中的作用。
translated by 谷歌翻译
差异隐私(DP)提供了正式的隐私保证,以防止对手可以访问机器学习模型,从而从提取有关单个培训点的信息。最受欢迎的DP训练方法是差异私有随机梯度下降(DP-SGD),它通过在训练过程中注入噪声来实现这种保护。然而,以前的工作发现,DP-SGD通常会导致标准图像分类基准的性能显着降解。此外,一些作者假设DP-SGD在大型模型上固有地表现不佳,因为保留隐私所需的噪声规范与模型维度成正比。相反,我们证明了过度参数化模型上的DP-SGD可以比以前想象的要好得多。将仔细的超参数调整与简单技术结合起来,以确保信号传播并提高收敛速率,我们获得了新的SOTA,而没有额外数据的CIFAR-10,在81.4%的81.4%下(8,10^{ - 5}) - 使用40 -layer wide-Resnet,比以前的SOTA提高了71.7%。当对预训练的NFNET-F3进行微调时,我们在ImageNet(0.5,8*10^{ - 7})下达到了83.8%的TOP-1精度。此外,我们还在(8,8 \ cdot 10^{ - 7})下达到了86.7%的TOP-1精度,DP仅比当前的非私人SOTA仅4.3%。我们认为,我们的结果是缩小私人图像分类和非私有图像分类之间准确性差距的重要一步。
translated by 谷歌翻译
This paper presents a novel technique based on gradient boosting to train the final layers of a neural network (NN). Gradient boosting is an additive expansion algorithm in which a series of models are trained sequentially to approximate a given function. A neural network can also be seen as an additive expansion where the scalar product of the responses of the last hidden layer and its weights provide the final output of the network. Instead of training the network as a whole, the proposed algorithm trains the network sequentially in $T$ steps. First, the bias term of the network is initialized with a constant approximation that minimizes the average loss of the data. Then, at each step, a portion of the network, composed of $J$ neurons, is trained to approximate the pseudo-residuals on the training data computed from the previous iterations. Finally, the $T$ partial models and bias are integrated as a single NN with $T \times J$ neurons in the hidden layer. Extensive experiments in classification and regression tasks, as well as in combination with deep neural networks, are carried out showing a competitive generalization performance with respect to neural networks trained with different standard solvers, such as Adam, L-BFGS, SGD and deep models. Furthermore, we show that the proposed method design permits to switch off a number of hidden units during test (the units that were last trained) without a significant reduction of its generalization ability. This permits the adaptation of the model to different classification speed requirements on the fly.
translated by 谷歌翻译
最近,深度神经网络在各种分类和模式识别任务方面取得了出色的预测性能。然而,许多真实的预测问题具有序序变量,并且通过传统的分类损耗(例如多类交叉熵)忽略该订单信息。深神经网络的序数回归方法解决了这一点。一种这样的方法是基于早期二进制标签扩展框架的珊瑚方法,并通过强加重量共享约束来实现其输出层任务之间的等级一致性。然而,虽然早期的实验表明,珊瑚的等级一致性是有益的性能,但重量分享限制可能严重限制深神经网络的表现力。在本文中,我们提出了一种替代方法,用于秩一致的序数回归,其不需要在神经网络的完全连接的输出层中的权重共享约束。我们通过使用条件培训集实现这一级别一致性,通过将链规则应用于条件概率分布来获得无条件等级概率。各种数据集的实验证明了所提出的方法利用序数目标信息的功效,并且没有重量分担限制的情况会提高与珊瑚参考方法相比的性能。
translated by 谷歌翻译
Explainability has been widely stated as a cornerstone of the responsible and trustworthy use of machine learning models. With the ubiquitous use of Deep Neural Network (DNN) models expanding to risk-sensitive and safety-critical domains, many methods have been proposed to explain the decisions of these models. Recent years have also seen concerted efforts that have shown how such explanations can be distorted (attacked) by minor input perturbations. While there have been many surveys that review explainability methods themselves, there has been no effort hitherto to assimilate the different methods and metrics proposed to study the robustness of explanations of DNN models. In this work, we present a comprehensive survey of methods that study, understand, attack, and defend explanations of DNN models. We also present a detailed review of different metrics used to evaluate explanation methods, as well as describe attributional attack and defense methods. We conclude with lessons and take-aways for the community towards ensuring robust explanations of DNN model predictions.
translated by 谷歌翻译