Covid-19的早期检测是一个持续的研究领域,可以帮助潜在患者的潜在患者进行分类,监测和一般健康评估,并可能降低应对冠状病毒大流行病的医院的运营压力。在文献中使用了不同的机器学习技术,用于使用常规临床数据(血液测试和生命体征)来检测冠状病毒。使用这些型号时,数据漏洞和信息泄漏可以带来声誉损害并导致医院的法律问题。尽管如此,保护避免潜在敏感信息泄漏的医疗保健模型是一个被人吸引人的研究区。在这项工作中,我们检查了两种机器学习方法,旨在预测使用常规收集和易于使用的临床数据的患者的Covid-19状态。我们雇用对抗性培训来探索强大的深度学习架构,保护与有关患者的人口统计信息相关的属性。我们在这项工作中检查的两种模型旨在保持对抗对抗攻击和信息泄漏的敏感信息。在一系列使用来自牛津大学医院的数据集,Bedfordshire医院NHS Foundation Trust,大学医院伯明翰NHS基金会信托,而朴茨茅斯医院大学NHS信任我们训练并测试两个神经网络,以使用来自基本实验室血液的信息预测PCR测试结果的神经网络对患者到达医院的测试和生命体征。我们评估其每个模型的隐私水平可以提供和展示我们提出的架构对可比基线的效力和稳健性。我们的主要贡献之一是,我们专门针对具有内置机制的有效Covid-19检测模型的开发,以便选择性地保护对抗对抗攻击的敏感属性。
translated by 谷歌翻译
受益于医疗保健数据的数字化和计算能力的发展,机器学习方法越来越多地用于医疗领域。在医疗保健机器学习中已经确定了公平性问题,导致对有限医疗资源的不公平分配或某些群体的健康风险过多。因此,解决公平问题最近引起了医疗保健社区的越来越多的关注。然而,机器学习的机器学习与机器学习中的公平性的交集仍在研究中。在这篇综述中,我们通过暴露公平问题,总结可能的偏见,整理缓解方法并指出挑战以及未来的机会来建立桥梁。
translated by 谷歌翻译
合成健康数据在共享数据以支持生物医学研究和创新医疗保健应用的发展时有可能减轻隐私问题。基于机器学习,尤其是生成对抗网络(GAN)方法的现代方法生成的现代方法继续发展并表现出巨大的潜力。然而,缺乏系统的评估框架来基准测试方法,并确定哪些方法最合适。在这项工作中,我们引入了一个可推广的基准测试框架,以评估综合健康数据的关键特征在实用性和隐私指标方面。我们将框架应用框架来评估来自两个大型学术医疗中心的电子健康记录(EHRS)数据的合成数据生成方法。结果表明,共享合成EHR数据存在公用事业私人关系权衡。结果进一步表明,在每个用例中,在所有标准上都没有明确的方法是最好的,这使得为什么需要在上下文中评估合成数据生成方法。
translated by 谷歌翻译
Collaborative machine learning and related techniques such as federated learning allow multiple participants, each with his own training dataset, to build a joint model by training locally and periodically exchanging model updates. We demonstrate that these updates leak unintended information about participants' training data and develop passive and active inference attacks to exploit this leakage. First, we show that an adversarial participant can infer the presence of exact data points-for example, specific locations-in others' training data (i.e., membership inference). Then, we show how this adversary can infer properties that hold only for a subset of the training data and are independent of the properties that the joint model aims to capture. For example, he can infer when a specific person first appears in the photos used to train a binary gender classifier. We evaluate our attacks on a variety of tasks, datasets, and learning configurations, analyze their limitations, and discuss possible defenses.
translated by 谷歌翻译
结合神经网络是一种长期的技术,可以通过委员会决定通过将网络与正交性结合到正交属性来改善神经网络的概括错误。我们表明,该技术非常适合在医疗数据上进行机器学习:首先,合奏可以平行和异步学习,从而有效地培训患者特定的组件神经网络。其次,基于选择不相关的患者特定网络来最大程度地减少概括错误的想法,我们表明可以建立一些选定的特定于患者特定模型的合奏,以优于在更大的合并数据集中训练的单个模型。第三,非著作集合组合步骤是一个最佳的低维入口点,用于应用输出扰动以确保患者特定的网络的隐私。我们使用临床专家标记的现实生活中的重症监护病房数据来体现差异私人合奏在败血症早期预测任务上的框架。
translated by 谷歌翻译
协作过滤算法捕获了基本的消费模式,包括特定的特定人口统计信息或用户的受保护信息,例如性别,种族和位置。这些编码的偏见可以影响推荐系统(RS)的决策,以进一步分离提供给各种人口统计亚组的内容,并提出有关披露用户受保护属性的隐私问题。在这项工作中,我们研究了从RS算法的学习交互表示中删除用户特定保护信息的可能性和挑战,同时保持其有效性。具体而言,我们将对抗性训练纳入最先进的多体架构中,从而产生了一种新颖的模型,具有多项式可能性(Adv-Multvae)的对抗性变异自动编码器(Adv-Multvae),旨在消除在保存受保护属性的隐含信息的同时建议性能。我们对Movielens-1M和LFM-2B - demobias数据集进行了实验,并根据外部攻击者无法揭示模型中用户的性别信息来评估偏差缓解方法的有效性。与基线多腔相比,结果表明,adv-multvae的性能边缘恶化(W.R.T. NDCG和召回),在两个数据集中都大大减轻了模型中固有的偏见。
translated by 谷歌翻译
Electronic Health Records (EHRs) are a valuable asset to facilitate clinical research and point of care applications; however, many challenges such as data privacy concerns impede its optimal utilization. Deep generative models, particularly, Generative Adversarial Networks (GANs) show great promise in generating synthetic EHR data by learning underlying data distributions while achieving excellent performance and addressing these challenges. This work aims to review the major developments in various applications of GANs for EHRs and provides an overview of the proposed methodologies. For this purpose, we combine perspectives from healthcare applications and machine learning techniques in terms of source datasets and the fidelity and privacy evaluation of the generated synthetic datasets. We also compile a list of the metrics and datasets used by the reviewed works, which can be utilized as benchmarks for future research in the field. We conclude by discussing challenges in GANs for EHRs development and proposing recommended practices. We hope that this work motivates novel research development directions in the intersection of healthcare and machine learning.
translated by 谷歌翻译
A distribution inference attack aims to infer statistical properties of data used to train machine learning models. These attacks are sometimes surprisingly potent, but the factors that impact distribution inference risk are not well understood and demonstrated attacks often rely on strong and unrealistic assumptions such as full knowledge of training environments even in supposedly black-box threat scenarios. To improve understanding of distribution inference risks, we develop a new black-box attack that even outperforms the best known white-box attack in most settings. Using this new attack, we evaluate distribution inference risk while relaxing a variety of assumptions about the adversary's knowledge under black-box access, like known model architectures and label-only access. Finally, we evaluate the effectiveness of previously proposed defenses and introduce new defenses. We find that although noise-based defenses appear to be ineffective, a simple re-sampling defense can be highly effective. Code is available at https://github.com/iamgroot42/dissecting_distribution_inference
translated by 谷歌翻译
在培训机器学习模型期间,它们可能会存储或“了解”有关培训数据的更多信息,而不是预测或分类任务所需的信息。属性推理攻击旨在从给定模型的培训数据中提取统计属性,而无需访问培训数据本身,从而利用了这一点。这些属性可能包括图片的质量,以识别相机模型,以揭示产品的目标受众的年龄分布或在计算机网络中使用恶意软件攻击的随附的主机类型。当攻击者可以访问所有模型参数时,即在白色盒子方案中,此攻击尤其准确。通过捍卫此类攻击,模型所有者可以确保其培训数据,相关的属性以及其知识产权保持私密,即使他们故意共享自己的模型,例如协作培训或模型泄漏。在本文中,我们介绍了属性,这是针对白盒属性推理攻击的有效防御机制,独立于培训数据类型,模型任务或属性数量。属性通过系统地更改目标模型的训练的权重和偏见来减轻属性推理攻击,从而使对手无法提取所选属性。我们在三个不同的数据集(包括表格数据和图像数据)以及两种类型的人工神经网络(包括人造神经网络)上进行了经验评估属性。我们的研究结果表明,以良好的隐私性权衡取舍,可以保护机器学习模型免受财产推理攻击的侵害,既有效又可靠。此外,我们的方法表明该机制也有效地取消了多个特性。
translated by 谷歌翻译
Speech-centric machine learning systems have revolutionized many leading domains ranging from transportation and healthcare to education and defense, profoundly changing how people live, work, and interact with each other. However, recent studies have demonstrated that many speech-centric ML systems may need to be considered more trustworthy for broader deployment. Specifically, concerns over privacy breaches, discriminating performance, and vulnerability to adversarial attacks have all been discovered in ML research fields. In order to address the above challenges and risks, a significant number of efforts have been made to ensure these ML systems are trustworthy, especially private, safe, and fair. In this paper, we conduct the first comprehensive survey on speech-centric trustworthy ML topics related to privacy, safety, and fairness. In addition to serving as a summary report for the research community, we point out several promising future research directions to inspire the researchers who wish to explore further in this area.
translated by 谷歌翻译
为了减轻模型中不希望的偏差的影响,几种方法建议预先处理输入数据集,以通过防止敏感属性的推断来减少歧视风险。不幸的是,这些预处理方法中的大多数导致一代新分布与原始分布有很大不同,因此通常导致不切实际的数据。作为副作用,这种新的数据分布意味着需要重新训练现有模型才能做出准确的预测。为了解决这个问题,我们提出了一种新颖的预处理方法,我们将根据保护组的分布转换为所选目标一个,并具有附加的隐私约束,其目的是防止敏感敏感的推断属性。更确切地说,我们利用Wasserstein Gan和Attgan框架的最新作品来实现数据点的最佳运输以及强制保护属性推断的歧视器。我们提出的方法可以保留数据的可解释性,并且可以在不定义敏感组的情况下使用。此外,我们的方法可以专门建模现有的最新方法,从而提出对这些方法的统一观点。最后,关于真实和合成数据集的一些实验表明,我们的方法能够隐藏敏感属性,同时限制数据的变形并改善了后续数据分析任务的公平性。
translated by 谷歌翻译
从公共机器学习(ML)模型中泄漏数据是一个越来越重要的领域,因为ML的商业和政府应用可以利用多个数据源,可能包括用户和客户的敏感数据。我们对几个方面的当代进步进行了全面的调查,涵盖了非自愿数据泄漏,这对ML模型很自然,潜在的恶毒泄漏是由隐私攻击引起的,以及目前可用的防御机制。我们专注于推理时间泄漏,这是公开可用模型的最可能场景。我们首先在不同的数据,任务和模型体系结构的背景下讨论什么是泄漏。然后,我们提出了跨非自愿和恶意泄漏的分类法,可用的防御措施,然后进行当前可用的评估指标和应用。我们以杰出的挑战和开放性的问题结束,概述了一些有希望的未来研究方向。
translated by 谷歌翻译
在急诊室(ER)环境中,中风分类或筛查是一个普遍的挑战。由于MRI的慢速吞吐量和高成本,通常会进行快速CT而不是MRI。在此过程中通常提到临床测试,但误诊率仍然很高。我们提出了一个新型的多模式深度学习框架,深沉的中风,以通过识别较小的面部肌肉不协调的模式来实现计算机辅助中风的存在评估,并使怀疑急性环境中的中风的患者无能为力。我们提出的深雷克斯(Deepstroke)在中风分流器中容易获得一分钟的面部视频数据和音频数据,用于局部面部瘫痪检测和全球语音障碍分析。采用了转移学习来减少面部侵蚀偏见并提高普遍性。我们利用多模式的横向融合来结合低水平和高级特征,并为关节训练提供相互正则化。引入了新型的对抗训练以获得无身份和中风的特征。与实际急诊室患者进行的视频ADIO数据集进行的实验表明,与分类团队和ER医生相比,中风的表现要优于最先进的模型,并且取得更好的性能,比传统的敏感性高出10.94%,高7.37%的精度高出7.37%。当特异性对齐时,中风分类。同时,每个评估都可以在不到六分钟的时间内完成,这表明该框架的临床翻译潜力很大。
translated by 谷歌翻译
公平性是一个标准,重点是评估不同人口组的算法性能,它引起了自然语言处理,推荐系统和面部识别的关注。由于医学图像样本中有很多人口统计学属性,因此了解公平的概念,熟悉不公平的缓解技术,评估算法的公平程度并认识到医疗图像分析(媒体)中的公平问题中的挑战很重要。在本文中,我们首先给出了公平性的全面和精确的定义,然后通过在媒体中引入当前使用的技术中使用的技术。之后,我们列出了包含人口统计属性的公共医疗图像数据集,以促进公平研究并总结有关媒体公平性的当前算法。为了帮助更好地理解公平性,并引起人们对媒体中与公平性有关的问题的关注,进行了实验,比较公平性和数据失衡之间的差异,验证各种媒体任务中不公平的存在,尤其是在分类,细分和检测以及评估不公平缓解算法的有效性。最后,我们以媒体公平性的机会和挑战得出结论。
translated by 谷歌翻译
Deep neural networks are susceptible to various inference attacks as they remember information about their training data. We design white-box inference attacks to perform a comprehensive privacy analysis of deep learning models. We measure the privacy leakage through parameters of fully trained models as well as the parameter updates of models during training. We design inference algorithms for both centralized and federated learning, with respect to passive and active inference attackers, and assuming different adversary prior knowledge.We evaluate our novel white-box membership inference attacks against deep learning algorithms to trace their training data records. We show that a straightforward extension of the known black-box attacks to the white-box setting (through analyzing the outputs of activation functions) is ineffective. We therefore design new algorithms tailored to the white-box setting by exploiting the privacy vulnerabilities of the stochastic gradient descent algorithm, which is the algorithm used to train deep neural networks. We investigate the reasons why deep learning models may leak information about their training data. We then show that even well-generalized models are significantly susceptible to white-box membership inference attacks, by analyzing stateof-the-art pre-trained and publicly available models for the CIFAR dataset. We also show how adversarial participants, in the federated learning setting, can successfully run active membership inference attacks against other participants, even when the global model achieves high prediction accuracies.
translated by 谷歌翻译
近年来,关于如何在公平限制下学习机器学习模型的越来越多的工作,通常在某些敏感属性方面表达。在这项工作中,我们考虑了对手对目标模型具有黑箱访问的设置,并表明对手可以利用有关该模型公平性的信息,以增强他对训练数据敏感属性的重建。更确切地说,我们提出了一种通用的重建校正方法,该方法将其作为对手进行的初始猜测,并纠正它以符合某些用户定义的约束(例如公平信息),同时最大程度地减少了对手猜测的变化。提出的方法对目标模型的类型,公平感知的学习方法以及对手的辅助知识不可知。为了评估我们的方法的适用性,我们对两种最先进的公平学习方法进行了彻底的实验评估,使用四个具有广泛公差的不同公平指标以及三个不同大小和敏感属性的数据集。实验结果证明了提出的方法改善训练集敏感属性的重建的有效性。
translated by 谷歌翻译
分发推断,有时称为财产推断,Infers关于从访问该数据训练的模型设置的训练的统计属性。分发推理攻击可能会在私人数据培训培训时构成严重风险,但难以从统计机器学习的内在目的区分 - 即生产捕获统计特性的模型。 yeom等人的推导框架的动机,我们提出了一般的主要定义,这足以描述区分可能训练分布的广泛攻击。我们展示了我们的定义如何捕获基于比率的属性推论攻击以及新类型的攻击,包括揭示训练图的平均节点度或聚类系数。为了理解分发推理风险,我们介绍了一种量化,通过将观察到的泄漏与泄漏直接提供给对手的样本来进行泄漏来介绍观察到的泄漏。我们在一系列不同的发行版中报告了一系列不同的分布,并使用全新的黑匣子攻击和最先进的白盒攻击版本。我们的研究结果表明,廉价的攻击往往与昂贵的元分类器攻击一样有效,并且攻击有效性令人惊讶的不对称。
translated by 谷歌翻译
A significant level of stigma and inequality exists in mental healthcare, especially in under-served populations, which spreads through collected data. When not properly accounted for, machine learning (ML) models learned from data can reinforce the structural biases already present in society. Here, we present a systematic study of bias in ML models designed to predict depression in four different case studies covering different countries and populations. We find that standard ML approaches show regularly biased behaviors. However, we show that standard mitigation techniques, and our own post-hoc method, can be effective in reducing the level of unfair bias. We provide practical recommendations to develop ML models for depression risk prediction with increased fairness and trust in the real world. No single best ML model for depression prediction provides equality of outcomes. This emphasizes the importance of analyzing fairness during model selection and transparent reporting about the impact of debiasing interventions.
translated by 谷歌翻译
模型说明为训练有素的机器学习模型的黑框行为提供了透明度,向模型构建器提供了透明度。它们表明了不同输入属性对其相应模型预测的影响。对输入的解释的依赖性引发了敏感用户数据的隐私问题。但是,当前文献对模型解释的隐私风险的讨论有限。我们专注于属性推理攻击的特定隐私风险,其中对手会在其模型解释的情况下侵犯输入的敏感属性(例如种族和性别)。我们在两个威胁模型中设计了针对模型解释的第一个属性推理攻击,其中模型构建器(a)都包含训练数据和输入中的敏感属性,或者((b)通过不在培训数据和输入中审查敏感属性。我们评估了对四个基准数据集和四种最先进算法的拟议攻击。我们表明,对手可以准确地从两个威胁模型中的解释中成功推断出敏感属性的价值。此外,即使仅利用与敏感属性相对应的解释,攻击也是成功的。这些表明,我们的攻击有效地反对解释,并对数据隐私构成了实际威胁。在将模型预测(通过先前攻击利用的攻击表面)与解释相结合时,我们注意到攻击成功并不能改善。此外,与仅利用模型预测相比,利用模型解释的攻击成功更好。这些表明模型解释是为对手开发的强大攻击表面。
translated by 谷歌翻译
住院患者的高血糖治疗对发病率和死亡率都有重大影响。这项研究使用了大型临床数据库来预测需要住院的糖尿病患者的需求,这可能会改善患者的安全性。但是,这些预测可能容易受到社会决定因素(例如种族,年龄和性别)造成的健康差异的影响。这些偏见必须在数据收集过程的早期,在进入系统之前就可以消除,并通过模型预测加强,从而导致模型决策的偏见。在本文中,我们提出了一条能够做出预测以及检测和减轻偏见的机器学习管道。该管道分析了临床数据,确定是否存在偏见,将其删除,然后做出预测。我们使用实验证明了模型预测中的分类准确性和公平性。结果表明,当我们在模型早期减轻偏见时,我们会得到更公平的预测。我们还发现,随着我们获得更好的公平性,我们牺牲了一定程度的准确性,这在先前的研究中也得到了验证。我们邀请研究界为确定可以通过本管道解决的其他因素做出贡献。
translated by 谷歌翻译