AI生成的合成数据允许提炼现有数据的一般模式,然后可以在原始语义中安全地将其作为颗粒级代表性但新颖的数据样本共享。在这项工作中,我们探讨了将域专业知识纳入数据综合的方法,以表示统计属性以及预先存在的规则知识。可以为任何数量的新样本探测的生成的合成数据生成器,然后可以作为智力的共同来源,作为学习通用语言,由人类和机器都消耗。我们为公开数据集演示了该概念,并通过描述性分析以及下游ML模型评估其好处。
translated by 谷歌翻译
合成健康数据在共享数据以支持生物医学研究和创新医疗保健应用的发展时有可能减轻隐私问题。基于机器学习,尤其是生成对抗网络(GAN)方法的现代方法生成的现代方法继续发展并表现出巨大的潜力。然而,缺乏系统的评估框架来基准测试方法,并确定哪些方法最合适。在这项工作中,我们引入了一个可推广的基准测试框架,以评估综合健康数据的关键特征在实用性和隐私指标方面。我们将框架应用框架来评估来自两个大型学术医疗中心的电子健康记录(EHRS)数据的合成数据生成方法。结果表明,共享合成EHR数据存在公用事业私人关系权衡。结果进一步表明,在每个用例中,在所有标准上都没有明确的方法是最好的,这使得为什么需要在上下文中评估合成数据生成方法。
translated by 谷歌翻译
生成的对抗网络(GANS)正在增加对综合数据的手段的关注。到目前为止,这项工作已被应用于在数据机密域之外的用例,具有共同的应用程序作为人工图像的生产。在这里,我们考虑了GAN的潜在应用,以产生合成人口普查Microdata。我们使用电池电量和披露风险指标(目标正确的归因概率),以比较用使用正统数据合成方法生产的表格GAN产生的数据。
translated by 谷歌翻译
With the development of machine learning and data science, data sharing is very common between companies and research institutes to avoid data scarcity. However, sharing original datasets that contain private information can cause privacy leakage. A reliable solution is to utilize private synthetic datasets which preserve statistical information from original datasets. In this paper, we propose MC-GEN, a privacy-preserving synthetic data generation method under differential privacy guarantee for machine learning classification tasks. MC-GEN applies multi-level clustering and differential private generative model to improve the utility of synthetic data. In the experimental evaluation, we evaluated the effects of parameters and the effectiveness of MC-GEN. The results showed that MC-GEN can achieve significant effectiveness under certain privacy guarantees on multiple classification tasks. Moreover, we compare MC-GEN with three existing methods. The results showed that MC-GEN outperforms other methods in terms of utility.
translated by 谷歌翻译
机器学习模型可能涉及决策边界,这些界限由于对规则和规则的更新而随时间而变化,例如在贷款批准或索赔管理中。然而,在这种情况下,可能需要足够的训练数据来累积时的时间,以便重新恢复模型以反映新的决策边界。虽然已经完成了加强现有决策边界的工作,但已经介绍了ML模型的决策边界应该改变的这些方案,以便反映新规则。在本文中,我们专注于用户提供的反馈规则作为加快ML模型更新过程的方式,我们正式介绍预处理训练数据的问题,以响应于反馈规则,使得模型一旦模型在预处理的数据上被培训,其决策边界与规则更紧密地对齐。为了解决这个问题,我们提出了一种新的数据增强方法,基于反馈规则的过采样技术。使用不同ML模型和现实世界数据集的广泛实验证明了该方法的有效性,特别是增强的好处和处理许多反馈规则的能力。
translated by 谷歌翻译
机器学习模型的增加越来越多地提出了这些模型的可靠性问题。目前具有限制数据的测试实践通常不足。在本文中,我们为自动化测试数据合成提供了一种框架,以测试黑盒ML / DL型号。我们解决了利用模型不可知覆盖标准生成现实用户可控数据的重要挑战,以测试各种属性,基本上是增加对机器学习模型的信任。我们通过实验展示了我们技术的有效性。
translated by 谷歌翻译
We can protect user data privacy via many approaches, such as statistical transformation or generative models. However, each of them has critical drawbacks. On the one hand, creating a transformed data set using conventional techniques is highly time-consuming. On the other hand, in addition to long training phases, recent deep learning-based solutions require significant computational resources. In this paper, we propose PrivateSMOTE, a technique designed for competitive effectiveness in protecting cases at maximum risk of re-identification while requiring much less time and computational resources. It works by synthetic data generation via interpolation to obfuscate high-risk cases while minimizing data utility loss of the original data. Compared to multiple conventional and state-of-the-art privacy-preservation methods on 20 data sets, PrivateSMOTE demonstrates competitive results in re-identification risk. Also, it presents similar or higher predictive performance than the baselines, including generative adversarial networks and variational autoencoders, reducing their energy consumption and time requirements by a minimum factor of 9 and 12, respectively.
translated by 谷歌翻译
在个性化决策中,需要证据来确定诉讼(治疗)是否适合个人。可以通过对亚组中的治疗效应异质性进行建模来获得此类证据。现有的可解释的建模方法采用自上而下的方法来寻找具有异质治疗效果的亚组,它们可能会错过个人最具体和最相关的环境。在本文中,我们设计了\ emph {治疗效果模式(TEP)}来表示数据中的治疗效果异质性。为了实现TEP的可解释呈现,我们使用围绕结果的局部因果结构,以明确说明如何在建模中使用这些重要变量。我们还得出了一个公正估计\ emph {条件平均因果效应(CATE)}的公式,它使用我们的问题设置中的局部结构进行了估计。在发现过程中,我们旨在最大程度地减少以模式表示的每个子组中的异质性。我们提出了一种自下而上的搜索算法,以发现适合个性化决策的最具体情况的最特定模式。实验表明,所提出的方法模型治疗效果的异质性比合成和现实世界数据集中的其他三种基于树的方法更好。
translated by 谷歌翻译
在许多机器学习应用中已经显示了歧视,该应用程序要求在与道德相关的领域(例如面部识别,医学诊断和刑事判决)中部署之前进行足够的公平测试。现有的公平测试方法主要设计用于识别个人歧视,即对个人的歧视。然而,作为另一种广泛的歧视类型,对群体歧视(大多数隐藏)的测试却少得多。为了解决差距,在这项工作中,我们提出了测试,一种可解释的测试方法,它系统地识别和措施隐藏了一个神经网络的隐藏(我们称为“微妙”群体歧视},该神经网络的特征是敏感特征的条件。一个神经网络,TestsgDFirst自动生成可解释的规则集,该规则集将输入空间分为两组,以暴露模型的组歧视。鉴于,Testsgdalso提供了基于对输入空间进行采样的估计组公平得分,以衡量确定的SIXTEL组歧视程度,这可以确保准确地达到错误的限制。我们评估了在包括结构化数据和文本数据在内的流行数据集中训练的测试多个神经网络模型。实验结果表明,测试有效地有效地识别和测量了如此微妙的群体歧视,以至于该测试效率以前从未透露过。矿石,我们表明,测试的测试结果指南生成新样品的测试结果,以通过可忽略不计的准确性下降来减轻这种歧视。
translated by 谷歌翻译
接受差异隐私(DP)训练的生成模型可用于生成合成数据,同时最大程度地降低隐私风险。我们分析了DP对数据的影响不足的数据/子组的影响,特别是研究:1)合成数据中类/子组的大小和2)分类任务的准确性在其上运行。我们还评估了各种不平衡和隐私预算的影响。我们的分析使用了三种最先进的DP模型(Privbayes,DP-WGAN和PATE-GAN),并表明DP在生成的合成数据中产生相反的大小分布。它影响了多数族裔和少数族裔/亚组之间的差距;在某些情况下,通过减少它(一种“罗宾汉”效应),而在其他情况下则通过增加它(一种“马修”效应)。无论哪种方式,这都会导致(类似)对合成数据的分类任务准确性的(类似)不同的影响,从而更加不成比例地影响了代表性不足的数据。因此,当培训模型对合成数据时,可能会导致不均匀地处理不同亚群的风险,从而得出不可靠或不公平的结论。
translated by 谷歌翻译
差异化私有(DP)合成数据是一种最大化包含敏感信息数据的实用性的有前途的方法。但是,由于抑制了代表性不足的阶级,这些阶级通常需要实现隐私,因此,它可能与公平冲突。我们评估了四个DP合成器,并提出了经验结果,表明这些模型中的三个经常在下游二进制分类任务上降低公平性结果。我们在生成的合成数据中存在公平性与存在的少数群体比例之间建立联系,并发现通过多标签下采样方法预处理的数据训练合成器可以促进更公平的结果而不会降低准确性。
translated by 谷歌翻译
数据质量是发展医疗保健中值得信赖的AI的关键因素。大量具有控制混杂因素的策划数据集可以帮助提高下游AI算法的准确性,鲁棒性和隐私性。但是,访问高质量的数据集受数据获取的技术难度的限制,并且严格的道德限制阻碍了医疗保健数据的大规模共享。数据合成算法生成具有与真实临床数据相似的分布的数据,可以作为解决可信度AI的发展过程中缺乏优质数据的潜在解决方案。然而,最新的数据合成算法,尤其是深度学习算法,更多地集中于成像数据,同时忽略了非成像医疗保健数据的综合,包括临床测量,医疗信号和波形以及电子保健记录(EHRS)(EHRS) 。因此,在本文中,我们将回顾合成算法,尤其是对于非成像医学数据,目的是在该领域提供可信赖的AI。本教程风格的审查论文将对包括算法,评估,局限性和未来研究方向在内的各个方面进行全面描述。
translated by 谷歌翻译
由于决策越来越依赖机器学习和(大)数据,数据驱动AI系统的公平问题正在接受研究和行业的增加。已经提出了各种公平知识的机器学习解决方案,该解决方案提出了数据,学习算法和/或模型输出中的公平相关的干预措施。然而,提出新方法的重要组成部分正在经验上对其进行验证在代表现实和不同的设置的基准数据集上。因此,在本文中,我们概述了用于公平知识机器学习的真实数据集。我们专注于表格数据作为公平感知机器学习的最常见的数据表示。我们通过识别不同属性之间的关系,特别是w.r.t.来开始分析。受保护的属性和类属性,使用贝叶斯网络。为了更深入地了解数据集中的偏见和公平性,我们调查使用探索性分析的有趣关系。
translated by 谷歌翻译
机器学习的普及增加了不公平模型的风险,该模型被部署在高级应用程序中,例如司法系统,药物/疫苗接种设计和医学诊断。尽管有有效的方法可以从头开始训练公平模型,但如何自动揭示和解释受过训练的模型的不公平仍然是一项艰巨的任务。以可解释的方式揭示机器学习模型的不公平是朝着公平和值得信赖的AI迈出的关键一步。在本文中,我们系统地解决了通过挖掘可解释的证据(Rumie)来揭示不公平模型的新任务。关键思想是以一组模型区分的数据实例的形式找到可靠的证据。为了使证据可以解释,我们还找到了一组人为理解的关键属性和决策规则,这些属性和决策规则表征了歧视的数据实例,并将其与其他非歧视数据区分开来。正如在许多现实世界数据集上进行的广泛实验所证明的那样,我们的方法找到了高度可解释和可靠的证据,可以有效揭示受过训练的模型的不公平性。此外,它比所有基线方法更可扩展。
translated by 谷歌翻译
尽管在文本,图像和视频上生成的对抗网络(GAN)取得了显着的成功,但由于一些独特的挑战,例如捕获不平衡数据中的依赖性,因此仍在开发中,生成高质量的表格数据仍在开发中,从而优化了合成患者数据的质量。保留隐私。在本文中,我们提出了DP-CGAN,这是一个由数据转换,采样,条件和网络培训组成的差异私有条件GAN框架,以生成现实且具有隐私性的表格数据。 DP-Cgans区分分类和连续变量,并将它们分别转换为潜在空间。然后,我们将条件矢量构建为附加输入,不仅在不平衡数据中介绍少数族裔类,还可以捕获变量之间的依赖性。我们将统计噪声注入DP-CGAN的网络训练过程中的梯度,以提供差异隐私保证。我们通过统计相似性,机器学习绩效和隐私测量值在三个公共数据集和两个现实世界中的个人健康数据集上使用最先进的生成模型广泛评估了我们的模型。我们证明,我们的模型优于其他可比模型,尤其是在捕获变量之间的依赖性时。最后,我们在合成数据生成中介绍了数据实用性与隐私之间的平衡,考虑到现实世界数据集的不同数据结构和特征,例如不平衡变量,异常分布和数据的稀疏性。
translated by 谷歌翻译
Electronic Health Records (EHRs) are a valuable asset to facilitate clinical research and point of care applications; however, many challenges such as data privacy concerns impede its optimal utilization. Deep generative models, particularly, Generative Adversarial Networks (GANs) show great promise in generating synthetic EHR data by learning underlying data distributions while achieving excellent performance and addressing these challenges. This work aims to review the major developments in various applications of GANs for EHRs and provides an overview of the proposed methodologies. For this purpose, we combine perspectives from healthcare applications and machine learning techniques in terms of source datasets and the fidelity and privacy evaluation of the generated synthetic datasets. We also compile a list of the metrics and datasets used by the reviewed works, which can be utilized as benchmarks for future research in the field. We conclude by discussing challenges in GANs for EHRs development and proposing recommended practices. We hope that this work motivates novel research development directions in the intersection of healthcare and machine learning.
translated by 谷歌翻译
模型可以公开有关其培训数据的敏感信息。在属性推理攻击中,对手对某些培训记录有部分知识,并访问了对这些记录进行培训的模型,并渗透了这些记录敏感功能的未知值。我们研究了一种属性推理的细粒变体,我们称为\ emph {敏感值推理},其中对手的目标是高度置信度识别一些来自候选人集的记录,其中未知属性具有特定的敏感值。我们将属性推断与捕获培训分布统计数据的数据插补进行明确比较,该数据在对对手可用的培训数据的各种假设下进行了比较。我们的主要结论是:(1)以前的属性推理方法并没有比对手可以推断出有关训练数据的训练数据的更多信息,而无需访问训练的模型,而是对培训所需的基础分布相同的知识属性推理攻击; (2)Black-Box属性推理攻击很少学习没有模型的任何东西;但是(3)我们在论文中介绍和评估的白框攻击可以可靠地识别一些具有敏感值属性的记录,而这些记录在不访问模型的情况下无法预测。此外,我们表明提出的防御措施,例如私人培训和从培训中删除脆弱记录不会减轻这种隐私风险。我们的实验代码可在\ url {https://github.com/bargavj/evaluatingdpml}上获得。
translated by 谷歌翻译
保护私人信息是数据驱动的研究和业务环境中的关键问题。通常,引入匿名或(选择性)删除之类的技术,以允许数据共享,e。 G。在协作研究的情况下。为了与匿名技术一起使用,$ k $ - 匿名标准是最受欢迎的标准之一,具有许多有关不同算法和指标的科学出版物。匿名技术通常需要更改数据,因此必然会影响在基础数据上训练的机器学习模型的结果。在这项工作中,我们对不同的$ k $ - 匿名算法对机器学习模型结果的影响进行了系统的比较和详细研究。我们研究了与不同分类器的一组流行的$ K $匿名算法,并在不同的现实数据集上对其进行评估。我们的系统评估表明,凭借越来越强的$ K $匿名性约束,分类性能通常会降低,但在不同程度上,并且强烈取决于数据集和匿名方法。此外,蒙德里安可以被视为具有最具吸引力的后续分类属性的方法。
translated by 谷歌翻译
Individual-level data (microdata) that characterizes a population, is essential for studying many real-world problems. However, acquiring such data is not straightforward due to cost and privacy constraints, and access is often limited to aggregated data (macro data) sources. In this study, we examine synthetic data generation as a tool to extrapolate difficult-to-obtain high-resolution data by combining information from multiple easier-to-obtain lower-resolution data sources. In particular, we introduce a framework that uses a combination of univariate and multivariate frequency tables from a given target geographical location in combination with frequency tables from other auxiliary locations to generate synthetic microdata for individuals in the target location. Our method combines the estimation of a dependency graph and conditional probabilities from the target location with the use of a Gaussian copula to leverage the available information from the auxiliary locations. We perform extensive testing on two real-world datasets and demonstrate that our approach outperforms prior approaches in preserving the overall dependency structure of the data while also satisfying the constraints defined on the different variables.
translated by 谷歌翻译
鉴于大量的跨境流量,对行业的有效和有效控制对于保护人和社会免受非法行业的影响而在促进合法交易的同时变得更加重要。但是,交易级贸易数据集的有限可访问性阻碍了公开研究的进展,许多海关管理部门并未受益于基于数据的风险管理的最新进展。在本文中,我们介绍了一个进口声明数据集,以促进海关管理部门和数据科学研究人员领域专家之间的合作。该数据集包含54,000个具有22个关键属性的人为产生的交易,并且在维护相关功能的同时与CTGAN合成。合成数据具有多个优点。首先,释放数据集没有限制,这些限制不允许披露原始的导入数据。其次,制造步骤最大程度地减少了贸易统计中可能存在的身份风险。最后,已发布的数据遵循与源数据相似的分布,因此可以在各种下游任务中使用。通过提供数据及其生成过程,我们为欺诈检测任务打开基线代码,因为我们从经验上表明,更高级的算法可以更好地检测欺诈。
translated by 谷歌翻译