Medical treatments tailored to a patient's baseline characteristics hold the potential of improving patient outcomes while reducing negative side effects. Learning individualized treatment rules (ITRs) often requires aggregation of multiple datasets(sites); however, current ITR methodology does not take between-site heterogeneity into account, which can hurt model generalizability when deploying back to each site. To address this problem, we develop a method for individual-level meta-analysis of ITRs, which jointly learns site-specific ITRs while borrowing information about feature sign-coherency via a scientifically-motivated directionality principle. We also develop an adaptive procedure for model tuning, using information criteria tailored to the ITR learning problem. We study the proposed methods through numerical experiments to understand their performance under different levels of between-site heterogeneity and apply the methodology to estimate ITRs in a large multi-center database of electronic health records. This work extends several popular methodologies for estimating ITRs (A-learning, weighted learning) to the multiple-sites setting.
translated by 谷歌翻译
由于对个人医疗保健和大流行而越来越关注,E-Health的普及是增殖的。如今,通过机器学习模型对医学诊断的增强在电子健康分析的许多方面都非常有效。然而,在经典的基于云/集中的电子健康范式范式中,所有数据都将集中存储在服务器上,以促进模型培训,这不可避免地引发隐私问题和高延迟。提出了分布式解决方案,如分散的随机梯度下降(D-SGD),以基于个人设备提供安全和及时的诊断结果。然而,D-SGD等方法受梯度消失问题,通常在早期训练阶段缓慢进行,从而阻碍培训的有效性和效率。此外,现有方法容易发生偏向具有密集数据的用户的学习模型,在为少数群体提供电子健康分析时损害公平性。在本文中,我们提出了一个分散的块坐标血统(D-BCD)学习框架,可以更好地优化分布在用于电子健康分析的分散设备上的深度神经网络的模型。三个真实数据集的基准测试实验说明了我们提出的D-BCD的有效性和实用性,其中额外的仿真研究展示了D-BCD在现实生活中的强有力的适用性。
translated by 谷歌翻译
以前的工作主要侧重于改善NLU任务的交叉传输,具有多语言预用编码器(MPE),或提高与伯特的监督机器翻译的性能。然而,探索了,MPE是否可以有助于促进NMT模型的交叉传递性。在本文中,我们专注于NMT中的零射频转移任务。在此任务中,NMT模型培训,只有一个语言对的并行数据集和搁置架MPE,然后它直接测试在零拍语言对上。我们为此任务提出了Sixt,一个简单而有效的模型。 SIXT利用了两阶段培训计划利用MPE,并进一步改进了解离编码器和容量增强的解码器。使用此方法,SIMPT显着优于MBart,这是一个用于NMT的预磨削的多语言编码器解码器模型,平均改善了14个源语言的零拍摄的任何英语测试集上的7.1 BLEU。此外,培训计算成本和培训数据较少,我们的模型在15个任何英语测试组上实现了比Criss和M2M-100,两个强大的多语言NMT基线更好的性能。
translated by 谷歌翻译
Robustness evaluation against adversarial examples has become increasingly important to unveil the trustworthiness of the prevailing deep models in natural language processing (NLP). However, in contrast to the computer vision domain where the first-order projected gradient descent (PGD) is used as the benchmark approach to generate adversarial examples for robustness evaluation, there lacks a principled first-order gradient-based robustness evaluation framework in NLP. The emerging optimization challenges lie in 1) the discrete nature of textual inputs together with the strong coupling between the perturbation location and the actual content, and 2) the additional constraint that the perturbed text should be fluent and achieve a low perplexity under a language model. These challenges make the development of PGD-like NLP attacks difficult. To bridge the gap, we propose TextGrad, a new attack generator using gradient-driven optimization, supporting high-accuracy and high-quality assessment of adversarial robustness in NLP. Specifically, we address the aforementioned challenges in a unified optimization framework. And we develop an effective convex relaxation method to co-optimize the continuously-relaxed site selection and perturbation variables and leverage an effective sampling method to establish an accurate mapping from the continuous optimization variables to the discrete textual perturbations. Moreover, as a first-order attack generation method, TextGrad can be baked into adversarial training to further improve the robustness of NLP models. Extensive experiments are provided to demonstrate the effectiveness of TextGrad not only in attack generation for robustness evaluation but also in adversarial defense.
translated by 谷歌翻译
尽管促进机器学习(ML)公平的最新进展激增,但现有的主流方法主要需要培训或填充神经网络的整个权重以满足公平标准。但是,由于较大的计算和存储成本,低数据效率和模型隐私问题,对于那些大规模训练的模型来说,这通常是不可行的。在本文中,我们提出了一种称为FairreProgragr的新的通用公平学习范式,该范式结合了模型重编程技术。具体而言,Fairreprogrogram考虑了固定的神经模型,而是将输入一组扰动(称为公平触发器)附加到,该触发触发器在Min-Max公式下朝着公平标准调整为公平触发器。我们进一步介绍了一个信息理论框架,该框架解释了为什么以及在什么条件下,使用公平触发器可以实现公平目标。我们从理论和经验上都表明,公平触发器可以通过提供错误的人口统计信息来有效地掩盖固定ML模型的输出预测中的人口偏见,从而阻碍模型利用正确的人口统计信息来进行预测。对NLP和CV数据集进行的广泛实验表明,与在两个广泛使用的公平标准下,基于培训成本和数据依赖性的基于重新培训的方法相比,我们的方法可以实现更好的公平性改进。
translated by 谷歌翻译
机器学习(ML)算法在帮助不同学科和机构的科学社区解决大型和多样化的数据问题方面表现出了增长的趋势。但是,许多可用的ML工具在编程方面要求且计算成本高昂。 MlexChange项目旨在建立一个配备有能力工具的协作平台,该平台使科学家和设施使用者没有深刻的ML背景来使用ML和计算资源进行科学发现。在高水平上,我们针对完整的用户体验,在该体验中,可以通过Web应用程序可以轻松获得管理和交换ML算法,工作流和数据。到目前为止,我们已经构建了四个主要组件,即中央职位管理器,集中式内容注册表,用户门户和搜索引擎,并成功地将这些组件部署到了测试服务器上。由于每个组件都是一个独立的容器,因此可以轻松地在不同尺度的服务器上部署整个平台或其个人服务,从笔记本电脑(通常是单个用户)到高性能群集(HPC)(同时)通过许多用户。因此,MlexChange使用方案使灵活性变得灵活 - 用户可以从远程服务器访问服务和资源,也可以在其本地网络中运行整个平台或其个人服务。
translated by 谷歌翻译
在本文中,我们为不存在或无限的数据的方差提供了置信序列的扩展。置信序列提供的置信区间在任意数据依赖性停止时间时有效,自然具有广泛的应用。我们首先为有限方差案例的CATONI风格置信序列的宽度建立了一个下限,以突出现有结果的松动性。接下来,我们为数据分布提供了紧密的catoni风格的置信序列,该数据分布有一个放松的〜$ p^{th} - $ arment,其中〜$ p \ in(1,2] $,并加强了有限差异案例的结果〜$ p = 2 $。显示出比使用dubins-savage不等式获得的置信序列更好。
translated by 谷歌翻译
最佳子集选择被认为是许多稀疏学习问题的“黄金标准”。已经提出了各种优化技术来攻击这一非凸和NP障碍问题。在本文中,我们研究了$ \ ell_0 $登记的问题的双重形式。基于原始和双重问题结构已经开发了一种有效的原始偶对偶方法。通过利用双重范围估计以及增量策略,我们的算法可能会减少冗余计算并改善最佳子集选择的解决方案。关于合成和现实世界数据集的理论分析和实验验证了拟议溶液的效率和统计特性。
translated by 谷歌翻译
对抗性培训(AT)已成为一种广泛认可的防御机制,以提高深度神经网络对抗对抗攻击的鲁棒性。它解决了最小的最大优化问题,其中最小化器(即,后卫)寻求稳健的模型,以最小化由最大化器(即,攻击者)制成的对抗示例存在的最坏情况训练损失。然而,Min-Max的性质在计算密集并因此难以扩展。同时,快速算法,实际上,许多最近改进的算法,通过替换基于简单的单次梯度标志的攻击生成步骤来简化基于最大化步骤的最小值。虽然易于实施,快速缺乏理论保证,其实际表现可能是不令人满意的,患有强大的对手训练时的鲁棒性灾难性过度。在本文中,我们从双级优化(BLO)的角度来看,旨在快速设计。首先,首先进行关键观察,即快速at的最常用的算法规范等同于使用一些梯度下降型算法来解决涉及符号操作的双级问题。然而,标志操作的离散性使得难以理解算法的性能。基于上述观察,我们提出了一种新的遗传性双层优化问题,设计和分析了一组新的算法(快速蝙蝠)。 FAST-BAT能够捍卫基于符号的投影梯度下降(PGD)攻击,而无需调用任何渐变标志方法和明确的鲁棒正则化。此外,我们经验证明,通过在不诱导鲁棒性灾难性过度的情况下实现卓越的模型稳健性,或患有任何标准精度损失的稳健性,我们的方法优于最先进的快速基线。
translated by 谷歌翻译
Deep learning models can achieve high accuracy when trained on large amounts of labeled data. However, real-world scenarios often involve several challenges: Training data may become available in installments, may originate from multiple different domains, and may not contain labels for training. Certain settings, for instance medical applications, often involve further restrictions that prohibit retention of previously seen data due to privacy regulations. In this work, to address such challenges, we study unsupervised segmentation in continual learning scenarios that involve domain shift. To that end, we introduce GarDA (Generative Appearance Replay for continual Domain Adaptation), a generative-replay based approach that can adapt a segmentation model sequentially to new domains with unlabeled data. In contrast to single-step unsupervised domain adaptation (UDA), continual adaptation to a sequence of domains enables leveraging and consolidation of information from multiple domains. Unlike previous approaches in incremental UDA, our method does not require access to previously seen data, making it applicable in many practical scenarios. We evaluate GarDA on two datasets with different organs and modalities, where it substantially outperforms existing techniques.
translated by 谷歌翻译