在过去的十年中,随着大数据技术的发展,越来越多的患者信息被存储为电子健康记录(EHRS)。利用这些数据,已经提出了各种医生建议系统。通常,此类研究以平坦结构的方式处理EHR数据,每次相遇都被视为一组无序的特征。然而,不得忽略索赔中存储的诸如服务序列之类的异质结构化信息。本文提出了一个医生推荐系统,并嵌入了时间,以使用异质图注意网络重建患者和医生之间的潜在联系。此外,为了解决患者数据共享交叉医院的隐私问题,还提出了一种基于最小化优化模型的联邦分散学习方法。基于图的推荐系统已在EHR数据集上进行了验证。与基线模型相比,提出的方法将AUC提高了6.2%。我们提出的基于联邦的算法不仅产生了虚拟的融合中心的性能,而且还具有O(1/T)的收敛速率。
translated by 谷歌翻译
由于其在数据隐私保护,有效的沟通和并行数据处理方面的好处,联邦学习(FL)近年来引起了人们的兴趣。同样,采用适当的算法设计,可以实现fl中收敛效应的理想线性加速。但是,FL上的大多数现有作品仅限于I.I.D.的系统。数据和集中参数服务器以及与异质数据集分散的FL上的结果仍然有限。此外,在完全分散的FL下,与数据异质性在完全分散的FL下,可以实现收敛的线性加速仍然是一个悬而未决的问题。在本文中,我们通过提出一种称为Net-Fleet的新算法,以解决具有数据异质性的完全分散的FL系统,以解决这些挑战。我们算法的关键思想是通过合并递归梯度校正技术来处理异质数据集,以增强FL(最初旨在用于通信效率)的本地更新方案。我们表明,在适当的参数设置下,所提出的净型算法实现了收敛的线性加速。我们进一步进行了广泛的数值实验,以评估所提出的净化算法的性能并验证我们的理论发现。
translated by 谷歌翻译
近年来,由于它们在对点对点网络上的分散性学习问题(例如,多机构元学习,多机构的多方强化增强学习学习)上,分散的双层优化问题在网络和机器学习社区中引起了越来越多的关注。 ,个性化的培训和拜占庭的弹性学习)。但是,对于具有有限的计算和通信功能的对等网络上的分散式双层优化,如何实现低样本和通信复杂性是迄今为止尚未探索的两个基本挑战。在本文中,我们首次尝试研究了分别与外部和内部子问题相对应的非凸和强结构结构的分散双重优化问题。本文中我们的主要贡献是两倍:i)我们首先提出了一种称为Interact的确定性算法(Inter-gradient-descent-out-outer-tracked-gradeent),需要$ \ Mathcal {o}的样品复杂性(n \ epsilon) ^{ - 1})$和$ \ mathcal {o}的通信复杂性(\ epsilon^{ - 1})$解决双重优化问题,其中$ n $和$ \ epsilon> 0 $是样本的数量在每个代理和所需的平稳性差距上。 ii)为了放宽每次迭代中进行全面梯度评估的需求,我们提出了一个随机方差的互动版本(SVR Interact),该版本将样品复杂性提高到$ \ Mathcal {o}(\ sqrt {n} \ epsilon ^{ - 1})$在达到与确定算法相同的通信复杂性时。据我们所知,这项工作是第一个实现低样本和通信复杂性,以解决网络上的分散双层优化问题。我们的数值实验也证实了我们的理论发现。
translated by 谷歌翻译
图表卷积神经网络(GCNS)广泛用于图形分析。具体地,在医学应用中,GCNS可用于群体图中的疾病预测,其中曲线图节点代表个体,边缘代表个体相似度。然而,GCNS依赖于大量数据,这是对单一医学机构收集的具有挑战性。此外,大多数医疗机构继续面临的危急挑战是用不完全的数据信息分离地解决疾病预测。为了解决这些问题,联合学习(FL)允许隔离本地机构协作,没有数据共享的全局模型。在这项工作中,我们提出了一个框架FEDNI,通过FL释放网络染色和机构间数据。具体地,我们首先使用图形生成的对冲网络(GaN)联接捕获缺少节点和边缘预测器来完成本地网络的缺失信息。然后我们使用联合图形学习平台跨过机构训练全局GCN节点分类器。新颖的设计使我们能够通过利用联合学习和图表学习方法来构建更准确的机器学习模型。我们证明,我们的联邦模式优于本地和基线流动方法,在两个公共神经影像数据集中具有显着的边缘。
translated by 谷歌翻译
Graph Machine Learning最近在学术界和行业中都引起了人们的关注。大多数图形机器学习模型,例如图形神经网络(GNN),都经过大量的图形数据训练。但是,在许多实际情况下,例如医疗保健系统中的住院预测,图形数据通常存储在多个数据所有者中,并且由于隐私问题和法规限制,任何其他方都无法直接访问。联合图机器学习(FGML)是一种有前途的解决方案,可以通过以联合方式训练图机学习模型来应对这一挑战。在这项调查中,我们对FGML文献进行了全面的综述。具体而言,我们首先提供了一种新的分类法,将FGML中的现有问题分为两个设置,即,\ emph {fl带有结构化数据}和\ emph {结构化的fl}。然后,我们回顾每种环境中的主流技术,并详细介绍它们如何应对FGML下的挑战。此外,我们总结了来自不同域中FGML的现实应用程序,并介绍FGML中采用的开放图数据集和平台。最后,我们在现有研究中提出了一些局限性,并在该领域的研究方向有前途的方向。
translated by 谷歌翻译
With its capability to deal with graph data, which is widely found in practical applications, graph neural networks (GNNs) have attracted significant research attention in recent years. As societies become increasingly concerned with the need for data privacy protection, GNNs face the need to adapt to this new normal. Besides, as clients in Federated Learning (FL) may have relationships, more powerful tools are required to utilize such implicit information to boost performance. This has led to the rapid development of the emerging research field of federated graph neural networks (FedGNNs). This promising interdisciplinary field is highly challenging for interested researchers to grasp. The lack of an insightful survey on this topic further exacerbates the entry difficulty. In this paper, we bridge this gap by offering a comprehensive survey of this emerging field. We propose a 2-dimensional taxonomy of the FedGNNs literature: 1) the main taxonomy provides a clear perspective on the integration of GNNs and FL by analyzing how GNNs enhance FL training as well as how FL assists GNNs training, and 2) the auxiliary taxonomy provides a view on how FedGNNs deal with heterogeneity across FL clients. Through discussions of key ideas, challenges, and limitations of existing works, we envision future research directions that can help build more robust, explainable, efficient, fair, inductive, and comprehensive FedGNNs.
translated by 谷歌翻译
由于对个人医疗保健和大流行而越来越关注,E-Health的普及是增殖的。如今,通过机器学习模型对医学诊断的增强在电子健康分析的许多方面都非常有效。然而,在经典的基于云/集中的电子健康范式范式中,所有数据都将集中存储在服务器上,以促进模型培训,这不可避免地引发隐私问题和高延迟。提出了分布式解决方案,如分散的随机梯度下降(D-SGD),以基于个人设备提供安全和及时的诊断结果。然而,D-SGD等方法受梯度消失问题,通常在早期训练阶段缓慢进行,从而阻碍培训的有效性和效率。此外,现有方法容易发生偏向具有密集数据的用户的学习模型,在为少数群体提供电子健康分析时损害公平性。在本文中,我们提出了一个分散的块坐标血统(D-BCD)学习框架,可以更好地优化分布在用于电子健康分析的分散设备上的深度神经网络的模型。三个真实数据集的基准测试实验说明了我们提出的D-BCD的有效性和实用性,其中额外的仿真研究展示了D-BCD在现实生活中的强有力的适用性。
translated by 谷歌翻译
实验室检测和药物处方是日常临床实践中最重要的两种惯例。开发一种人工智能系统,可以自动制造实验室测试借助和药物建议可以节省潜在的冗余实验室测试,并告知医生更有效的处方。我们展示了一个智能医疗系统(名为Medgcn),可以根据其不完整的实验室测试自动推荐患者的药物,甚至可以准确估计未被采取的实验室值。在我们的系统中,我们将多种类型的医疗实体之间的复杂关系与其在异构图中的固有功能集成。然后,我们模拟图表以了解基于图形卷积网络(GCN)图表中的每个实体的分布式表示。通过图形卷积网络的传播,实体表示可以包含多种类型的医疗信息,可以使多种医疗任务受益。此外,我们介绍了交叉正则化策略,以减少多任务之间的交互的多任务培训过度装备。在本研究中,我们构建一个图形,以将4种类型的医疗实体,即患者,遇到,实验室测试和药物相关联,并应用图形神经网络来学习用于药物推荐和实验室测试贷款的节点嵌入。我们在两个现实世界数据集上验证了我们的Medgcn模型:nmedw和mimic-III。两个数据集的实验结果表明,我们的模型可以在两个任务中表现出最先进的。我们认为,我们的创新系统可以提供有希望和可靠的方法来帮助医生制作药物处置处方,并节省潜在的冗余实验室测试。
translated by 谷歌翻译
Learning on Graphs (LoG) is widely used in multi-client systems when each client has insufficient local data, and multiple clients have to share their raw data to learn a model of good quality. One scenario is to recommend items to clients with limited historical data and sharing similar preferences with other clients in a social network. On the other hand, due to the increasing demands for the protection of clients' data privacy, Federated Learning (FL) has been widely adopted: FL requires models to be trained in a multi-client system and restricts sharing of raw data among clients. The underlying potential data-sharing conflict between LoG and FL is under-explored and how to benefit from both sides is a promising problem. In this work, we first formulate the Graph Federated Learning (GFL) problem that unifies LoG and FL in multi-client systems and then propose sharing hidden representation instead of the raw data of neighbors to protect data privacy as a solution. To overcome the biased gradient problem in GFL, we provide a gradient estimation method and its convergence analysis under the non-convex objective. In experiments, we evaluate our method in classification tasks on graphs. Our experiment shows a good match between our theory and the practice.
translated by 谷歌翻译
电子健康记录(EHR)已经大量用于现代医疗保健系统,用于将患者的入场信息记录到医院。许多数据驱动方法采用EHR中的时间特征,用于预测患者的特定疾病,阅告期或诊断。然而,由于某些时间事件的监督培训中固有的标签,大多数现有的预测模型不能充分利用EHR数据。此外,对于现有的作品很难同时提供通用和个性化的解释性。为解决这些挑战,我们首先提出了一种具有信息流到分层结构的信息流的双曲线嵌入方法。我们将这些预先训练的表征纳入了图形神经网络以检测疾病并发症,并设计一种计算特定疾病和入学贡献的多级注意方法,从而提高个性化的可解释性。我们在自我监督的学习框架中提出了一个新的层次结构增强的历史预测代理任务,以充分利用EHR数据和利用医疗领域知识。我们开展一套全面的实验和案例研究,广泛使用的公开可用的EHR数据集以验证我们模型的有效性。结果表明我们的模型在预测任务和可解释能力方面的优势。
translated by 谷歌翻译
预训练在机器学习的不同领域表现出成功,例如计算机视觉,自然语言处理(NLP)和医学成像。但是,尚未完全探索用于临床数据分析。记录了大量的临床记录,但是对于在小型医院收集的数据或处理罕见疾病的数据仍可能稀缺数据和标签。在这种情况下,对较大的未标记临床数据进行预训练可以提高性能。在本文中,我们提出了专为异质的多模式临床数据设计的新型无监督的预训练技术,用于通过蒙版语言建模(MLM)启发的患者预测,通过利用对人群图的深度学习来启发。为此,我们进一步提出了一个基于图形转换器的网络,该网络旨在处理异质临床数据。通过将基于掩盖的预训练与基于变压器的网络相结合,我们将基于掩盖的其他域中训练的成功转化为异质临床数据。我们使用三个医学数据集Tadpole,Mimic-III和一个败血症预测数据集,在自我监督和转移学习设置中展示了我们的预训练方法的好处。我们发现,我们提出的培训方法有助于对患者和人群水平的数据进行建模,并提高所有数据集中不同微调任务的性能。
translated by 谷歌翻译
我们考虑分散的优化问题,其中许多代理通过在基础通信图上交换来最大程度地减少其本地功能的平均值。具体而言,我们将自己置于异步模型中,其中只有一个随机部分在每次迭代时执行计算,而信息交换可以在所有节点之间进行,并以不对称的方式进行。对于此设置,我们提出了一种算法,该算法结合了整个网络上梯度跟踪和差异的差异。这使每个节点能够跟踪目标函数梯度的平均值。我们的理论分析表明,在预期混合矩阵的轻度连通性条件下,当局部目标函数强烈凸面时,算法会汇聚。特别是,我们的结果不需要混合矩阵是双随机的。在实验中,我们研究了一种广播机制,该机制将信息从计算节点传输到其邻居,并确认我们方法在合成和现实世界数据集上的线性收敛性。
translated by 谷歌翻译
在实际情况下,较大的全局图的子图可以分布在多个设备或机构之间,并且仅由于隐私限制而在本地访问,尽管它们之间可能存在链接。最近,拟议的子图联合学习(FL)方法涉及跨私人本地子图的那些缺失的链接,而分布式培训图形神经网络(GNN)。但是,他们忽略了子图中的不可避免的异质性,这是由包含全球图的不同部分的子图引起的。例如,一个子图可能属于较大的全局图中的一个社区之一。在这种情况下,天真的子图FL将从训练有异质图分布的本地GNN模型中崩溃不相容的知识。为了克服这样的局限性,我们引入了一个新的子图FL问题,即个性化的子图FL,该子图专注于相互关联的本地GNN模型的联合改进,而不是学习一个单一的全球GNN模型,并提出了一个新颖的框架,并提出了一个新型的框架,并提出了一个联合的个性化次级学习( Fed-pub),以解决它。个性化子图FL中的一个至关重要的挑战是服务器不知道每个客户端具有哪个子图。 Fed-pub因此使用随机图作为输入来计算它们之间的相似性,并使用它们执行对服务器端聚合的加权平均。此外,它在每个客户端学习一个个性化的稀疏掩码,以选择和更新聚合参数的子图相关子集。我们考虑了非重叠和重叠子图的六个数据集中的Fed-Pub在六个数据集上的子图FL性能,我们的基本上要优于相关的基线。
translated by 谷歌翻译
现在,推荐系统已经变得繁荣,旨在通过学习嵌入来预测用户对项目的潜在兴趣。图形神经网络的最新进展〜(GNNS)还提供带有强大备份的推荐系统,从用户项图中学习嵌入。但是,由于数据收集困难,仅利用用户项交互遭受冷启动问题。因此,目前的努力建议将社交信息与用户项目相互作用融合以缓解它,这是社会推荐问题。现有工作使用GNNS同时聚合两个社交链接和用户项交互。但是,它们都需要集中存储的社交链接和用户的互动,从而导致隐私问题。此外,根据严格的隐私保护,在一般数据保护规则下,将来可能不可行的数据存储可能是不可行的,敦促分散的社会建议框架。为此,我们设计了一个小说框架\ textbf {fe} delated \ textbf {so} cial推荐与\ textbf {g} raph神经网络(fesog)。首先,FeSog采用关系的关注和聚集来处理异质性。其次,Fesog Infers使用本地数据来保留个性化的用户嵌入。最后但并非最不重要的是,所提出的模型采用伪标签技术,其中包含项目采样,以保护隐私和增强培训。三个现实世界数据集的广泛实验可以证明FeSog在完成社会建议和隐私保护方面的有效性。我们是为我们所知,为社会建议提供联邦学习框架的第一项工作。
translated by 谷歌翻译
通过提取和利用来自异构信息网络(HIN)的高阶信息的提取和利用模拟异质性,近年来一直在吸引巨大的研究关注。这种异构网络嵌入(HNE)方法有效地利用小规模旋流的异质性。然而,在现实世界中,随着新节点和不同类型的链路的连续引入,何种素数量呈指数级增长,使其成为十亿尺度的网络。在这种关链接上的学习节点嵌入式为现有的HNE方法进行了性能瓶颈,这些方法通常是集中的,即完成数据,并且模型都在单机上。为了满足强大的效率和有效性保障的大型HNE任务,我们呈现\纺织{分散嵌入框架的异构信息网络}(Dehin)。在Dehin中,我们生成一个分布式并行管道,它利用超图来注入到HNE任务中的并行化。 Dehin呈现了一种上下文保留的分区机制,可创新地将大HIN作为超图制定,其超高频连接语义相似的节点。我们的框架然后采用分散的策略来通过采用类似的树形管道来有效地分隔帖。然后,每个结果的子网被分配给分布式工作人员,该工作者采用深度信息最大化定理,从其接收的分区本地学习节点嵌入。我们进一步设计了一种新颖的嵌入对准方案,将独立学习的节点嵌入从所有子网嵌入到公共向量空间上的新颖嵌入对准方案,从而允许下游任务等链路预测和节点分类。
translated by 谷歌翻译
我们开发了一个通用框架,统一了几种基于梯度的随机优化方法,用于在集中式和分布式场景中,用于经验风险最小化问题。该框架取决于引入的增强图的引入,该图形由对样品进行建模和边缘建模设备设备间通信和设备内随机梯度计算。通过正确设计增强图的拓扑结构,我们能够作为特殊情况恢复为著名的本地-SGD和DSGD算法,并提供了统一的方差还原(VR)和梯度跟踪(GT)方法(例如Saga) ,本地-SVRG和GT-SAGA。我们还提供了统一的收敛分析,以依靠适当的结构化lyapunov函数,以实现平滑和(强烈的)凸目标,并且获得的速率可以恢复许多现有算法的最著名结果。速率结果进一步表明,VR和GT方法可以有效地消除设备内部和跨设备内的数据异质性,从而使算法与最佳解决方案的确切收敛性。数值实验证实了本文中的发现。
translated by 谷歌翻译
COVID-19的大流行造成了毁灭性的经济和社会破坏,使全球医疗机构的资源紧张。这导致全国范围内呼吁模型预测Covid-19患者的住院和严重疾病,以告知有限医疗资源的分配。我们回应针对儿科人群的其中一种。为了应对这一挑战,我们使用电子健康记录研究了针对儿科人群的两项预测任务:1)预测哪些儿童更有可能住院,而2)在住院儿童中,哪些孩子更有可能出现严重的症状。我们通过新颖的机器学习模型MEDML应对国家儿科Covid-19数据挑战。 MEDML根据超过600万个医学概念的医学知识和倾向得分提取了最预测的特征,并通过图神经网络(GNN)结合了异质医学特征之间的功能间关系。我们使用来自国家队列协作(N3C)数据集的数据评估了143,605名患者的MEDML,并在143,605名患者的住院预测任务中评估了严重性预测任务的11,465名患者。我们还报告了详细的小组级和个人级特征的重要性分析,以评估模型的解释性。与最佳的基线机器学习模型相比,MEDML的AUROC得分高达7%,AUPRC得分高达14%,并且自大流行以来的所有九个国家地理区域以及所有三个月的跨度都表现良好。我们的跨学科研究团队开发了一种将临床领域知识纳入新型机器学习模型的框架的方法,该框架比当前最新的数据驱动的功能选择方法更具预测性和可解释。
translated by 谷歌翻译
Minimax optimization problems have attracted significant attention in recent years due to their widespread application in numerous machine learning models. To solve the minimax optimization problem, a wide variety of stochastic optimization methods have been proposed. However, most of them ignore the distributed setting where the training data is distributed on multiple workers. In this paper, we developed a novel decentralized stochastic gradient descent ascent method for the finite-sum minimax optimization problem. In particular, by employing the variance-reduced gradient, our method can achieve $O(\frac{\sqrt{n}\kappa^3}{(1-\lambda)^2\epsilon^2})$ sample complexity and $O(\frac{\kappa^3}{(1-\lambda)^2\epsilon^2})$ communication complexity for the nonconvex-strongly-concave minimax optimization problem. As far as we know, our work is the first one to achieve such theoretical complexities for this kind of problem. At last, we apply our method to optimize the AUC maximization problem and the experimental results confirm the effectiveness of our method.
translated by 谷歌翻译
通信技术和互联网的最新进展与人工智能(AI)启用了智能医疗保健。传统上,由于现代医疗保健网络的高性性和日益增长的数据隐私问题,AI技术需要集中式数据收集和处理,这可能在现实的医疗环境中可能是不可行的。作为一个新兴的分布式协作AI范例,通过协调多个客户(例如,医院)来执行AI培训而不共享原始数据,对智能医疗保健特别有吸引力。因此,我们对智能医疗保健的使用提供了全面的调查。首先,我们在智能医疗保健中展示了近期进程,动机和使用FL的要求。然后讨论了近期智能医疗保健的FL设计,从资源感知FL,安全和隐私感知到激励FL和个性化FL。随后,我们对关键医疗领域的FL新兴应用提供了最先进的综述,包括健康数据管理,远程健康监测,医学成像和Covid-19检测。分析了几个最近基于智能医疗保健项目,并突出了从调查中学到的关键经验教训。最后,我们讨论了智能医疗保健未来研究的有趣研究挑战和可能的指示。
translated by 谷歌翻译
推荐系统被证明是提取与用户相关的内容帮助用户进行日常活动的宝贵工具(例如,找到相关的访问地点,要消费的内容,要购买的商品)。但是,为了有效,这些系统需要收集和分析大量个人数据(例如,位置检查,电影评分,点击率等),这使用户面临许多隐私威胁。在这种情况下,基于联合学习(FL)的推荐系统似乎是一个有前途的解决方案,可以在计算准确的建议的同时将个人数据保存在用户设备上时,是一个有前途的解决方案。但是,FL,因此基于FL的推荐系统,依靠中央服务器,除了容易受到攻击外,还可以遇到可伸缩性问题。为了解决这个问题,我们提出了基于八卦学习原理的分散推荐系统Pepper。在胡椒中,用户八卦模型更新并不同步。 Pepper的核心位于两个关键组成部分:一个个性化的同行采样协议,该协议保存在每个节点附近,这是与前者具有相似兴趣的节点的一部分,以及一个简单而有效的模型汇总功能,该功能构建了一个模型更适合每个用户。通过在三个实施两个用例的实验实验中进行实验:位置入住建议和电影推荐,我们证明我们的解决方案比其他分散的解决方案快42%收敛于42%与分散的竞争对手相比,长时间性能的命中率和高达21%的速度提高了21%。
translated by 谷歌翻译