以时间序列形式出现的信号测量是医疗机学习应用中使用的最常见数据类型之一。这样的数据集的大小通常很小,收集和注释昂贵,并且可能涉及隐私问题,这阻碍了我们培训用于生物医学应用的大型,最先进的深度学习模型的能力。对于时间序列数据,我们可以用来扩展数据集大小的数据增强策略套件受到维护信号的基本属性的限制。生成对抗网络(GAN)可以用作另一种数据增强工具。在本文中,我们提出了TTS-CGAN,这是一种基于变压器的条件GAN模型,可以在现有的多级数据集上进行训练,并生成特定于类的合成时间序列序列的任意长度。我们详细介绍了模型架构和设计策略。由我们的模型生成的合成序列与真实的序列无法区分,可以用来补充或替换相同类型的真实信号,从而实现了数据增强的目标。为了评估生成的数据的质量,我们修改小波相干度量指标,以比较两组信号之间的相似性,还可以进行案例研究,其中使用合成和真实数据的混合来训练深度学习模型用于序列分类。与其他可视化技术和定性评估方法一起,我们证明TTS-CGAN生成的合成数据类似于真实数据,并且我们的模型的性能优于为时间序列数据生成而构建的其他最先进的GAN模型。
translated by 谷歌翻译
以时间序列形式出现的信号测量是医疗机学习应用中使用的最常见数据类型之一。但是,这样的数据集通常很小,使深度神经网络体系结构的培训无效。对于时间序列,我们可以用来扩展数据集大小的数据增强技巧套件受到维护信号的基本属性的限制。生成对抗网络(GAN)生成的数据可以用作另一个数据增强工具。基于RNN的GAN遭受了这样一个事实,即它们无法有效地模拟具有不规则时间关系的长序列数据点。为了解决这些问题,我们介绍了TTS-GAN,这是一种基于变压器的GAN,可以成功生成与实际长度相似的任意长度的现实合成时间序列数据序列。 GAN模型的生成器和鉴别网络均使用纯变压器编码器体系结构构建。我们使用可视化和降低降低技术来证明真实和生成的时间序列数据的相似性。我们还将生成数据的质量与最佳现有替代方案进行了比较,即基于RNN的时间序列GAN。
translated by 谷歌翻译
随着深度学习生成模型的最新进展,它在时间序列领域的出色表现并没有花费很长时间。用于与时间序列合作的深度神经网络在很大程度上取决于培训中使用的数据集的广度和一致性。这些类型的特征通常在现实世界中不丰富,在现实世界中,它们通常受到限制,并且通常具有必须保证的隐私限制。因此,一种有效的方法是通过添加噪声或排列并生成新的合成数据来使用\ gls {da}技术增加数据数。它正在系统地审查该领域的当前最新技术,以概述所有可用的算法,并提出对最相关研究的分类法。将评估不同变体的效率;作为过程的重要组成部分,将分析评估性能的不同指标以及有关每个模型的主要问题。这项研究的最终目的是摘要摘要,这些领域的进化和性能会产生更好的结果,以指导该领域的未来研究人员。
translated by 谷歌翻译
Generating multivariate time series is a promising approach for sharing sensitive data in many medical, financial, and IoT applications. A common type of multivariate time series originates from a single source such as the biometric measurements from a medical patient. This leads to complex dynamical patterns between individual time series that are hard to learn by typical generation models such as GANs. There is valuable information in those patterns that machine learning models can use to better classify, predict or perform other downstream tasks. We propose a novel framework that takes time series' common origin into account and favors channel/feature relationships preservation. The two key points of our method are: 1) the individual time series are generated from a common point in latent space and 2) a central discriminator favors the preservation of inter-channel/feature dynamics. We demonstrate empirically that our method helps preserve channel/feature correlations and that our synthetic data performs very well in downstream tasks with medical and financial data.
translated by 谷歌翻译
物联网技术的开发使各种传感器可以集成到移动设备中。基于传感器数据的人类活动识别(HAR)已成为机器学习和无处不在计算领域的积极研究主题。但是,由于人类活动的频率不一致,人类活动数据集中的每个活动的数据量都会失衡。考虑到有限的传感器资源和手动标记的传感器数据的高成本,人类活动识别面临着高度不平衡的活动数据集的挑战。在本文中,我们建议平衡传感器数据生成的对抗网络(BSDGAN),以生成少数人类活动的传感器数据。所提出的BSDGAN由生成器模型和鉴别模型组成。考虑到人类活动数据集的极端失衡,使用自动编码器来初始化BSDGAN的训练过程,并确保可以学习每个活动的数据特征。生成的活动数据与原始数据集结合在一起,以平衡人类活动类别的活动数据量。我们在两个公开可用的人类活动数据集WISDM和UNIMIB上部署了多个人类活动识别模型。实验结果表明,提出的BSDGAN可以有效地捕获真实人类活动传感器数据的数据特征,并生成逼真的合成传感器数据。同时,平衡的活动数据集可以有效地帮助活动识别模型提高识别精度。
translated by 谷歌翻译
时间序列数据生成近年来越来越受到关注。已经提出了几种生成的对抗网络(GaN)的方法通常是假设目标时间序列数据良好格式化并完成的假设来解决问题。然而,现实世界时间序列(RTS)数据远离该乌托邦,例如,具有可变长度的长序列和信息缺失数据,用于设计强大的发电算法的棘手挑战。在本文中,我们向RTS数据提出了一种新的生成框架 - RTSGAN来解决上述挑战。 RTSGAN首先学习编码器 - 解码器模块,该模块提供时间序列实例和固定维度潜在载体之间的映射,然后学习生成模块以在同一潜在空间中生成vectors。通过组合发电机和解码器,RTSGAN能够生成尊重原始特征分布和时间动态的RTS。为了生成具有缺失值的时间序列,我们进一步用观察嵌入层和决定和生成解码器装备了RTSGAN,以更好地利用信息缺失模式。四个RTS数据集上的实验表明,该框架在用于下游分类和预测任务的合成数据实用程序方面优于前一代方法。
translated by 谷歌翻译
轴承是容易出乎意料断层的旋转机的重要组成部分之一。因此,轴承诊断和状况监测对于降低众多行业的运营成本和停机时间至关重要。在各种生产条件下,轴承可以在一系列载荷和速度下进行操作,这会导致与每种故障类型相关的不同振动模式。正常数据很足够,因为系统通常在所需条件下工作。另一方面,故障数据很少见,在许多情况下,没有记录故障类别的数据。访问故障数据对于开发数据驱动的故障诊断工具至关重要,该工具可以提高操作的性能和安全性。为此,引入了基于条件生成对抗网络(CGAN)的新型算法。该算法对任何实际故障条件的正常和故障数据进行培训,从目标条件的正常数据中生成故障数据。所提出的方法在现实世界中的数据集上进行了验证,并为不同条件生成故障数据。实施了几种最先进的分类器和可视化模型,以评估合成数据的质量。结果证明了所提出的算法的功效。
translated by 谷歌翻译
Time series anomaly detection has applications in a wide range of research fields and applications, including manufacturing and healthcare. The presence of anomalies can indicate novel or unexpected events, such as production faults, system defects, or heart fluttering, and is therefore of particular interest. The large size and complex patterns of time series have led researchers to develop specialised deep learning models for detecting anomalous patterns. This survey focuses on providing structured and comprehensive state-of-the-art time series anomaly detection models through the use of deep learning. It providing a taxonomy based on the factors that divide anomaly detection models into different categories. Aside from describing the basic anomaly detection technique for each category, the advantages and limitations are also discussed. Furthermore, this study includes examples of deep anomaly detection in time series across various application domains in recent years. It finally summarises open issues in research and challenges faced while adopting deep anomaly detection models.
translated by 谷歌翻译
数据质量是发展医疗保健中值得信赖的AI的关键因素。大量具有控制混杂因素的策划数据集可以帮助提高下游AI算法的准确性,鲁棒性和隐私性。但是,访问高质量的数据集受数据获取的技术难度的限制,并且严格的道德限制阻碍了医疗保健数据的大规模共享。数据合成算法生成具有与真实临床数据相似的分布的数据,可以作为解决可信度AI的发展过程中缺乏优质数据的潜在解决方案。然而,最新的数据合成算法,尤其是深度学习算法,更多地集中于成像数据,同时忽略了非成像医疗保健数据的综合,包括临床测量,医疗信号和波形以及电子保健记录(EHRS)(EHRS) 。因此,在本文中,我们将回顾合成算法,尤其是对于非成像医学数据,目的是在该领域提供可信赖的AI。本教程风格的审查论文将对包括算法,评估,局限性和未来研究方向在内的各个方面进行全面描述。
translated by 谷歌翻译
ECG数据库通常由于正常的心电图和异常病例的稀缺性而高度不平衡。因此,经过不平衡数据集培训的深度学习分类器通常表现不佳,尤其是在次要课程上。一种解决方案是使用生成对抗网络(GAN)生成逼真的合成ECG信号,以增强数据集的不平衡数据集。在这项研究中,我们首次将条件GAN与WGAN-GAN结合在一起,并以1D形式开发了AC-WGAN-GP,以应用于MIT-BIH心律失常数据集。我们研究了数据增强对心律失常分类的影响。我们采用了两个模型进行心电图生成:(i)无条件的gan; Wasserstein gan具有梯度罚款(WGAN-GP)在每个班级上都受过训练; (ii)有条件的gan;一个辅助分类器WGAN-GP(AC-WGAN-GP)模型均在所有类别上训练,然后用于在所有类别中生成合成节拍。每种情况下定义了两种情况:(a)未经检查;使用了所有生成的合成节拍,并且(b)筛选;基于其动态时间翘曲(DTW)到指定模板,仅选择并使用了一部分生成的节拍。在每个增强数据集和性能指标(精确/召回/F1得分微型和宏观水平,混淆矩阵,多层级别的Precision-Recall Precall curves)中,对最先进的重新NET分类器(ECGRESNET34)进行了培训(precision/Recemision/Recker/F1得分微观和宏观分数)。与未表现不平衡案件的案件相比。我们还使用了简单的度量净改进。这三个指标始终显示出净改进(总和次级和次级),无条件的GAN具有原始生成的数据(未筛选)可创造最佳改进。
translated by 谷歌翻译
组织病理学分析是对癌前病变诊断的本金标准。从数字图像自动组织病理学分类的目标需要监督培训,这需要大量的专家注释,这可能是昂贵且耗时的收集。同时,精确分类从全幻灯片裁剪的图像斑块对于基于标准滑动窗口的组织病理学幻灯片分类方法是必不可少的。为了减轻这些问题,我们提出了一个精心设计的条件GaN模型,即hostogan,用于在类标签上合成现实组织病理学图像补丁。我们还研究了一种新颖的合成增强框架,可选择地添加由我们提出的HADOGAN生成的新的合成图像补丁,而不是直接扩展与合成图像的训练集。通过基于其指定标签的置信度和实际标记图像的特征相似性选择合成图像,我们的框架为合成增强提供了质量保证。我们的模型在两个数据集上进行评估:具有有限注释的宫颈组织病理学图像数据集,以及具有转移性癌症的淋巴结组织病理学图像的另一个数据集。在这里,我们表明利用具有选择性增强的组织产生的图像导致对宫颈组织病理学和转移性癌症数据集分别的分类性能(分别为6.7%和2.8%)的显着和一致性。
translated by 谷歌翻译
Electronic Health Records (EHRs) are a valuable asset to facilitate clinical research and point of care applications; however, many challenges such as data privacy concerns impede its optimal utilization. Deep generative models, particularly, Generative Adversarial Networks (GANs) show great promise in generating synthetic EHR data by learning underlying data distributions while achieving excellent performance and addressing these challenges. This work aims to review the major developments in various applications of GANs for EHRs and provides an overview of the proposed methodologies. For this purpose, we combine perspectives from healthcare applications and machine learning techniques in terms of source datasets and the fidelity and privacy evaluation of the generated synthetic datasets. We also compile a list of the metrics and datasets used by the reviewed works, which can be utilized as benchmarks for future research in the field. We conclude by discussing challenges in GANs for EHRs development and proposing recommended practices. We hope that this work motivates novel research development directions in the intersection of healthcare and machine learning.
translated by 谷歌翻译
数据通常以表格格式存储。几个研究领域(例如,生物医学,断层/欺诈检测),容易出现不平衡的表格数据。由于阶级失衡,对此类数据的监督机器学习通常很困难,从而进一步增加了挑战。合成数据生成,即过采样是一种用于提高分类器性能的常见补救措施。最先进的线性插值方法,例如洛拉斯和普罗拉斯,可用于从少数族裔类的凸空间中生成合成样本,以在这种情况下提高分类器的性能。生成的对抗网络(GAN)是合成样本生成的常见深度学习方法。尽管GAN被广泛用于合成图像生成,但在不平衡分类的情况下,它们在表格数据上的范围没有充分探索。在本文中,我们表明,与线性插值方法相比,现有的深层生成模型的性能较差,该方法从少数族裔类的凸空间中生成合成样本,对于小规模的表格数据集中的分类问题不平衡。我们提出了一个深厚的生成模型,将凸出空间学习和深层生成模型的思想结合在一起。 Convgen了解了少数族类样品的凸组合的系数,因此合成数据与多数类的不同。我们证明,与现有的深层生成模型相比,我们提出的模型Convgen在与现有的线性插值方法相当的同时,改善了此类小数据集的不平衡分类。此外,我们讨论了如何将模型用于一般的综合表格数据生成,甚至超出了数据不平衡的范围,从而提高了凸空间学习的整体适用性。
translated by 谷歌翻译
The success of deep learning is largely due to the availability of large amounts of training data that cover a wide range of examples of a particular concept or meaning. In the field of medicine, having a diverse set of training data on a particular disease can lead to the development of a model that is able to accurately predict the disease. However, despite the potential benefits, there have not been significant advances in image-based diagnosis due to a lack of high-quality annotated data. This article highlights the importance of using a data-centric approach to improve the quality of data representations, particularly in cases where the available data is limited. To address this "small-data" issue, we discuss four methods for generating and aggregating training data: data augmentation, transfer learning, federated learning, and GANs (generative adversarial networks). We also propose the use of knowledge-guided GANs to incorporate domain knowledge in the training data generation process. With the recent progress in large pre-trained language models, we believe it is possible to acquire high-quality knowledge that can be used to improve the effectiveness of knowledge-guided generative methods.
translated by 谷歌翻译
人类活动识别是计算机视觉中的新出现和重要领域,旨在确定个体或个体正在执行的活动。该领域的应用包括从体育中生成重点视频到智能监视和手势识别。大多数活动识别系统依赖于卷积神经网络(CNN)的组合来从数据和复发性神经网络(RNN)中进行特征提取来确定数据的时间依赖性。本文提出并设计了两个用于人类活动识别的变压器神经网络:一个经常性变压器(RET),这是一个专门的神经网络,用于对数据序列进行预测,以及视觉变压器(VIT),一种用于提取显着的变压器的变压器(VIT)图像的特征,以提高活动识别的速度和可扩展性。我们在速度和准确性方面提供了对拟议的变压器神经网络与现代CNN和基于RNN的人类活动识别模型的广泛比较。
translated by 谷歌翻译
鉴于无线频谱的有限性和对无线通信最近的技术突破产生的频谱使用不断增加的需求,干扰问题仍在继续持续存在。尽管最近解决干涉问题的进步,但干扰仍然呈现出有效使用频谱的挑战。这部分是由于Wi-Fi的无许可和管理共享乐队使用的升高,长期演进(LTE)未许可(LTE-U),LTE许可辅助访问(LAA),5G NR等机会主义频谱访问解决方案。因此,需要对干扰稳健的有效频谱使用方案的需求从未如此重要。在过去,通过使用避免技术以及非AI缓解方法(例如,自适应滤波器)来解决问题的大多数解决方案。非AI技术的关键缺陷是需要提取或开发信号特征的域专业知识,例如CycrationArity,带宽和干扰信号的调制。最近,研究人员已成功探索了AI / ML的物理(PHY)层技术,尤其是深度学习,可减少或补偿干扰信号,而不是简单地避免它。 ML基于ML的方法的潜在思想是学习来自数据的干扰或干扰特性,从而使需要对抑制干扰的域专业知识进行侧联。在本文中,我们审查了广泛的技术,这些技术已经深入了解抑制干扰。我们为干扰抑制中许多不同类型的深度学习技术提供比较和指导。此外,我们突出了在干扰抑制中成功采用深度学习的挑战和潜在的未来研究方向。
translated by 谷歌翻译
异构表格数据是最常用的数据形式,对于众多关键和计算要求的应用程序至关重要。在同质数据集上,深度神经网络反复显示出卓越的性能,因此被广泛采用。但是,它们适应了推理或数据生成任务的表格数据仍然具有挑战性。为了促进该领域的进一步进展,这项工作概述了表格数据的最新深度学习方法。我们将这些方法分为三组:数据转换,专业体系结构和正则化模型。对于每个小组,我们的工作提供了主要方法的全面概述。此外,我们讨论了生成表格数据的深度学习方法,并且还提供了有关解释对表格数据的深层模型的策略的概述。因此,我们的第一个贡献是解决上述领域中的主要研究流和现有方法,同时强调相关的挑战和开放研究问题。我们的第二个贡献是在传统的机器学习方法中提供经验比较,并在五个流行的现实世界中的十种深度学习方法中,具有不同规模和不同的学习目标的经验比较。我们已将作为竞争性基准公开提供的结果表明,基于梯度增强的树合奏的算法仍然大多在监督学习任务上超过了深度学习模型,这表明对表格数据的竞争性深度学习模型的研究进度停滞不前。据我们所知,这是对表格数据深度学习方法的第一个深入概述。因此,这项工作可以成为有价值的起点,以指导对使用表格数据深入学习感兴趣的研究人员和从业人员。
translated by 谷歌翻译
模拟重力波(GW)检测器环境的时间域观察将使GW源有更好的了解,增强用于GW信号检测的数据集并帮助表征探测器的噪声,从而提供更好的物理学。本文提出了一种新的方法,该方法是使用三人瓦斯汀生成对抗网络(WGAN)(称为dvgan)模拟固定长度的时间域信号,其中包括一个辅助鉴别器,该辅助歧视器在输入信号的衍生物上进行区分。一项消融研究用于比较包括带有香草两种玩家wgan的辅助导数歧视器的对抗反馈的效果。我们表明,在训练阶段,对衍生物的区分可以稳定1D连续信号的GAN组件学习。这会导致更平滑的信号与实际样本不太区分,并更好地捕获训练数据的分布。 DVGAN还用于模拟高级LIGO GW检测器中捕获的真实瞬态噪声事件。
translated by 谷歌翻译
生成的对抗网络(GAN)是在众多领域成功使用的一种强大的深度学习模型。它们属于一个称为生成方法的更广泛的家族,该家族通过从真实示例中学习样本分布来生成新数据。在临床背景下,与传统的生成方法相比,GAN在捕获空间复杂,非线性和潜在微妙的疾病作用方面表现出增强的能力。这篇综述评估了有关gan在各种神经系统疾病的成像研究中的应用的现有文献,包括阿尔茨海默氏病,脑肿瘤,脑老化和多发性硬化症。我们为每个应用程序提供了各种GAN方法的直观解释,并进一步讨论了在神经影像学中利用gans的主要挑战,开放问题以及有希望的未来方向。我们旨在通过强调如何利用gan来支持临床决策,并有助于更好地理解脑部疾病的结构和功能模式,从而弥合先进的深度学习方法和神经病学研究之间的差距。
translated by 谷歌翻译
良好的培训数据是开发有用的ML应用程序的先决条件。但是,在许多域中,现有数据集不能由于隐私法规(例如,从医学研究)而被共享。这项工作调查了一种简单而非规范的方法,可以匿名数据综合来使第三方能够受益于此类私人数据。我们探讨了从不切实际,任务相关的刺激中隐含地学习的可行性,这通过激发训练有素的深神经网络(DNN)的神经元来合成。因此,神经元励磁用作伪生成模型。刺激数据用于培训新的分类模型。此外,我们将此框架扩展以抑制与特定个人相关的表示。我们使用开放和大型闭合临床研究的睡眠监测数据,并评估(1)最终用户是否可以创建和成功使用定制分类模型进行睡眠呼吸暂停检测,并且(2)研究中参与者的身份受到保护。广泛的比较实证研究表明,在刺激上培训的不同算法能够在与原始模型相同的任务上成功概括。然而,新和原始模型之间的架构和算法相似性在性能方面发挥着重要作用。对于类似的架构,性能接近使用真实数据(例如,精度差为0.56 \%,Kappa系数差为0.03-0.04)。进一步的实验表明,刺激可以在很大程度上成功地匿名匿名研究临床研究的参与者。
translated by 谷歌翻译