Data augmentation is a valuable tool for the design of deep learning systems to overcome data limitations and stabilize the training process. Especially in the medical domain, where the collection of large-scale data sets is challenging and expensive due to limited access to patient data, relevant environments, as well as strict regulations, community-curated large-scale public datasets, pretrained models, and advanced data augmentation methods are the main factors for developing reliable systems to improve patient care. However, for the development of medical acoustic sensing systems, an emerging field of research, the community lacks large-scale publicly available data sets and pretrained models. To address the problem of limited data, we propose a conditional generative adversarial neural network-based augmentation method which is able to synthesize mel spectrograms from a learned data distribution of a source data set. In contrast to previously proposed fully convolutional models, the proposed model implements residual Squeeze and Excitation modules in the generator architecture. We show that our method outperforms all classical audio augmentation techniques and previously published generative methods in terms of generated sample quality and a performance improvement of 2.84% of Macro F1-Score for a classifier trained on the augmented data set, an enhancement of $1.14\%$ in relation to previous work. By analyzing the correlation of intermediate feature spaces, we show that the residual Squeeze and Excitation modules help the model to reduce redundancy in the latent features. Therefore, the proposed model advances the state-of-the-art in the augmentation of clinical audio data and improves the data bottleneck for the design of clinical acoustic sensing systems.
translated by 谷歌翻译
在这项工作中,我们提出了一种基于有条件的WaseStein生成对抗网络的临床音频数据集的新型数据增强方法,该网络具有梯度惩罚(CWGAN-GP),并在日志频谱图上运行。为了验证我们的方法,我们创建了一个临床音频数据集,该数据集在总髋关节置换术(THA)过程中记录在现实世界手术室中,并包含典型的声音,类似于干预的不同阶段。我们证明了所提出的方法从数据集分布中生成现实的类调节样品的能力,并表明使用生成的增强样品训练在分类精度方面优于经典音频增强方法。使用RESNET-18分类器评估了性能,该分类器在使用建议的增强方法的5倍交叉验证实验中显示了平均每类准确性提高1.70%。由于临床数据通常是昂贵的,因此实际的和高质量的数据增强方法的开发对于提高基于学习的算法的鲁棒性和概括能力至关重要,这对于安全至关重要的医学应用尤其重要。因此,提出的数据增强方法是改善基于临床音频的机器学习系统的数据瓶颈的重要一步。
translated by 谷歌翻译
组织病理学分析是对癌前病变诊断的本金标准。从数字图像自动组织病理学分类的目标需要监督培训,这需要大量的专家注释,这可能是昂贵且耗时的收集。同时,精确分类从全幻灯片裁剪的图像斑块对于基于标准滑动窗口的组织病理学幻灯片分类方法是必不可少的。为了减轻这些问题,我们提出了一个精心设计的条件GaN模型,即hostogan,用于在类标签上合成现实组织病理学图像补丁。我们还研究了一种新颖的合成增强框架,可选择地添加由我们提出的HADOGAN生成的新的合成图像补丁,而不是直接扩展与合成图像的训练集。通过基于其指定标签的置信度和实际标记图像的特征相似性选择合成图像,我们的框架为合成增强提供了质量保证。我们的模型在两个数据集上进行评估:具有有限注释的宫颈组织病理学图像数据集,以及具有转移性癌症的淋巴结组织病理学图像的另一个数据集。在这里,我们表明利用具有选择性增强的组织产生的图像导致对宫颈组织病理学和转移性癌症数据集分别的分类性能(分别为6.7%和2.8%)的显着和一致性。
translated by 谷歌翻译
这项研究建议使用生成模型(GAN)来增强欧洲裔欧洲裔数据集用于土地使用和土地覆盖(LULC)分类任务。我们使用DCGAN和WGAN-GP为数据集中的每个类生成图像。然后,我们探讨了在每种情况下将原始数据集增加约10%的效果对模型性能。GAN体系结构的选择似乎对模型性能没有明显的影响。然而,几何增强和GAN生成图像的结合改善了基线结果。我们的研究表明,GANS的增强可以改善卫星图像上深层分类模型的普遍性。
translated by 谷歌翻译
呼吸声分类中的问题已在去年的临床科学家和医学研究员团体中获得了良好的关注,以诊断Covid-19疾病。迄今为止,各种模型的人工智能(AI)进入了现实世界,从人类生成的声音等人生成的声音中检测了Covid-19疾病,例如语音/言语,咳嗽和呼吸。实现卷积神经网络(CNN)模型,用于解决基于人工智能(AI)的机器上的许多真实世界问题。在这种情况下,建议并实施一个维度(1D)CNN,以诊断Covid-19的呼吸系统疾病,例如语音,咳嗽和呼吸。应用基于增强的机制来改善Covid-19声音数据集的预处理性能,并使用1D卷积网络自动化Covid-19疾病诊断。此外,使用DDAE(数据去噪自动编码器)技术来产生诸如输入功能的深声特征,而不是采用MFCC(MEL频率跳跃系数)的标准输入,并且它更好地执行比以前的型号的准确性和性能。
translated by 谷歌翻译
在过去的几十年中,数据科学领域已经存在着激烈的进展,而其他学科则不断受益于此。结构健康监测(SHM)是使用人工智能(AI)的那些领域之一,例如机器学习(ML)和深度学习(DL)算法,用于基于所收集的数据的民用结构的条件评估。 ML和DL方法需要大量的培训程序数据;但是,在SHM中,来自民间结构的数据收集非常详尽;特别是获得有用的数据(相关数据损坏)可能非常具有挑战性。本文使用1-D Wasserstein深卷积生成的对抗网络,使用梯度惩罚(1-D WDCGAN-GP)进行合成标记的振动数据生成。然后,通过使用1-D深卷积神经网络(1-D DCNN)来实现在不同级别的合成增强振动数据集的结构损伤检测。损伤检测结果表明,1-D WDCAN-GP可以成功地利用以解决基于振动的民用结构的损伤诊断数据稀缺。关键词:结构健康监测(SHM),结构损伤诊断,结构损伤检测,1-D深卷积神经网络(1-D DCNN),1-D生成对抗网络(1-D GAN),深卷积生成的对抗网络( DCGAN),Wassersein生成的对抗性网络具有梯度惩罚(WAN-GP)
translated by 谷歌翻译
尽管在基于生成的对抗网络(GAN)的声音编码器中,该模型在MEL频谱图中生成原始波形,但在各种录音环境中为众多扬声器合成高保真音频仍然具有挑战性。在这项工作中,我们介绍了Bigvgan,这是一款通用的Vocoder,在零照片环境中在各种看不见的条件下都很好地概括了。我们将周期性的非线性和抗氧化表现引入到发电机中,这带来了波形合成所需的感应偏置,并显着提高了音频质量。根据我们改进的生成器和最先进的歧视器,我们以最大的规模训练我们的Gan Vocoder,最高到1.12亿个参数,这在文献中是前所未有的。特别是,我们识别并解决了该规模特定的训练不稳定性,同时保持高保真输出而不过度验证。我们的Bigvgan在各种分布场景中实现了最先进的零拍性能,包括新的扬声器,新颖语言,唱歌声音,音乐和乐器音频,在看不见的(甚至是嘈杂)的录制环境中。我们将在以下网址发布我们的代码和模型:https://github.com/nvidia/bigvgan
translated by 谷歌翻译
Common measures of brain functional connectivity (FC) including covariance and correlation matrices are semi-positive definite (SPD) matrices residing on a cone-shape Riemannian manifold. Despite its remarkable success for Euclidean-valued data generation, use of standard generative adversarial networks (GANs) to generate manifold-valued FC data neglects its inherent SPD structure and hence the inter-relatedness of edges in real FC. We propose a novel graph-regularized manifold-aware conditional Wasserstein GAN (GR-SPD-GAN) for FC data generation on the SPD manifold that can preserve the global FC structure. Specifically, we optimize a generalized Wasserstein distance between the real and generated SPD data under an adversarial training, conditioned on the class labels. The resulting generator can synthesize new SPD-valued FC matrices associated with different classes of brain networks, e.g., brain disorder or healthy control. Furthermore, we introduce additional population graph-based regularization terms on both the SPD manifold and its tangent space to encourage the generator to respect the inter-subject similarity of FC patterns in the real data. This also helps in avoiding mode collapse and produces more stable GAN training. Evaluated on resting-state functional magnetic resonance imaging (fMRI) data of major depressive disorder (MDD), qualitative and quantitative results show that the proposed GR-SPD-GAN clearly outperforms several state-of-the-art GANs in generating more realistic fMRI-based FC samples. When applied to FC data augmentation for MDD identification, classification models trained on augmented data generated by our approach achieved the largest margin of improvement in classification accuracy among the competing GANs over baselines without data augmentation.
translated by 谷歌翻译
背景:12个引线ECG是心血管疾病的核心诊断工具。在这里,我们描述并分析了一个集成的深度神经网络架构,从12个引导eCG分类了24个心脏异常。方法:我们提出了挤压和激发reset,以自动学习来自12个引主ECG的深度特征,以识别24个心脏病。在最终完全连接的层中,随着年龄和性别特征增强了深度特征。使用约束网格搜索设置每个类的输出阈值。为了确定为什么该模型的预测不正确,两个专家诊所人员独立地解释了一组关于左轴偏差的一次无序的ECG。结果:采用定制加权精度度量,我们达到了0.684的5倍交叉验证得分,灵敏度和特异性分别为0.758和0.969。我们在完整的测试数据中得分0.520,并在官方挑战排名中排名第21中。在一系列被错误分类的心电图中,两个临床医生和训练标签之间的协议差(临床医生1:Kappa = -0.057,临床医生2:Kappa = -0.159)。相比之下,临床医生之间的协议非常高(Kappa = 0.92)。讨论:与在相同数据上培训的模型相比,所提出的预测模型很好地对验证和隐藏的测试数据进行了良好。我们还发现培训标签的相当不一致,这可能会阻碍更准确的模型的开发。
translated by 谷歌翻译
建模生物软组织是由于材料异质性而部分复杂的。微观结构模式在定义这些组织的机械行为方面起着主要作用,既具有挑战性,又难以模拟。最近,基于机器学习的方法来预测异质材料的机械行为,使得更彻底地探索与异质材料块相关的大量输入参数空间。具体而言,我们可以训练机器学习(ML)模型,以近似于计算上昂贵的异质材料模拟,其中ML模型在模拟的数据集上进行了训练,该模拟捕获了感兴趣的材料中存在的空间异质性范围。但是,在更广泛地将这些技术应用于生物组织时,存在一个主要的局限性:相关的微观结构模式既具有挑战性又难以分析。因此,可用于表征正在研究的输入域的有用示例的数量有限。在这项工作中,我们研究了基于ML的生成模型以及程序方法的功效,作为增强有限输入模式数据集的工具。我们发现,具有自适应判别器增强器的基于样式的生成对抗网络能够成功利用1,000个示例模式来创建最真实的生成模式。通常,与真实模式有足够相似之处的不同生成模式可以用作有限元模拟的输入,以有意义地增强训练数据集。为了实现这一方法论贡献,我们创建了一个基于Cahn-Hilliard模式的有限元分析模拟的开放访问数据集。我们预计未来的研究人员将能够利用此数据集并基于此处介绍的工作。
translated by 谷歌翻译
睡眠是一种基本的生理过程,对于维持健康的身心至关重要。临床睡眠监测的黄金标准是多核桃摄影(PSG),基于哪个睡眠可以分为五个阶段,包括尾脉冲睡眠(REM睡眠)/非REM睡眠1(N1)/非REM睡眠2 (n2)/非REM睡眠3(n3)。然而,PSG昂贵,繁重,不适合日常使用。对于长期睡眠监测,无处不在的感测可以是解决方案。最近,心脏和运动感测在分类三阶段睡眠方面变得流行,因为两种方式都可以从研究级或消费者级设备中获得(例如,Apple Watch)。但是,为最大准确性融合数据的最佳仍然是一个打开的问题。在这项工作中,我们综合地研究了深度学习(DL)的高级融合技术,包括三种融合策略,三个融合方法以及三级睡眠分类,基于两个公共数据集。实验结果表明,通过融合心脏/运动传感方式可以可靠地分类三阶段睡眠,这可能成为在睡眠中进行大规模睡眠阶段评估研究或长期自动跟踪的实用工具。为了加快普遍存在/可穿戴计算社区的睡眠研究的进展,我们制作了该项目开源,可以在:https://github.com/bzhai/ubi-sleepnet找到代码。
translated by 谷歌翻译
在临床医学中,磁共振成像(MRI)是诊断,分类,预后和治疗计划中最重要的工具之一。然而,MRI遭受了固有的慢数据采集过程,因为数据在k空间中顺序收集。近年来,大多数MRI重建方法在文献中侧重于整体图像重建而不是增强边缘信息。这项工作通过详细说明了对边缘信息的提高来阐述了这一趋势。具体地,我们通过结合多视图信息介绍一种用于快速多通道MRI重建的新型并行成像耦合双鉴别器生成的对抗网络(PIDD-GaN)。双判别设计旨在改善MRI重建中的边缘信息。一个鉴别器用于整体图像重建,而另一个鉴别器是负责增强边缘信息的负责。为发电机提出了一种具有本地和全局剩余学习的改进的U-Net。频率通道注意块(FCA块)嵌入在发电机中以结合注意力机制。引入内容损耗以培训发电机以获得更好的重建质量。我们对Calgary-Campinas公共大脑MR DataSet进行了全面的实验,并将我们的方法与最先进的MRI重建方法进行了比较。在MICCAI13数据集上进行了对剩余学习的消融研究,以验证所提出的模块。结果表明,我们的PIDD-GaN提供高质量的重建MR图像,具有良好的边缘信息。单图像重建的时间低于5ms,符合加快处理的需求。
translated by 谷歌翻译
音频合成中的时频(TF)表示已越来越多地通过实价网络建模。但是,忽略TF表示的复杂值的性质可能会导致次优性能,并且需要其他模块(例如,用于对阶段进行建模)。为此,我们介绍了称为Apollo的复杂价值的多项式网络,该网络以自然方式集成了这种复杂值的表示。具体而言,阿波罗使用高阶张量作为缩放参数捕获输入元件的高阶相关性。通过利用标准张量分解,我们得出了不同的体系结构并启用建模更丰富的相关性。我们概述了这样的体系结构,并在四个基准测试中展示了它们在音频发电中的性能。重点,阿波罗(Apollo)在音频生成中SC09数据集中的最先进的扩散模型比对抗方法的$ 17.5 \%$改进,而$ 8.2 \%$。我们的模型可以鼓励在复杂领域的其他高效体系结构进行系统的设计。
translated by 谷歌翻译
物联网技术的开发使各种传感器可以集成到移动设备中。基于传感器数据的人类活动识别(HAR)已成为机器学习和无处不在计算领域的积极研究主题。但是,由于人类活动的频率不一致,人类活动数据集中的每个活动的数据量都会失衡。考虑到有限的传感器资源和手动标记的传感器数据的高成本,人类活动识别面临着高度不平衡的活动数据集的挑战。在本文中,我们建议平衡传感器数据生成的对抗网络(BSDGAN),以生成少数人类活动的传感器数据。所提出的BSDGAN由生成器模型和鉴别模型组成。考虑到人类活动数据集的极端失衡,使用自动编码器来初始化BSDGAN的训练过程,并确保可以学习每个活动的数据特征。生成的活动数据与原始数据集结合在一起,以平衡人类活动类别的活动数据量。我们在两个公开可用的人类活动数据集WISDM和UNIMIB上部署了多个人类活动识别模型。实验结果表明,提出的BSDGAN可以有效地捕获真实人类活动传感器数据的数据特征,并生成逼真的合成传感器数据。同时,平衡的活动数据集可以有效地帮助活动识别模型提高识别精度。
translated by 谷歌翻译
生成的对抗网络由于研究人员的最新性能在生成新图像时仅使用目标分布的数据集,因此引起了研究人员的关注。已经表明,真实图像的频谱和假图像之间存在差异。由于傅立叶变换是一种徒图映射,因此说该模型在学习原始分布方面有一个重大问题是一个公平的结论。在这项工作中,我们研究了当前gan的架构和数学理论中提到的缺点的可能原因。然后,我们提出了一个新模型,以减少实际图像和假图像频谱之间的差异。为此,我们使用几何深度学习的蓝图为频域设计了一个全新的架构。然后,我们通过将原始数据的傅立叶域表示作为训练过程中的主要特征来表明生成图像的质量的有希望的改善。
translated by 谷歌翻译
基于深度学习的疾病检测和分割算法承诺提高许多临床过程。然而,由于数据隐私,法律障碍和非统一数据采集协议,此类算法需要大量的注释训练数据,通常在医学环境中不可用。具有注释病理学的合成数据库可以提供所需的培训数据量。我们展示了缺血性卒中的例子,即利用基于深度学习的增强的病变分割的改善是可行的。为此,我们训练不同的图像到图像转换模型,以合成大脑体积的磁共振图像,并且没有来自语义分割图的中风病变。此外,我们培养一种生成的对抗性网络来产生合成病变面具。随后,我们组合这两个组件来构建大型合成描边图像数据库。使用U-NET评估各种模型的性能,该U-NET在临床测试集上培训以进行段中风病变。我们向最佳性能报告$ \ mathbf {72.8} $%[$ \ mathbf {70.8 \ pm1.0} $%]的骰子分数,这胜过了单独临床图像培训的模型培训$ \ mathbf { 67.3} $%[$ \ mathbf {63.2 \ pm1.9} $%],并且接近人类互相互联网骰子评分$ \ mathbf {76.9} $%。此外,我们表明,对于仅为10或50个临床案例的小型数据库,与使用不使用合成数据的设置相比,合成数据增强产生了显着的改进。据我们所知,这提出了基于图像到图像翻译的合成数据增强的第一个比较分析,并将第一应用于缺血性卒中。
translated by 谷歌翻译
以时间序列形式出现的信号测量是医疗机学习应用中使用的最常见数据类型之一。这样的数据集的大小通常很小,收集和注释昂贵,并且可能涉及隐私问题,这阻碍了我们培训用于生物医学应用的大型,最先进的深度学习模型的能力。对于时间序列数据,我们可以用来扩展数据集大小的数据增强策略套件受到维护信号的基本属性的限制。生成对抗网络(GAN)可以用作另一种数据增强工具。在本文中,我们提出了TTS-CGAN,这是一种基于变压器的条件GAN模型,可以在现有的多级数据集上进行训练,并生成特定于类的合成时间序列序列的任意长度。我们详细介绍了模型架构和设计策略。由我们的模型生成的合成序列与真实的序列无法区分,可以用来补充或替换相同类型的真实信号,从而实现了数据增强的目标。为了评估生成的数据的质量,我们修改小波相干度量指标,以比较两组信号之间的相似性,还可以进行案例研究,其中使用合成和真实数据的混合来训练深度学习模型用于序列分类。与其他可视化技术和定性评估方法一起,我们证明TTS-CGAN生成的合成数据类似于真实数据,并且我们的模型的性能优于为时间序列数据生成而构建的其他最先进的GAN模型。
translated by 谷歌翻译
频谱图分类在分析引力波数据中起重要作用。在本文中,我们提出了一个框架来通过使用生成对抗网络(GAN)来改善分类性能。由于注释光谱图需要大量的努力和专业知识,因此训练示例的数量非常有限。但是,众所周知,只有当训练集的样本量足够大时,深层网络才能表现良好。此外,不同类别中的样本数量不平衡也会阻碍性能。为了解决这些问题,我们提出了一个基于GAN的数据增强框架。虽然无法在频谱图上应用常规图像的标准数据增强方法,但我们发现,甘恩(Progan)的一种变体能够生成高分辨率频谱图,这些光谱图与高分辨率原始图像的质量一致并提供了理想的多样性。我们通过将{\ it Gravity间谍}数据集中的小故障与GAN生成的频谱图分类为训练,从而验证了我们的框架。我们表明,所提出的方法可以为使用深网的分类提供转移学习的替代方法,即使用高分辨率GAN进行数据增强。此外,可以大大降低分类性能的波动,用于训练和评估的小样本量。在我们的框架中,使用训练有素的网络,我们还检查了{\ it Gravity Spy}中标签异常的频谱图。
translated by 谷歌翻译
Adversarially trained generative models (GANs) have recently achieved compelling image synthesis results. But despite early successes in using GANs for unsupervised representation learning, they have since been superseded by approaches based on self-supervision. In this work we show that progress in image generation quality translates to substantially improved representation learning performance. Our approach, BigBiGAN, builds upon the state-of-the-art BigGAN model, extending it to representation learning by adding an encoder and modifying the discriminator. We extensively evaluate the representation learning and generation capabilities of these BigBiGAN models, demonstrating that these generation-based models achieve the state of the art in unsupervised representation learning on ImageNet, as well as in unconditional image generation. Pretrained BigBiGAN models -including image generators and encoders -are available on TensorFlow Hub 1 .
translated by 谷歌翻译
Supervised classification methods have been widely utilized for the quality assurance of the advanced manufacturing process, such as additive manufacturing (AM) for anomaly (defects) detection. However, since abnormal states (with defects) occur much less frequently than normal ones (without defects) in the manufacturing process, the number of sensor data samples collected from a normal state outweighs that from an abnormal state. This issue causes imbalanced training data for classification models, thus deteriorating the performance of detecting abnormal states in the process. It is beneficial to generate effective artificial sample data for the abnormal states to make a more balanced training set. To achieve this goal, this paper proposes a novel data augmentation method based on a generative adversarial network (GAN) using additive manufacturing process image sensor data. The novelty of our approach is that a standard GAN and classifier are jointly optimized with techniques to stabilize the learning process of standard GAN. The diverse and high-quality generated samples provide balanced training data to the classifier. The iterative optimization between GAN and classifier provides the high-performance classifier. The effectiveness of the proposed method is validated by both open-source data and real-world case studies in polymer and metal AM processes.
translated by 谷歌翻译