Recent work has reported that AI classifiers trained on audio recordings can accurately predict severe acute respiratory syndrome coronavirus 2 (SARSCoV2) infection status. Here, we undertake a large scale study of audio-based deep learning classifiers, as part of the UK governments pandemic response. We collect and analyse a dataset of audio recordings from 67,842 individuals with linked metadata, including reverse transcription polymerase chain reaction (PCR) test outcomes, of whom 23,514 tested positive for SARS CoV 2. Subjects were recruited via the UK governments National Health Service Test-and-Trace programme and the REal-time Assessment of Community Transmission (REACT) randomised surveillance survey. In an unadjusted analysis of our dataset AI classifiers predict SARS-CoV-2 infection status with high accuracy (Receiver Operating Characteristic Area Under the Curve (ROCAUC) 0.846 [0.838, 0.854]) consistent with the findings of previous studies. However, after matching on measured confounders, such as age, gender, and self reported symptoms, our classifiers performance is much weaker (ROC-AUC 0.619 [0.594, 0.644]). Upon quantifying the utility of audio based classifiers in practical settings, we find them to be outperformed by simple predictive scores based on user reported symptoms.
translated by 谷歌翻译
Since early in the coronavirus disease 2019 (COVID-19) pandemic, there has been interest in using artificial intelligence methods to predict COVID-19 infection status based on vocal audio signals, for example cough recordings. However, existing studies have limitations in terms of data collection and of the assessment of the performances of the proposed predictive models. This paper rigorously assesses state-of-the-art machine learning techniques used to predict COVID-19 infection status based on vocal audio signals, using a dataset collected by the UK Health Security Agency. This dataset includes acoustic recordings and extensive study participant meta-data. We provide guidelines on testing the performance of methods to classify COVID-19 infection status based on acoustic features and we discuss how these can be extended more generally to the development and assessment of predictive methods based on public health datasets.
translated by 谷歌翻译
The UK COVID-19 Vocal Audio Dataset is designed for the training and evaluation of machine learning models that classify SARS-CoV-2 infection status or associated respiratory symptoms using vocal audio. The UK Health Security Agency recruited voluntary participants through the national Test and Trace programme and the REACT-1 survey in England from March 2021 to March 2022, during dominant transmission of the Alpha and Delta SARS-CoV-2 variants and some Omicron variant sublineages. Audio recordings of volitional coughs, exhalations, and speech were collected in the 'Speak up to help beat coronavirus' digital survey alongside demographic, self-reported symptom and respiratory condition data, and linked to SARS-CoV-2 test results. The UK COVID-19 Vocal Audio Dataset represents the largest collection of SARS-CoV-2 PCR-referenced audio recordings to date. PCR results were linked to 70,794 of 72,999 participants and 24,155 of 25,776 positive cases. Respiratory symptoms were reported by 45.62% of participants. This dataset has additional potential uses for bioacoustics research, with 11.30% participants reporting asthma, and 27.20% with linked influenza PCR test results.
translated by 谷歌翻译
Covid-19大流行为感染检测和监测解决方案产生了重大的兴趣和需求。在本文中,我们提出了一种机器学习方法,可以使用在消费者设备上进行的录音来快速分离Covid-19。该方法将信号处理方法与微调深层学习网络相结合,提供了信号去噪,咳嗽检测和分类的方法。我们还开发并部署了一个移动应用程序,使用症状检查器与语音,呼吸和咳嗽信号一起使用,以检测Covid-19感染。该应用程序对两个开放的数据集和最终用户在测试版测试期间收集的嘈杂数据显示了鲁棒性能。
translated by 谷歌翻译
Covid-19大流行是人类的祸害,宣称全世界超过500万人的生活。虽然疫苗正在全世界分布,但表观需要实惠的筛选技术,以便为无法获得传统医学的世界服务。人工智能可以提供利用咳嗽声音作为主要筛选模式的解决方案。本文介绍了多种模型,这些模型在学术文献目前呈现的最大评估数据集上取得了相对尊敬的性能。此外,我们还显示性能随着培训数据规模而增加,表明世界各地的数据收集,以帮助使用非传统方式对抗Covid-19大流行。
translated by 谷歌翻译
Covid-19在全球范围内影响了223多个国家。迫切需要非侵入性,低成本和高度可扩展的解决方案来检测COVID-19,尤其是在PCR测试无普遍可用的低资源国家。我们的目的是开发一个深度学习模型,使用普通人群(语音录音和简短问卷)通过其个人设备自发提供的语音数据记录来识别Covid-19。这项工作的新颖性在于开发一个深度学习模型,以鉴定来自语音记录的199名患者。方法:我们使用了由893个音频样本组成的剑桥大学数据集,该数据集由4352名参与者的人群来源,这些参与者使用了COVID-19 Sounds应用程序。使用MEL光谱分析提取语音功能。根据语音数据,我们开发了深度学习分类模型,以检测阳性的Covid-19情况。这些模型包括长期术语记忆(LSTM)和卷积神经网络(CNN)。我们将它们的预测能力与基线分类模型进行了比较,即逻辑回归和支持向量机。结果:基于MEL频率CEPSTRAL系数(MFCC)功能的LSTM具有最高的精度(89%),其灵敏度和特异性分别为89%和89%,其结果通过提议的模型获得了显着改善,这表明该结果显着改善与艺术状态获得的结果相比,COVID-19诊断的预测准确性。结论:深度学习可以检测到199例患者的声音中的细微变化,并有令人鼓舞的结果。作为当前测试技术的补充,该模型可以使用简单的语音分析帮助卫生专业人员快速诊断和追踪Covid-19案例
translated by 谷歌翻译
爆发两年多后,Covid-19的大流行继续困扰世界各地的医疗系统,给稀缺资源带来压力,并夺走了人类的生命。从一开始,已经采用了各种基于AI的CoVID-19检测和监测工具,以试图通过及时诊断来阻止感染的潮流。特别是,已经建议计算机试听是一种非侵入性,成本效益和环保的替代方法,可通过声音通过声音来检测COVID-19的感染。但是,像所有AI方法一样,计算机试镜也很大程度上取决于可用数据的数量和质量,并且由于此类数据的敏感性,大规模的COVID-19声音数据集很难获取 - 除其他原因外。为此,我们介绍了COVYT数据集 - 一种新颖的Covid-19数据集,该数据集是从包含来自65位演讲者的8个小时以上语音的公共资源中收集的。与其他现有的COVID-19声音数据集相比,COVYT数据集的独特功能是,它包括所有65位扬声器的covid-19正和负样本。我们使用可解释的音频描述来分析Covid-19的声学表现,并使用可解释的音频描述,并研究几种分类场景,并调查一些分类场景,以将基于公平的言语的COVID进行适当的分配策略-19检测。
translated by 谷歌翻译
最近的工作表明,在Covid-19筛选中使用音频数据的可能性。然而,对监测疾病进展进行了很少的探索,特别是通过音频在Covid-19中恢复。跟踪疾病进展特征和复苏模式可能导致巨大的见解和更及时的治疗或治疗调整,以及在医疗保健系统中更好的资源管理。本研究的主要目的是利用顺序深度学习技术探讨Covid-19监测的纵向音频动力学的潜力,专注于疾病进展预测,特别是恢复趋势预测。我们分析了5天至385天的212个个体中众包呼吸系统数据,以及其自我报告的Covid-19测试结果。我们首先探讨捕获音频生物标志物的纵向动态的好处,用于Covid-19检测。强化性能,产生0.79的AUC-ROC,灵敏度为0.75,特异性为0.70,与不利用纵向动态的方法相比,该方法的有效性。我们进一步检查了预测的疾病进展轨迹,其显示出高一致性与纵向试验结果,测试队列中的0.76中的相关性,测试队列的子集中为0.86,其中12名参与者报告疾病恢复。我们的研究结果表明,通过纵向音频数据监测Covid-19进展在追踪个人疾病进展和恢复方面具有巨大潜力。
translated by 谷歌翻译
我们寻求基于8,380临床验证样品的咳嗽声,评估Covid-19的快速初级筛查工具的检测性能,从8,380临床验证的样品进行实验室分子测试(2,339 Covid-19阳性和6,041个Covid-19负面)。根据患者的定量RT-PCR(QRT-PCR)分析,循环阈值和淋巴细胞计数,根据结果和严重程度临床标记样品。我们所提出的通用方法是一种基于经验模式分解(EMD)的算法,其随后基于音频特征的张量和具有称为Deplecough的卷积层的深层人工神经网络分类器的分类。基于张量尺寸的数量,即DepeCough2D和DeepCOUGH3D,两种不同版本的深度。这些方法已部署在多平台概念验证Web应用程序CoughDetect中以匿名管理此测试。 Covid-19识别结果率达到了98.800.83%,敏感性为96.431.85%的有前途的AUC(面积),特异性为96.201.74%,81.08%5.05%AUC,用于识别三个严重程度。我们提出的Web工具和支持稳健,快速,需要Covid-19的需求识别的基础算法有助于快速检测感染。我们认为,它有可能大大妨碍世界各地的Covid-19大流行。
translated by 谷歌翻译
手机数据可以改善计划的目标吗?通过将来自阿富汗的“大推动”反贫困计划与计划受益人的详细手机日志结合在一起,我们研究了机器学习方法可以在多大程度上准确地区分有资格从不合格家庭中获得计划收益的超贫困家庭。我们表明,利用手机数据的机器学习方法可以识别超贫困家庭的准确性,几乎与基于调查的消费和财富量度一样准确。而将基于调查的措施与手机数据结合起来比基于单个数据源的措施更准确。
translated by 谷歌翻译
COVID-19导致与不同的SARS-COV-2变体相关的多种感染波。研究报告了这些变体对患者呼吸健康的影响不同。我们探索从COVID-19受试者收集的声学信号是否显示出可区分的声学模式,这表明有可能预测潜在的病毒变体。我们分析了从三个主题库中收集的COSWARA数据集,即i)健康,ii)在三角洲变体占主导地位期间记录的covid-199受试者,以及III)来自Omicron Expear中记录的COVID-19的数据。我们的发现表明,咳嗽,呼吸和语音等多种声音类别表明,在将COVID-19与Omicron和Delta变体进行比较时,声音特征差异很大。在曲线下,分类区域大大超过了被Omicron感染的受试者与三角洲感染者的机会。使用来自多个声音类别的得分融合,我们在95%的特异性下获得了89%和52.4%的敏感性的区域。此外,使用分层三类方法将声学数据分类为健康和共同-19阳性,并将进一步的COVID受试者分为三角洲和Omicron变体,从而提供了高水平的3类分类精度。这些结果提出了设计基于声音的COVID-19诊断方法的新方法。
translated by 谷歌翻译
目的:我们研究使用机器学习(ML)模型的可解释的累入预测,并在预测能力,稀疏性和公平性方面分析性能。与以前的作品不同,本研究列举了输出概率而不是二进制预测的可解释模型,并使用定量公平定义来评估模型。本研究还研究了模型是否可以横跨地理位置概括。方法:我们在佛罗里达州和肯塔基州的两个不同的刑事核查数据集上生成了黑盒和可解释的ML模型。我们将这些模型的预测性能和公平与目前用于司法系统中使用的两种方法进行了比较,以预测审前常规率:Arnold PSA和Compas。我们评估了所有模型的预测性能,可以在两次跨越两次预测六种不同类型犯罪的模型。结果:几种可解释的ML模型可以预测常规和黑盒ML模型,比Compas或Arnold PSA更准确。这些模型在实践中可能有用。类似于Arnold PSA,这些可解释模型中的一些可以作为一个简单的表格写入。其他可以使用一组可视化显示。我们的地理分析表明ML模型应分开培训,以便单独的位置并随时间更新。我们还为可​​解释模型提供了公平分析。结论:可解释的机器学习模型可以在预测准确性和公平性方面表现,也可以表现,也可以表现,也可以执行不可解释的方法和目前使用的风险评估尺度。机器学习模型对于单独培训,可以更准确地进行不同的位置,并保持最新。
translated by 谷歌翻译
肺癌是全球癌症死亡的主要原因,肺腺癌是最普遍的肺癌形式。 EGFR阳性肺腺癌已被证明对TKI治疗的反应率很高,这是肺癌分子测试的基本性质。尽管目前的指南考虑必要测试,但很大一部分患者并未常规化,导致数百万的人未接受最佳治疗肺癌。测序是EGFR突变分子测试的黄金标准,但是结果可能需要数周的时间才能回来,这在时间限制的情况下并不理想。能够快速,便宜地检测EGFR突变的替代筛查工具的开发,同时保存组织以进行测序可以帮助减少受比较治疗的患者的数量。我们提出了一种多模式方法,该方法将病理图像和临床变量整合在一起,以预测EGFR突变状态,迄今为止最大的临床队列中的AUC为84%。这样的计算模型可以以很少的额外成本进行大部分部署。它的临床应用可以减少中国接受亚最佳治疗的患者数量53.1%,在美国将高达96.6%的患者减少96.6%。
translated by 谷歌翻译
如今,人工智能(AI)已成为临床和远程医疗保健应用程序的基本组成部分,但是最佳性能的AI系统通常太复杂了,无法自我解释。可解释的AI(XAI)技术被定义为揭示系统的预测和决策背后的推理,并且在处理敏感和个人健康数据时,它们变得更加至关重要。值得注意的是,XAI并未在不同的研究领域和数据类型中引起相同的关注,尤其是在医疗保健领域。特别是,许多临床和远程健康应用程序分别基于表格和时间序列数据,而XAI并未在这些数据类型上进行分析,而计算机视觉和自然语言处理(NLP)是参考应用程序。为了提供最适合医疗领域表格和时间序列数据的XAI方法的概述,本文提供了过去5年中文献的审查,说明了生成的解释的类型以及为评估其相关性所提供的努力和质量。具体而言,我们确定临床验证,一致性评估,客观和标准化质量评估以及以人为本的质量评估作为确保最终用户有效解释的关键特征。最后,我们强调了该领域的主要研究挑战以及现有XAI方法的局限性。
translated by 谷歌翻译
A significant level of stigma and inequality exists in mental healthcare, especially in under-served populations, which spreads through collected data. When not properly accounted for, machine learning (ML) models learned from data can reinforce the structural biases already present in society. Here, we present a systematic study of bias in ML models designed to predict depression in four different case studies covering different countries and populations. We find that standard ML approaches show regularly biased behaviors. However, we show that standard mitigation techniques, and our own post-hoc method, can be effective in reducing the level of unfair bias. We provide practical recommendations to develop ML models for depression risk prediction with increased fairness and trust in the real world. No single best ML model for depression prediction provides equality of outcomes. This emphasizes the importance of analyzing fairness during model selection and transparent reporting about the impact of debiasing interventions.
translated by 谷歌翻译
机器学习渗透到许多行业,这为公司带来了新的利益来源。然而,在人寿保险行业中,机器学习在实践中并未被广泛使用,因为在过去几年中,统计模型表明了它们的风险评估效率。因此,保险公司可能面临评估人工智能价值的困难。随着时间的流逝,专注于人寿保险行业的修改突出了将机器学习用于保险公司的利益以及通过释放数据价值带来的利益。本文回顾了传统的生存建模方法论,并通过机器学习技术扩展了它们。它指出了与常规机器学习模型的差异,并强调了特定实现在与机器学习模型家族中面对审查数据的重要性。在本文的补充中,已经开发了Python库。已经调整了不同的开源机器学习算法,以适应人寿保险数据的特殊性,即检查和截断。此类模型可以轻松地从该SCOR库中应用,以准确地模拟人寿保险风险。
translated by 谷歌翻译
呼吸声分类中的问题已在去年的临床科学家和医学研究员团体中获得了良好的关注,以诊断Covid-19疾病。迄今为止,各种模型的人工智能(AI)进入了现实世界,从人类生成的声音等人生成的声音中检测了Covid-19疾病,例如语音/言语,咳嗽和呼吸。实现卷积神经网络(CNN)模型,用于解决基于人工智能(AI)的机器上的许多真实世界问题。在这种情况下,建议并实施一个维度(1D)CNN,以诊断Covid-19的呼吸系统疾病,例如语音,咳嗽和呼吸。应用基于增强的机制来改善Covid-19声音数据集的预处理性能,并使用1D卷积网络自动化Covid-19疾病诊断。此外,使用DDAE(数据去噪自动编码器)技术来产生诸如输入功能的深声特征,而不是采用MFCC(MEL频率跳跃系数)的标准输入,并且它更好地执行比以前的型号的准确性和性能。
translated by 谷歌翻译
保护私人信息是数据驱动的研究和业务环境中的关键问题。通常,引入匿名或(选择性)删除之类的技术,以允许数据共享,e。 G。在协作研究的情况下。为了与匿名技术一起使用,$ k $ - 匿名标准是最受欢迎的标准之一,具有许多有关不同算法和指标的科学出版物。匿名技术通常需要更改数据,因此必然会影响在基础数据上训练的机器学习模型的结果。在这项工作中,我们对不同的$ k $ - 匿名算法对机器学习模型结果的影响进行了系统的比较和详细研究。我们研究了与不同分类器的一组流行的$ K $匿名算法,并在不同的现实数据集上对其进行评估。我们的系统评估表明,凭借越来越强的$ K $匿名性约束,分类性能通常会降低,但在不同程度上,并且强烈取决于数据集和匿名方法。此外,蒙德里安可以被视为具有最具吸引力的后续分类属性的方法。
translated by 谷歌翻译
由于筛选乳房X线照片的假阴性评估,通常在晚期检测到与其他癌症更差的间隔和大型侵入性乳腺癌。错过的筛选时间检测通常由其周围乳腺组织模糊的肿瘤引起的,这是一种称为掩蔽的现象。为了研究和基准爆发癌症的乳房Xmmpare掩蔽,在这项工作中,我们引入CSAW-M,最大的公共乳房数据集,从10,000多个人收集并用潜在的掩蔽注释。与以前的方法对比测量乳房图像密度作为代理的方法,我们的数据集直接提供了五个专家屏蔽潜在评估的注释。我们还培训了CSAW-M的深入学习模型来估计掩蔽水平,并显示估计的掩蔽更加预测筛查患有间隔和大型侵入性癌症的参与者 - 而不是明确培训这些任务 - 而不是其乳房密度同行。
translated by 谷歌翻译
个体治疗效果(ITE)预测是机器学习的重要研究领域,其目的在解释和估算粒状水平时的作用的因果影响。它代表了对诸如医疗保健,在线广告或社会经济学的多个申请兴趣的问题。为了促进本主题的研究,我们释放了从几个随机控制试验中收集的1390万个样本的公开收集,通过健康的210倍因素扩展先前可用的数据集。我们提供有关数据收集的详细信息,并执行Sanity检查以验证使用此数据是否有因果推理任务。首先,我们正规化可以使用此数据执行的隆起建模(UM)的任务以及相关的评估指标。然后,我们提出了为ITE预测提供了一般设置的合成响应表面和异质处理分配。最后,我们报告实验以验证利用其大小的数据集的关键特性,以评估和比较 - 具有高统计显着性 - 基线UM和ITE预测方法的选择。
translated by 谷歌翻译