The release of ChatGPT, a language model capable of generating text that appears human-like and authentic, has gained significant attention beyond the research community. We expect that the convincing performance of ChatGPT incentivizes users to apply it to a variety of downstream tasks, including prompting the model to simplify their own medical reports. To investigate this phenomenon, we conducted an exploratory case study. In a questionnaire, we asked 15 radiologists to assess the quality of radiology reports simplified by ChatGPT. Most radiologists agreed that the simplified reports were factually correct, complete, and not potentially harmful to the patient. Nevertheless, instances of incorrect statements, missed key medical findings, and potentially harmful passages were reported. While further studies are needed, the initial insights of this study indicate a great potential in using large language models like ChatGPT to improve patient-centered care in radiology and other medical domains.
translated by 谷歌翻译
Point-of-Care Ultrasound (POCUS) refers to clinician-performed and interpreted ultrasonography at the patient's bedside. Interpreting these images requires a high level of expertise, which may not be available during emergencies. In this paper, we support POCUS by developing classifiers that can aid medical professionals by diagnosing whether or not a patient has pneumothorax. We decomposed the task into multiple steps, using YOLOv4 to extract relevant regions of the video and a 3D sparse coding model to represent video features. Given the difficulty in acquiring positive training videos, we trained a small-data classifier with a maximum of 15 positive and 32 negative examples. To counteract this limitation, we leveraged subject matter expert (SME) knowledge to limit the hypothesis space, thus reducing the cost of data collection. We present results using two lung ultrasound datasets and demonstrate that our model is capable of achieving performance on par with SMEs in pneumothorax identification. We then developed an iOS application that runs our full system in less than 4 seconds on an iPad Pro, and less than 8 seconds on an iPhone 13 Pro, labeling key regions in the lung sonogram to provide interpretable diagnoses.
translated by 谷歌翻译
Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.
translated by 谷歌翻译
考虑到整个时间领域的信息有助于改善自动驾驶中的环境感知。但是,到目前为止,尚未研究暂时融合的神经网络是否容易受到故意产生的扰动,即对抗性攻击,或者时间历史是否是对它们的固有防御。在这项工作中,我们研究了用于对象检测的时间特征网络是否容易受到通用对抗性攻击的影响。我们评估了两种类型的攻击:整个图像和本地界面贴片的不可察觉噪声。在这两种情况下,使用PGD以白盒方式生成扰动。我们的实验证实,即使攻击时间的一部分时间都足以欺骗网络。我们在视觉上评估生成的扰动,以了解攻击功能。为了增强鲁棒性,我们使用5-PGD应用对抗训练。我们在Kitti和Nuscenes数据集上进行的实验证明了通过K-PGD鲁棒化的模型能够承受研究的攻击,同时保持基于地图的性能与未破坏模型的攻击。
translated by 谷歌翻译
对应用深神网络自动解释和分析12铅心电图(ECG)的兴趣增加了。机器学习方法的当前范例通常受到标记数据量的限制。对于临床上的数据,这种现象尤其有问题,在该数据中,根据所需的专业知识和人类努力,规模标签可能是耗时且昂贵的。此外,深度学习分类器可能容易受到对抗性例子和扰动的影响,例如在医疗,临床试验或保险索赔的背景下应用时,可能会带来灾难性的后果。在本文中,我们提出了一种受生理启发的数据增强方法,以提高性能并根据ECG信号提高心脏病检测的鲁棒性。我们通过将数据分布驱动到瓦斯坦斯坦空间中的大地测量中的其他类别来获得增强样品。为了更好地利用领域特定的知识,我们设计了一个基础指标,该指标识别基于生理确定的特征的ECG信号之间的差异。从12铅ECG信号中学习,我们的模型能够区分五种心脏条件。我们的结果表明,准确性和鲁棒性的提高,反映了我们数据增强方法的有效性。
translated by 谷歌翻译
培训和评估语言模型越来越多地要求构建元数据 - 多样化的策划数据收集,并具有清晰的出处。自然语言提示最近通过将现有的,有监督的数据集转换为多种新颖的预处理任务,突出了元数据策划的好处,从而改善了零击的概括。尽管将这些以数据为中心的方法转化为生物医学语言建模的通用域文本成功,但由于标记的生物医学数据集在流行的数据中心中的代表性大大不足,因此仍然具有挑战性。为了应对这一挑战,我们介绍了BigBio一个由126个以上的生物医学NLP数据集的社区库,目前涵盖12个任务类别和10多种语言。 BigBio通过对数据集及其元数据进行程序化访问来促进可再现的元数据策划,并与当前的平台兼容,以及时工程和端到端的几个/零射击语言模型评估。我们讨论了我们的任务架构协调,数据审核,贡献指南的过程,并概述了两个说明性用例:生物医学提示和大规模,多任务学习的零射门评估。 BigBio是一项持续的社区努力,可在https://github.com/bigscience-workshop/biomedical上获得。
translated by 谷歌翻译
深度学习(DL)模型为各种医学成像基准挑战提供了最先进的性能,包括脑肿瘤细分(BRATS)挑战。然而,局灶性病理多隔室分割(例如,肿瘤和病变子区)的任务特别具有挑战性,并且潜在的错误阻碍DL模型转化为临床工作流程。量化不确定形式的DL模型预测的可靠性,可以实现最不确定的地区的临床审查,从而建立信任并铺平临床翻译。最近,已经引入了许多不确定性估计方法,用于DL医学图像分割任务。开发指标评估和比较不确定性措施的表现将有助于最终用户制定更明智的决策。在本研究中,我们探索并评估在Brats 2019-2020任务期间开发的公制,以对不确定量化量化(Qu-Brats),并旨在评估和排列脑肿瘤多隔室分割的不确定性估计。该公制(1)奖励不确定性估计,对正确断言产生高置信度,以及在不正确的断言处分配低置信水平的估计数,(2)惩罚导致更高百分比的无关正确断言百分比的不确定性措施。我们进一步基准测试由14个独立参与的Qu-Brats 2020的分割不确定性,所有这些都参与了主要的Brats细分任务。总体而言,我们的研究结果证实了不确定性估计提供了分割算法的重要性和互补价值,因此突出了医学图像分析中不确定性量化的需求。我们的评估代码在HTTPS://github.com/ragmeh11/qu-brats公开提供。
translated by 谷歌翻译
面部美容预测(FBP)旨在开发一种机器,自动制作面部吸引力评估。在过去的情况下,结果与人类评分高度相关,因此也与注释的偏差相同。由于人工智能可以具有种族主义和歧视性倾向,必须识别数据中偏差的原因。培训数据的开发和对抗偏见信息具有强大的算法是科学家的新挑战。随着审美判断通常偏见,我们希望进一步迈出一步,并为FBP提出一个非偏见的卷积神经网络。虽然可以从道德角度创建可以对脸部的吸引力的网络模型,从道德的角度来看,它同样重要的是要确保模型是无偏的。在这项工作中,我们引入了美学,最先进的吸引力预测网络,这显着优于竞争对手0.9601的Pearson相关性。此外,我们提出了一种新的方法,用于产生无偏见的CNN,以改善机器学习中的公平性。
translated by 谷歌翻译
深度学习在生存分析中的应用(SA)允许在传统的生存方法中利用非结构化和高维数据类型罕见。这允许推进数字健康,预测性维护和流失分析等领域的方法,但由于基于深度学习的方法的黑匣子特征,通常会产生更少的可解释和直观的模型。我们通过提出1)多任务变分性AutoEncoder(VAE),以存活目标,产生生存的嵌入,2)一种新的方法危险障碍,允许在原始数据空间中模拟危险因素的新方法危险。HazardWalk将ioirencoder的潜在分布转换为最大化/最小化危险区域,然后使用解码器对原始域的项目更改。我们的程序在模拟数据集以及肝转放患者的CT成像数据的数据集上进行评估。
translated by 谷歌翻译
深度学习擅长在非结构化数据分析中,最近的进步允许将这些技术扩展到生存分析。在临床放射学的背景下,这使得例如将非结构化的体积图像与风险评分或预期预期的预后和支持临床决策相关。然而,医学应用与高临界有关,因此,医生和患者均不会接受黑匣子模型作为决策的原因或基础。除了向新技术的厌恶之外,这是由于许多机器学习方法的可解释性,透明度和问责制为。我们提出了一种危险的正规化变分性,可以在生存分析中,支持对深神经结构的直接解释,在生存分析中,一个在医疗保健中高度相关的领域。我们将建议的腹部CT扫描方法应用于肝脏肿瘤的腹部CT扫描及其相应的存活时间。
translated by 谷歌翻译