视网膜疗法代表一组视网膜疾病,如果不及时治疗,可能会导致严重的视觉障碍甚至失明。许多研究人员已经开发了自治系统,通过眼底和光学相干断层扫描(OCT)图像识别视网膜病变。然而,大多数这些框架采用传统的转移学习和微调方法,需要一种非常良好的注释训练数据来产生准确的诊断性能。本文提出了一种新型增量跨域适应仪,可以通过几次拍摄培训允许任何深度分类模型逐步学习OCT和眼底图像的异常视网膜病理。此外,与其竞争对手不同,所提出的仪器通过贝叶斯多目标函数驱动,不仅执行候选分类网络,不仅在增量培训期间保留其先前学到的知识,而且还确保网络了解先前学习的结构和语义关系病理学和新增的疾病类别在推理阶段有效地识别它们。所提出的框架,在用三种不同的扫描仪获得的六个公共数据集中评估,以筛选十三个视网膜病理,优于最先进的竞争对手,通过分别实现了0.9826和0.9846的整体准确性和F1得分。
translated by 谷歌翻译
肺部疾病会导致严重的呼吸问题,如果未及时治疗,导致猝死。许多研究人员利用深度学习系统使用胸部X射线(CXRS)诊断肺疾病。然而,这种系统需要在大规模数据上进行详尽的培训,以有效地诊断胸部异常。此外,采购这种大规模数据通常是不可行的和不切实际的,特别是对于罕见疾病。随着较近的增量学习的进步,研究人员定期调整了深度神经网络,以了解不同的训练示例。虽然,这种系统可以抵抗灾难性的遗忘,但它们彼此独立地对待知识表示,并且这限制了它们的分类性能。此外,据我们所知,没有增量学习驱动的图像诊断框架,专门用于筛选来自CXR的肺部障碍。为了解决这个问题,我们提出了一种新颖的框架,可以学会逐步逐步筛选不同的胸部异常。除此之外,拟议的框架通过增量学习损失函数,即在逐步学习的知识表示之间识别逐步学习知识表示之间的结构和语义互相依赖性,无论扫描仪规格如何,都会识别逐步学习的知识表示之间的结构和语义相互作用。我们在包含不同胸部异常的五个公共CXR数据集上测试了拟议的框架,其中它通过各种指标表现出各种最先进的系统。
translated by 谷歌翻译
筛选行李X射线扫描的筛选杂乱和闭塞违禁品,即使对于专家的安全人员而言,甚至是一个繁琐的任务。本文提出了一种新的策略,其扩展了传统的编码器 - 解码器架构,以执行实例感知分段,并在不使用任何附加子网络或对象检测器的情况下执行违反互斥项的合并实例。编码器 - 解码器网络首先执行传统的语义分割,并检索杂乱的行李物品。然后,该模型在训练期间逐步发展,以识别各个情况,使用显着减少的训练批次。为了避免灾难性的遗忘,一种新颖的客观函数通过保留先前获得的知识来最小化每次迭代中的网络损失,同时通过贝叶斯推断解决其复杂的结构依赖性。对我们两个公开的X射线数据集的框架进行了全面评估,表明它优于最先进的方法,特别是在挑战的杂乱场景中,同时在检测准确性和效率之间实现最佳的权衡。
translated by 谷歌翻译
我们展示了域不变特征学习(DIFL)可以改善深度学习结核筛查算法的域名概括性。众所周知,由于“域移位”,最深入的深度学习算法通常具有难以推广的概念数据分布。在医学成像的背景下,这可能导致意外的偏见,例如从一个患者人口到另一个患者人口的无法概括。我们分析了reset-50分类器的性能,以便用四个最受欢迎的公共数据集在地理上不同的图像来源的核化性筛选的目的。我们表明,如果没有域适应,Reset-50难以通过来自地理分布区域的图像从许多公共结核病筛查数据集之间概括成像分布。然而,随着DIFL的掺入,域外的性能大大提高了。分析标准包括对基线的准确性,灵敏度,特异性和AUC的比较,以及DIFL增强算法。我们得出结论,DIFL在应用跨各种公共数据集时保持结核筛查的易用性,同时在源域图像上保持可接受的准确性。
translated by 谷歌翻译
检测行李中的非法和威胁物品是最大的安全问题之一。即使对于经验丰富的安全人员来说,手动检测也是一种耗时和压力的任务。许多学者都创建了自动框架,用于检测行李X射线扫描的可疑和违禁品数据。然而,为了我们的知识,不存在利用时间行李X射线图像的框架,以有效地筛选高度隐藏和闭塞物体,即使赤裸的眼睛也几乎看不到。为了解决这个问题,我们提出了一种新型的时间融合驱动的多尺度残余方式编码器 - 解码器,将一系列连续扫描作为输入,并融合它们以产生可疑和不可疑行李内容的不同特征表示,导致更准确提取违禁品数据。使用可公开访问的GDXRAY数据集已彻底测试所提出的方法,该数据集是包含时间链接的灰度X射线扫描的唯一数据集,其展示了极其隐藏的违禁品数据。拟议的框架在各种度量标准上的GDXRay数据集上占据了竞争对手。
translated by 谷歌翻译
Diabetic Retinopathy (DR) is a leading cause of vision loss in the world, and early DR detection is necessary to prevent vision loss and support an appropriate treatment. In this work, we leverage interactive machine learning and introduce a joint learning framework, termed DRG-Net, to effectively learn both disease grading and multi-lesion segmentation. Our DRG-Net consists of two modules: (i) DRG-AI-System to classify DR Grading, localize lesion areas, and provide visual explanations; (ii) DRG-Expert-Interaction to receive feedback from user-expert and improve the DRG-AI-System. To deal with sparse data, we utilize transfer learning mechanisms to extract invariant feature representations by using Wasserstein distance and adversarial learning-based entropy minimization. Besides, we propose a novel attention strategy at both low- and high-level features to automatically select the most significant lesion information and provide explainable properties. In terms of human interaction, we further develop DRG-Net as a tool that enables expert users to correct the system's predictions, which may then be used to update the system as a whole. Moreover, thanks to the attention mechanism and loss functions constraint between lesion features and classification features, our approach can be robust given a certain level of noise in the feedback of users. We have benchmarked DRG-Net on the two largest DR datasets, i.e., IDRID and FGADR, and compared it to various state-of-the-art deep learning networks. In addition to outperforming other SOTA approaches, DRG-Net is effectively updated using user feedback, even in a weakly-supervised manner.
translated by 谷歌翻译
人类的持续学习(CL)能力与稳定性与可塑性困境密切相关,描述了人类如何实现持续的学习能力和保存的学习信息。自发育以来,CL的概念始终存在于人工智能(AI)中。本文提出了对CL的全面审查。与之前的评论不同,主要关注CL中的灾难性遗忘现象,本文根据稳定性与可塑性机制的宏观视角来调查CL。类似于生物对应物,“智能”AI代理商应该是I)记住以前学到的信息(信息回流); ii)不断推断新信息(信息浏览:); iii)转移有用的信息(信息转移),以实现高级CL。根据分类学,评估度量,算法,应用以及一些打开问题。我们的主要贡献涉及I)从人工综合情报层面重新检查CL; ii)在CL主题提供详细和广泛的概述; iii)提出一些关于CL潜在发展的新颖思路。
translated by 谷歌翻译
多发性硬化症(MS)是中枢神经系统的慢性炎症和退行性疾病,其特征在于,白色和灰质的外观与个体患者的神经症状和标志进行地平整相关。磁共振成像(MRI)提供了详细的体内结构信息,允许定量和分类MS病变,其批判性地通知疾病管理。传统上,MS病变在2D MRI切片上手动注释,一个流程效率低,易于观察室内误差。最近,已经提出了自动统计成像分析技术以基于MRI体素强度检测和分段段病变。然而,它们的有效性受到MRI数据采集技术的异质性和MS病变的外观的限制。通过直接从图像学习复杂的病变表现,深度学习技术已经在MS病变分割任务中取得了显着的突破。在这里,我们提供了全面审查最先进的自动统计和深度学习MS分段方法,并讨论当前和未来的临床应用。此外,我们审查了域适应等技术策略,以增强现实世界临床环境中的MS病变分段。
translated by 谷歌翻译
眼睛的临床诊断是对多种数据模式进行的,包括标量临床标签,矢量化生物标志物,二维底面图像和三维光学相干性层析成像(OCT)扫描。临床从业者使用所有可用的数据模式来诊断和治疗糖尿病性视网膜病(DR)或糖尿病黄斑水肿(DME)等眼部疾病。在眼科医学领域启用机器学习算法的使用需要研究治疗期内所有相关数据之间的关系和相互作用。现有的数据集受到限制,因为它们既不提供数据,也没有考虑数据模式之间的显式关系建模。在本文中,我们介绍了用于研究以上限制的视觉眼睛语义(橄榄)数据集的眼科标签。这是第一个OCT和近IIR眼底数据集,其中包括临床标签,生物标记标签,疾病标签和时间序列的患者治疗信息,来自相关临床试验。该数据集由1268个近红外图像组成,每个图像至少具有49个10月扫描和16个生物标志物,以及4个临床标签和DR或DME的疾病诊断。总共有96张眼睛的数据在至少两年的时间内平均,每只眼睛平均治疗66周和7次注射。我们在医学图像分析中为橄榄数据集进行了橄榄数据集的实用性,并为核心和新兴机器学习范式提供了基准和具体研究方向。
translated by 谷歌翻译
早期发现视网膜疾病是预防患者部分或永久失明的最重要手段之一。在这项研究中,提出了一种新型的多标签分类系统,用于使用从各种来源收集的眼底图像来检测多种视网膜疾病。首先,使用许多公开可用的数据集来构建一个新的多标签视网膜疾病数据集,即梅里德数据集。接下来,应用了一系列后处理步骤,以确保图像数据的质量和数据集中存在的疾病范围。在眼底多标签疾病分类中,首次通过大量实验优化的基于变压器的模型用于图像分析和决策。进行了许多实验以优化所提出的系统的配置。结果表明,在疾病检测和疾病分类方面,该方法的性能比在同一任务上的最先进作品要好7.9%和8.1%。获得的结果进一步支持了基于变压器的架构在医学成像领域的潜在应用。
translated by 谷歌翻译
深度学习模型在识别医学图像中的发现方面表现出了极大的有效性。但是,他们无法处理不断变化的临床环境,从而带来了来自不同来源的新注释的医学数据。为了利用传入的数据流,这些模型将在很大程度上受益于从新样本中依次学习,而不会忘记先前获得的知识。在本文中,我们通过应用现有的最新持续学习方法介绍了MedMnist收集中连续疾病分类的基准。特别是,我们考虑了三种连续的学习方案,即任务和班级增量学习以及新定义的跨域增量学习。疾病的任务和班级增量学习解决了对新样本进行分类的问题,而无需重新从头开始模型,而跨域增量学习解决了处理源自不同机构的数据集的问题,同时保留了先前获得的知识。我们对表现进行彻底的分析,并研究如何在这种情况下表现出灾难性遗忘的持续学习挑战。令人鼓舞的结果表明,持续学习具有推进疾病分类并为临床环境产生更强大,更有效的学习框架的主要潜力。将公开提供完整基准测试的代码存储库,数据分区和基线结果。
translated by 谷歌翻译
这项研究的目的是开发一个强大的基于深度学习的框架,以区分Covid-19,社区获得的肺炎(CAP)和基于使用各种方案和放射剂量在不同成像中心获得的胸部CT扫描的正常病例和正常情况。我们表明,虽然我们的建议模型是在使用特定扫描协议仅从一个成像中心获取的相对较小的数据集上训练的,但该模型在使用不同技术参数的多个扫描仪获得的异质测试集上表现良好。我们还表明,可以通过无监督的方法来更新模型,以应对火车和测试集之间的数据移动,并在从其他中心接收新的外部数据集时增强模型的鲁棒性。我们采用了合奏体系结构来汇总该模型的多个版本的预测。为了初始培训和开发目的,使用了171 Covid-19、60 CAP和76个正常情况的内部数据集,其中包含使用恒定的标准辐射剂量扫描方案从一个成像中心获得的体积CT扫描。为了评估模型,我们回顾了四个不同的测试集,以研究数据特征对模型性能的转移的影响。在测试用例中,有与火车组相似的CT扫描,以及嘈杂的低剂量和超低剂量CT扫描。此外,从患有心血管疾病或手术病史的患者中获得了一些测试CT扫描。这项研究中使用的整个测试数据集包含51 covid-19、28 CAP和51例正常情况。实验结果表明,我们提出的框架在所有测试集上的表现良好,达到96.15%的总准确度(95%CI:[91.25-98.74]),COVID-119,COVID-96.08%(95%CI:[86.54-99.5],95%),[86.54-99.5],),,),敏感性。帽敏感性为92.86%(95%CI:[76.50-99.19])。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
With the rapid development of artificial intelligence (AI) in medical image processing, deep learning in color fundus photography (CFP) analysis is also evolving. Although there are some open-source, labeled datasets of CFPs in the ophthalmology community, large-scale datasets for screening only have labels of disease categories, and datasets with annotations of fundus structures are usually small in size. In addition, labeling standards are not uniform across datasets, and there is no clear information on the acquisition device. Here we release a multi-annotation, multi-quality, and multi-device color fundus image dataset for glaucoma analysis on an original challenge -- Retinal Fundus Glaucoma Challenge 2nd Edition (REFUGE2). The REFUGE2 dataset contains 2000 color fundus images with annotations of glaucoma classification, optic disc/cup segmentation, as well as fovea localization. Meanwhile, the REFUGE2 challenge sets three sub-tasks of automatic glaucoma diagnosis and fundus structure analysis and provides an online evaluation framework. Based on the characteristics of multi-device and multi-quality data, some methods with strong generalizations are provided in the challenge to make the predictions more robust. This shows that REFUGE2 brings attention to the characteristics of real-world multi-domain data, bridging the gap between scientific research and clinical application.
translated by 谷歌翻译
机器学习和计算机视觉技术近年来由于其自动化,适合性和产生惊人结果的能力而迅速发展。因此,在本文中,我们调查了2014年至2022年之间发表的关键研究,展示了不同的机器学习算法研究人员用来分割肝脏,肝肿瘤和肝脉管结构的研究。我们根据感兴趣的组织(肝果,肝肿瘤或肝毒剂)对被调查的研究进行了划分,强调了同时解决多个任务的研究。此外,机器学习算法被归类为受监督或无监督的,如果属于某个方案的工作量很大,则将进一步分区。此外,对文献和包含上述组织面具的网站发现的不同数据集和挑战进行了彻底讨论,强调了组织者的原始贡献和其他研究人员的贡献。同样,在我们的评论中提到了文献中过度使用的指标,这强调了它们与手头的任务的相关性。最后,强调创新研究人员应对需要解决的差距的关键挑战和未来的方向,例如许多关于船舶分割挑战的研究的稀缺性以及为什么需要早日处理他们的缺席。
translated by 谷歌翻译
Deep learning models can achieve high accuracy when trained on large amounts of labeled data. However, real-world scenarios often involve several challenges: Training data may become available in installments, may originate from multiple different domains, and may not contain labels for training. Certain settings, for instance medical applications, often involve further restrictions that prohibit retention of previously seen data due to privacy regulations. In this work, to address such challenges, we study unsupervised segmentation in continual learning scenarios that involve domain shift. To that end, we introduce GarDA (Generative Appearance Replay for continual Domain Adaptation), a generative-replay based approach that can adapt a segmentation model sequentially to new domains with unlabeled data. In contrast to single-step unsupervised domain adaptation (UDA), continual adaptation to a sequence of domains enables leveraging and consolidation of information from multiple domains. Unlike previous approaches in incremental UDA, our method does not require access to previously seen data, making it applicable in many practical scenarios. We evaluate GarDA on two datasets with different organs and modalities, where it substantially outperforms existing techniques.
translated by 谷歌翻译
Continual Learning (CL) is a field dedicated to devise algorithms able to achieve lifelong learning. Overcoming the knowledge disruption of previously acquired concepts, a drawback affecting deep learning models and that goes by the name of catastrophic forgetting, is a hard challenge. Currently, deep learning methods can attain impressive results when the data modeled does not undergo a considerable distributional shift in subsequent learning sessions, but whenever we expose such systems to this incremental setting, performance drop very quickly. Overcoming this limitation is fundamental as it would allow us to build truly intelligent systems showing stability and plasticity. Secondly, it would allow us to overcome the onerous limitation of retraining these architectures from scratch with the new updated data. In this thesis, we tackle the problem from multiple directions. In a first study, we show that in rehearsal-based techniques (systems that use memory buffer), the quantity of data stored in the rehearsal buffer is a more important factor over the quality of the data. Secondly, we propose one of the early works of incremental learning on ViTs architectures, comparing functional, weight and attention regularization approaches and propose effective novel a novel asymmetric loss. At the end we conclude with a study on pretraining and how it affects the performance in Continual Learning, raising some questions about the effective progression of the field. We then conclude with some future directions and closing remarks.
translated by 谷歌翻译
最近,面部生物识别是对传统认证系统的方便替代的巨大关注。因此,检测恶意尝试已经发现具有重要意义,导致面部抗欺骗〜(FAS),即面部呈现攻击检测。与手工制作的功能相反,深度特色学习和技术已经承诺急剧增加FAS系统的准确性,解决了实现这种系统的真实应用的关键挑战。因此,处理更广泛的发展以及准确的模型的新研究区越来越多地引起了研究界和行业的关注。在本文中,我们为自2017年以来对与基于深度特征的FAS方法相关的文献综合调查。在这一主题上阐明,基于各种特征和学习方法的语义分类。此外,我们以时间顺序排列,其进化进展和评估标准(数据集内集和数据集互联集合中集)覆盖了FAS的主要公共数据集。最后,我们讨论了开放的研究挑战和未来方向。
translated by 谷歌翻译
深度神经网络在学习新任务时遭受灾难性遗忘的主要限制。在本文中,我们专注于语义细分中的课堂持续学习,其中新类别随着时间的推移,而在未保留以前的训练数据。建议的持续学习方案塑造了潜在的空间来减少遗忘,同时提高了对新型课程的识别。我们的框架是由三种新的组件驱动,我们还毫不费力地结合现有的技术。首先,匹配的原型匹配在旧类上强制执行潜在空间一致性,约束编码器在后续步骤中为先前看到的类生成类似的潜在潜在表示。其次,特征稀疏性允许在潜在空间中腾出空间以容纳新型课程。最后,根据他们的语义,在统一的同时撕裂不同类别的语义,对形成对比的学习。对Pascal VOC2012和ADE20K数据集的广泛评估展示了我们方法的有效性,显着优于最先进的方法。
translated by 谷歌翻译
X-ray imaging technology has been used for decades in clinical tasks to reveal the internal condition of different organs, and in recent years, it has become more common in other areas such as industry, security, and geography. The recent development of computer vision and machine learning techniques has also made it easier to automatically process X-ray images and several machine learning-based object (anomaly) detection, classification, and segmentation methods have been recently employed in X-ray image analysis. Due to the high potential of deep learning in related image processing applications, it has been used in most of the studies. This survey reviews the recent research on using computer vision and machine learning for X-ray analysis in industrial production and security applications and covers the applications, techniques, evaluation metrics, datasets, and performance comparison of those techniques on publicly available datasets. We also highlight some drawbacks in the published research and give recommendations for future research in computer vision-based X-ray analysis.
translated by 谷歌翻译