开放世界对象检测是一个更具笼统和挑战性的目标,旨在识别和本地化由任意类别名称描述的对象。最近的工作GLIP通过将检测数据集的所有类别名称连接到句子中,从而将此问题作为接地问题,从而导致类别名称之间的效率低下的相互作用。本文介绍了Distclip,这是一种通过诉诸于设计概念词典的知识富集,是一种平行的视觉概念训练预训练方法,用于开放世界检测。为了提高学习效率,我们提出了一种新型的并行概念公式,该公式分别提取概念,以更好地利用异质数据集(即检测,接地和图像文本对)进行培训。我们进一步设计了来自各种在线资源和检测数据集的概念字典〜(带有描述),以提供每个概念的先验知识。通过用描述丰富这些概念,我们明确地建立了各种概念之间的关系,以促进开放域学习。所提出的概念词典进一步用于提供足够的负面概念,用于构建单词区域对齐损失\,并完成图像对文本对数据标题中缺少描述的对象的标签。所提出的框架显示出强烈的零射击性能性能,例如,在LVIS数据集上,我们的DETCLIP-T优于9.9%的地图GLIPT-T优于GLIP-T,并且与完全避免的型号相比,稀有类别的稀有类别提高了13.5%。作为我们的。
translated by 谷歌翻译
在许多现实世界中的机器学习应用中,亚种群的转移存在着极大地存在,指的是包含相同亚种群组的培训和测试分布,但在亚种群频率中有所不同。重要性重新加权是通过对训练数据集中每个样本施加恒定或自适应抽样权重来处理亚种群转移问题的正常方法。但是,最近的一些研究已经认识到,这些方法中的大多数无法改善性能,而不是经验风险最小化,尤其是当应用于过度参数化的神经网络时。在这项工作中,我们提出了一个简单而实用的框架,称为“不确定性感知混合”(UMIX),以根据样品不确定性重新加权“混合”样品来减轻过度参数化模型中的过度拟合问题。基于训练 - 注射器的不确定性估计为每个样品的拟议UMIX配备,以灵活地表征亚群分布。我们还提供有见地的理论分析,以验证UMIX是否在先前的工作中实现了更好的概括界限。此外,我们在广泛的任务上进行了广泛的经验研究,以验证我们方法的有效性,既有定性和定量。
translated by 谷歌翻译
多个实例学习(MIL)是对诊断病理学的整个幻灯片图像(WSI)进行分类的强大方法。 MIL对WSI分类的基本挑战是发现触发袋子标签的\ textit {critical Instances}。但是,先前的方法主要是在独立和相同的分布假设(\ textit {i.i.d})下设计的,忽略了肿瘤实例或异质性之间的相关性。在本文中,我们提出了一种新颖的基于多重检测的多重实例学习(MDMIL)来解决上述问题。具体而言,MDMIL是由内部查询产生模块(IQGM)和多重检测模块(MDM)构建的,并在训练过程中基于内存的对比度损失的辅助。首先,IQGM给出了实例的概率,并通过在分布分析后汇总高度可靠的功能来为后续MDM生成内部查询(IQ)。其次,在MDM中,多重检测交叉注意(MDCA)和多头自我注意力(MHSA)合作以生成WSI的最终表示形式。在此过程中,智商和可训练的变异查询(VQ)成功建立了实例之间的联系,并显着提高了模型对异质肿瘤的鲁棒性。最后,为了进一步在特征空间中实施限制并稳定训练过程,我们采用基于内存的对比损失,即使在每次迭代中有一个样本作为输入,也可以实现WSI分类。我们对三个计算病理数据集进行实验,例如CamelyOn16,TCGA-NSCLC和TCGA-RCC数据集。优越的准确性和AUC证明了我们提出的MDMIL比其他最先进方法的优越性。
translated by 谷歌翻译
在计算病理学工作流程中检测和分裂ObjectSwithinWholesLideImagesis。自我监督学习(SSL)吸引了这种重度注释的任务。尽管自然图像的密集任务具有广泛的基准,但不幸的是,在当前的病理学作品中,此类研究仍然没有。我们的论文打算缩小这一差距。我们首先基于病理图像中密集预测任务的代表性SSL方法。然后,我们提出了概念对比学习(结论),这是密集预训练的SSL框架。我们探讨了结论如何使用不同来源提供的概念,并最终提出了一种简单的无依赖性概念生成方法,该方法不依赖于外部分割算法或显着检测模型。广泛的实验表明,在不同环境中,结论比以前的最新SSL方法具有优势。沿着我们的探索,我们弥补了几个重要而有趣的组成部分,这有助于致力于病理图像的密集预训练。我们希望这项工作可以提供有用的数据点,并鼓励社区为感兴趣的问题进行结论预培训。代码可用。
translated by 谷歌翻译
整个幻灯片图像(WSI)分类通常依赖于深度监督的多个实例学习(MIL)方法来处理Gigapixel分辨率图像和幻灯片级标签。然而,深度学习的不错的表现来自利用大量数据集和不同的样本,敦促需要有效的培训管道来扩展到大型数据集和数据增强技术以进行多元化样品。但是,当前基于MIL的WSI分类管道是内存量的且计算的,因为它们通常组装成千上万的补丁作为计算袋。另一方面,尽管它们在其他任务中很受欢迎,但对于WSI MIL Frameworks来说,数据增强尚未探索。为了解决它们,我们提出了Remix,这是基于MIL WSI分类的一般有效框架。它包括两个步骤:减少和混合。首先,它通过用实例原型(即贴片群质心)代替实例,从而减少了WSI袋中的实例数量。然后,我们提出了一个``混合式''增强,其中包含四个在线,随机和灵活的潜在空间扩展。它带来了潜在空间的多样化和可靠的班级身份的语义变化,同时实施语义扰动不变性。我们通过两种最先进的MIL方法在两个公共数据集上评估混音。在我们的实验中,已经实现了精确度,准确性和召回率的一致提高,但随着训练时间和记忆消耗的减少阶段,它表明了混音的有效性和效率。代码可用。
translated by 谷歌翻译
最近,深度神经网络具有极大的高级无效磁共振图像(MRI)重建,其中大多数研究都遵循单个解剖学中的一个网络时尚,即每个专家网络都经过训练和评估特定解剖结构。除了培训多个独立模型的效率低下之外,此类公约还忽略了各种解剖学的共享脱张知识,这些知识可以彼此受益。为了探索共享知识,一种天真的方法是将来自各种解剖学的所有数据结合起来,以训练全能网络。不幸的是,尽管存在共同的脱氧知识,但我们透露,不同解剖学的独家知识可能会恶化特定的重建目标,从而导致整体绩效降低。在这项研究中观察到这一点,我们提出了一个新型的深MRI重建框架,并具有解剖结构和解剖学特异性的参数化学习者,旨在“寻求共同点,同时解决不同的解剖学差异”。尤其是主要的解剖学共享的学习者是暴露于不同的解剖学上,以模拟蓬勃发展的共同知识,而有效的解剖学特异性学习者则接受了目标解剖结构的培训,以进行独家知识。在两个MRI重建网络中,在我们的框架顶部介绍并探索了四个不同的解剖学学习者实现。关于大脑,膝盖和心脏MRI数据集的全面实验表明,其中三个学习者能够通过多种解剖学协作学习来增强重建性能。
translated by 谷歌翻译
医生经常基于患者的图像扫描,例如磁共振成像(MRI),以及患者的电子健康记录(EHR),如年龄,性别,血压等。尽管在计算机视觉或自然语言研究领域的图像或文本分析中提出了大量的自动方法,但已经为医学图像的融合和医疗问题的EHR数据进行了更少的研究。在现有的早期或中间融合方法中,两种方式的特征串联仍然是一个主流。为了更好地利用图像和EHR数据,我们提出了一种多模态注意力模块,该模块使用EHR数据来帮助选择传统CNN的图像特征提取过程期间的重要区域。此外,我们建议将多头Machnib纳入门控多媒体单元(GMU),使其能够在不同子空间中平行熔断图像和EHR特征。在两个模块的帮助下,可以使用两个模态增强现有的CNN架构。预测脑内出血患者的Glasgow结果规模(GOS)和分类Alzheimer病的实验表明,该方法可以自动关注任务相关领域,并通过更好地利用图像和EHR功能来实现更好的结果。
translated by 谷歌翻译
Physics-informed neural networks (PINNs) have lately received significant attention as a representative deep learning-based technique for solving partial differential equations (PDEs). Most fully connected network-based PINNs use automatic differentiation to construct loss functions that suffer from slow convergence and difficult boundary enforcement. In addition, although convolutional neural network (CNN)-based PINNs can significantly improve training efficiency, CNNs have difficulty in dealing with irregular geometries with unstructured meshes. Therefore, we propose a novel framework based on graph neural networks (GNNs) and radial basis function finite difference (RBF-FD). We introduce GNNs into physics-informed learning to better handle irregular domains with unstructured meshes. RBF-FD is used to construct a high-precision difference format of the differential equations to guide model training. Finally, we perform numerical experiments on Poisson and wave equations on irregular domains. We illustrate the generalizability, accuracy, and efficiency of the proposed algorithms on different PDE parameters, numbers of collection points, and several types of RBFs.
translated by 谷歌翻译
Existing 3D scene stylization methods employ an arbitrary style reference to transfer textures and colors as styles without establishing meaningful semantic correspondences. We present Reference-Based Non-Photorealistic Radiance Fields, i.e., Ref-NPR. It is a controllable scene stylization method utilizing radiance fields to stylize a 3D scene, with a single stylized 2D view taken as reference. To achieve decent results, we propose a ray registration process based on the stylized reference view to obtain pseudo-ray supervision in novel views, and exploit the semantic correspondence in content images to fill occluded regions with perceptually similar styles. Combining these operations, Ref-NPR generates non-photorealistic and continuous novel view sequences with a single reference while obtaining reasonable stylization in occluded regions. Experiments show that Ref-NPR significantly outperforms other scene and video stylization methods in terms of both visual quality and semantic correspondence. Code and data will be made publicly available.
translated by 谷歌翻译
Objective: Evictions are involved in a cascade of negative events that can lead to unemployment, homelessness, long-term poverty, and mental health problems. In this study, we developed a natural language processing system to automatically detect eviction incidences and their attributes from electronic health record (EHR) notes. Materials and Methods: We annotated eviction status in 5000 EHR notes from the Veterans Health Administration. We developed a novel model, called Knowledge Injection based on Ripple Effects of Social and Behavioral Determinants of Health (KIRESH), that has shown to substantially outperform other state-of-the-art models such as fine-tuning pre-trained language models like BioBERT and Bio_ClinicalBERT. Moreover, we designed a prompt to further improve the model performance by using the intrinsic connection between the two sub-tasks of eviction presence and period prediction. Finally, we used the Temperature Scaling-based Calibration on our KIRESH-Prompt method to avoid over-confidence issues arising from the imbalance dataset. Results: KIRESH-Prompt achieved a Macro-F1 of 0.6273 (presence) and 0.7115 (period), which was significantly higher than 0.5382 (presence) and 0.67167 (period) for just fine-tuning Bio_ClinicalBERT model. Conclusion and Future Work: KIRESH-Prompt has substantially improved eviction status classification. In future work, we will evaluate the generalizability of the model framework to other applications.
translated by 谷歌翻译