Machine learning-based segmentation in medical imaging is widely used in clinical applications from diagnostics to radiotherapy treatment planning. Segmented medical images with ground truth are useful for investigating the properties of different segmentation performance metrics to inform metric selection. Regular geometrical shapes are often used to synthesize segmentation errors and illustrate properties of performance metrics, but they lack the complexity of anatomical variations in real images. In this study, we present a tool to emulate segmentations by adjusting the reference (truth) masks of anatomical objects extracted from real medical images. Our tool is designed to modify the defined truth contours and emulate different types of segmentation errors with a set of user-configurable parameters. We defined the ground truth objects from 230 patient images in the Glioma Image Segmentation for Radiotherapy (GLIS-RT) database. For each object, we used our segmentation synthesis tool to synthesize 10 versions of segmentation (i.e., 10 simulated segmentors or algorithms), where each version has a pre-defined combination of segmentation errors. We then applied 20 performance metrics to evaluate all synthetic segmentations. We demonstrated the properties of these metrics, including their ability to capture specific types of segmentation errors. By analyzing the intrinsic properties of these metrics and categorizing the segmentation errors, we are working toward the goal of developing a decision-tree tool for assisting in the selection of segmentation performance metrics.
translated by 谷歌翻译
Recently, the success of pre-training in text domain has been fully extended to vision, audio, and cross-modal scenarios. The proposed pre-training models of different modalities are showing a rising trend of homogeneity in their model structures, which brings the opportunity to implement different pre-training models within a uniform framework. In this paper, we present TencentPretrain, a toolkit supporting pre-training models of different modalities. The core feature of TencentPretrain is the modular design. The toolkit uniformly divides pre-training models into 5 components: embedding, encoder, target embedding, decoder, and target. As almost all of common modules are provided in each component, users can choose the desired modules from different components to build a complete pre-training model. The modular design enables users to efficiently reproduce existing pre-training models or build brand-new one. We test the toolkit on text, vision, and audio benchmarks and show that it can match the performance of the original implementations.
translated by 谷歌翻译
通用域自适应对象检测(UNIDAOD)比域自适应对象检测(DAOD)更具挑战性,因为源域的标签空间可能与目标的标签空间不相同,并且在通用场景中的对象的比例可能会大大变化(即,类别转移和比例位移)。为此,我们提出了US-DAF,即使用多标签学习的US-DAF,即具有多个标记的rcnn自适应率更快,以减少训练期间的负转移效应,同时最大化可传递性以及在各种规模下两个领域的可区分性。具体而言,我们的方法由两个模块实现:1)我们通过设计滤波器机制模块来克服类别移动引起的负转移来促进普通类的特征对齐,并抑制私人类的干扰。 2)我们通过引入一个新的多标签尺度感知适配器来在对象检测中填充比例感知适应的空白,以在两个域的相应刻度之间执行单个对齐。实验表明,US-DAF在三种情况下(即开放式,部分集和封闭设置)实现最新结果,并在基准数据集clipart1k和水彩方面的相对改善中获得7.1%和5.9%的相对改善。特定。
translated by 谷歌翻译
香草无监督的域适应方法倾向于用固定的神经体系结构优化模型,在现实世界中,这不是很实际的,因为目标数据通常由不同的资源有限的设备处理。因此,促进各种设备的建筑适应非常必要。在本文中,我们引入了一个简单的框架,可靠的域名适应,以通过重量分担模型库来改善跨域的概括,从中可以采样不同能力的模型,以适应不同的准确性效率折衷。该框架中的主要挑战在于同时提高模型库中众多模型的适应性。为了解决这个问题,我们开发了一种随机的集合蒸馏方法,以完全利用模型库中的互补知识进行模型间相互作用。然而,考虑到模型间相互作用与模型适应之间的优化冲突,我们将现有的BI-CLAPERIFIER域混淆体系结构扩大到优化分离的三级分类器对应物中。优化模型库后,通过我们提出的无监督性能评估指标利用体系结构的适应。在各种资源限制下,我们的框架超过了其他竞争方法,在多个基准测试方面的利润很大。还值得强调的是,即使计算复杂性降低到$ 1/64 $,我们的框架也可以保护仅源模型的性能提高。代码将在https://github.com/hikvision-research/slimda上找到。
translated by 谷歌翻译
半监督的对象检测在平均教师驱动的自我训练的发展中取得了重大进展。尽管结果有令人鼓舞,但在先前的工作中尚未完全探索标签不匹配问题,从而导致自训练期间严重确认偏见。在本文中,我们从两个不同但互补的角度(即分布级别和实例级别)提出了一个简单而有效的标签框架。对于前者,根据Monte Carlo采样,可以合理地近似来自标记数据的未标记数据的类分布。在这种弱监督提示的指导下,我们引入了一个重新分配卑鄙的老师,该老师利用自适应标签 - 分布意识到的信心阈值来生成无偏见的伪标签来推动学生学习。对于后一个,存在着跨教师模型的被忽视的标签分配歧义问题。为了解决这个问题,我们提出了一种新的标签分配机制,用于自我训练框架,即提案自我分配,该机制将学生的建议注入教师,并生成准确的伪标签,以相应地匹配学生模型中的每个建议。 MS-Coco和Pascal-VOC数据集的实验证明了我们提出的框架与其他最先进的框架相当优越。代码将在https://github.com/hikvision-research/ssod上找到。
translated by 谷歌翻译
无监督域自适应对象检测的自我训练是一项艰巨的任务,其性能在很大程度上取决于伪盒的质量。尽管结果有令人鼓舞,但先前的工作在很大程度上忽略了自训练期间伪箱的不确定性。在本文中,我们提出了一个简单而有效的框架,称为概率教师(PT),该框架旨在从逐渐发展的教师中捕获未标记的目标数据的不确定性,并以互惠互利的方式指导学生学习学生。具体而言,我们建议利用不确定性引导的一致性训练来促进分类适应和本地化适应,而不是通过精心设计的置信度阈值过滤伪盒。此外,我们与定位适应同时进行锚定适应性,因为锚被视为可学习的参数。与此框架一起,我们还提出了一种新颖的熵局灶性损失(EFL),以进一步促进不确定性引导的自我训练。配备了EFL,PT的表现优于所有以前的基线,并实现了新的最先进。
translated by 谷歌翻译
受视力语言预训练模型的显着零击概括能力的启发,我们试图利用剪辑模型的监督来减轻数据标记的负担。然而,这种监督不可避免地包含标签噪声,从而大大降低了分类模型的判别能力。在这项工作中,我们提出了Transductive Clip,这是一个新型的框架,用于学习具有从头开始的嘈杂标签的分类网络。首先,提出了一种类似的对比学习机制来减轻对伪标签的依赖并提高对嘈杂标签的耐受性。其次,合奏标签被用作伪标签更新策略,以稳定具有嘈杂标签的深神经网络的培训。该框架可以通过组合两种技术有效地从夹子模型中降低嘈杂标签的影响。多个基准数据集的实验证明了比其他最新方法的实质性改进。
translated by 谷歌翻译
卷积神经网络(CNN)通过使用大型数据集在图像分类方面取得了重大成功。但是,在小规模数据集上从头开始学习,有效地有效地学习,这仍然是巨大的挑战。借助有限的培训数据集,类别的概念将是模棱两可的,因为过度参数化的CNN倾向于简单地记住数据集,从而导致概括能力差。因此,研究如何在避免过度拟合的同时学习更多的判别性表示至关重要。由于类别的概念往往是模棱两可的,因此获取更多个人信息很重要。因此,我们提出了一个新框架,称为“吸引和修复”,由对比度正规化(CR)组成以丰富特征表示形式,对称交叉熵(SCE),以平衡不同类别的拟合和平均教师以校准标签信息。具体而言,SCE和CR学习歧视性表示,同时通过班级信息(吸引)和实例(拒绝)之间的适应性权衡缓解过度构成。之后,平均教师通过校准更准确的软伪标签来进一步提高性能。足够的实验验证了吸引和修复框架的有效性。加上其他策略,例如积极的数据增强,tencrop推断和模型结合,我们在ICCV 2021 vipriors图像分类挑战中获得了第二名。
translated by 谷歌翻译
对于那些在线寻求医疗保健建议的人,能够与患者进行自动疾病诊断的基于AI的对话代理是一个可行的选择。该应用需要有效地查询相关疾病症状,以便进行准确的诊断建议。可以将其作为顺序特征(症状)选择和分类的问题进行表述,并为其作为自然解决方案提出了增强学习方法(RL)方法。当特征空间很小时,它们的表现良好,也就是说,症状的数量和可诊断性疾病类别的数量有限,但是它们经常失败的作业,具有大量特征。为了应对这一挑战,我们提出了一个由生成演员网络和诊断评论家网络组成的多模型融合的演员 - 批评者(MMF-AC)RL框架。演员融合了变异自动编码器(VAE),以对特征部分观察结果引起的不确定性进行建模,从而促进进行适当的查询。在评论家网络中,涉及疾病预测的监督诊断模型,以精确估计状态值功能。此外,受鉴别诊断的医学概念的启发,我们结合了生成和诊断模型,以创建一种新颖的奖励成型机制,以解决大型搜索空间中稀疏奖励问题。我们对合成数据集和现实数据集进行了广泛的实验,以进行经验评估。结果表明,我们的方法在诊断准确性和互动效率方面优于最先进的方法,同时更有效地可扩展到大型搜索空间。此外,我们的方法适用于分类和连续功能,使其非常适合在线应用程序。
translated by 谷歌翻译
传统的域泛化旨在从多个域学习域不变表示,这需要准确的注释。然而,在现实的应用方案中,收集和注释大量数据太麻烦甚至不可行。然而,Web数据提供免费午餐,以便使用丰富的风格信息访问大量未标记的数据,这些数据可以利用增强域泛化能力。在本文中,我们介绍了一个新的任务,称为半监督域泛化,研究如何互动和未标记的域名,并建立两个基准,包括一个网上爬行数据集,它造成了一种新颖的但是逼真的挑战来推动现有技术的限制。为了解决这项任务,简单的解决方案是通过伪标记与域混淆训练一起传播标签到未标记的域的类信息。考虑缩小域间隙可以提高伪标签的质量和进一步推进域不变特征学习的泛化,我们提出了一个循环学习框架,以鼓励标签传播和域泛化之间的积极反馈,有利于桥接标记的不断发展的中间域课程学习方式的未标记域。进行实验以验证我们框架的有效性。值得突出显示的是,Web爬网数据受益于我们的结果中所示的域泛化。我们的代码稍后将提供。
translated by 谷歌翻译