多个实例学习(MIL)是对诊断病理学的整个幻灯片图像(WSI)进行分类的强大方法。 MIL对WSI分类的基本挑战是发现触发袋子标签的\ textit {critical Instances}。但是,先前的方法主要是在独立和相同的分布假设(\ textit {i.i.d})下设计的,忽略了肿瘤实例或异质性之间的相关性。在本文中,我们提出了一种新颖的基于多重检测的多重实例学习(MDMIL)来解决上述问题。具体而言,MDMIL是由内部查询产生模块(IQGM)和多重检测模块(MDM)构建的,并在训练过程中基于内存的对比度损失的辅助。首先,IQGM给出了实例的概率,并通过在分布分析后汇总高度可靠的功能来为后续MDM生成内部查询(IQ)。其次,在MDM中,多重检测交叉注意(MDCA)和多头自我注意力(MHSA)合作以生成WSI的最终表示形式。在此过程中,智商和可训练的变异查询(VQ)成功建立了实例之间的联系,并显着提高了模型对异质肿瘤的鲁棒性。最后,为了进一步在特征空间中实施限制并稳定训练过程,我们采用基于内存的对比损失,即使在每次迭代中有一个样本作为输入,也可以实现WSI分类。我们对三个计算病理数据集进行实验,例如CamelyOn16,TCGA-NSCLC和TCGA-RCC数据集。优越的准确性和AUC证明了我们提出的MDMIL比其他最先进方法的优越性。
translated by 谷歌翻译
我们介绍了声学场景和事件的检测和分类的任务描述(DCASE)2022挑战任务2:“用于应用域通用技术的机器状况监控的无监督异常的声音检测(ASD)”。域转移是ASD系统应用的关键问题。由于域移位可以改变数据的声学特征,因此在源域中训练的模型对目标域的性能较差。在DCASE 2021挑战任务2中,我们组织了一个ASD任务来处理域移动。在此任务中,假定已知域移位的发生。但是,实际上,可能不会给出每个样本的域,并且域移位可能会隐含。在2022年的任务2中,我们专注于域泛化技术,这些技术检测异常,而不论域移动如何。具体而言,每个样品的域未在测试数据中给出,所有域仅允许一个阈值。我们将添加挑战结果和挑战提交截止日期后提交的分析。
translated by 谷歌翻译
拟声术语是语音上模仿声音的字符序列,在表达声音的特征,诸如持续时间,间距和Timbre的特征是有效的。我们提出了一种使用拟声缺陷的环境 - 辐射方法,以指定要提取的目标声音。利用这种方法,我们通过使用U-Net架构来估计来自输入混合谱图和拟声型的时频掩模,然后通过掩蔽频谱图来提取相应的目标声音。实验结果表明,该方法只能提取对应于拟声病的目标声音,并且比使用声音事件类别指定目标声音的传统方法更好地执行。
translated by 谷歌翻译
字体或字体的样式通常与特定印象相关联,例如沉重,当代或优雅。这表明字体形状与其印象之间存在某些相关性。要了解相关性,本文意识到​​附近嵌入了字体及其印象的共享潜在空间。难度是附着在字体上的印象词往往非常嘈杂。这是因为印象词是非常主观和多样化的。更重要的是,一些印象词与字体形状没有直接相关,并且会扰乱共享潜空间的实现。因此,我们使用DepeSets来增强形状相关的单词并在训练共享潜空间时自动抑制形状无关的单词。具有大型字体 - 印象数据集的定量和定性实验结果表明,所提出的方法的共享潜在空间适当描述了相关性,特别是对于形状相关的印象词。
translated by 谷歌翻译