显着对象检测(SOD)在图像分析中具有若干应用。基于深度学习的SOD方法是最有效的,但它们可能会错过具有相似颜色的前景部分。为了规避问题,我们介绍了一个后处理方法,名为\ Texit {SuperPixel Materionity}(Sess)的后期处理方法,其交替地执行两个操作,以便显着完成:基于对象的SuperPixel分段和基于SuperPixel的显着性估算。 Sess使用输入显着图来估算超像素描绘的种子,并在前景和背景中定义超顶盒查询。新的显着性图是由查询和超像素之间的颜色相似性产生的。对于给定数量的迭代的过程重复,使得所有产生的显着性图通过蜂窝自动机组合成单个。最后,使用其平均值合并后处理和初始映射。我们展示SES可以始终如一地,并在五个图像数据集上一致而大大提高三种基于深度学习的SOD方法的结果。
translated by 谷歌翻译
Automatic Target Recognition (ATR) is a category of computer vision algorithms which attempts to recognize targets on data obtained from different sensors. ATR algorithms are extensively used in real-world scenarios such as military and surveillance applications. Existing ATR algorithms are developed for traditional closed-set methods where training and testing have the same class distribution. Thus, these algorithms have not been robust to unknown classes not seen during the training phase, limiting their utility in real-world applications. To this end, we propose an Open-set Automatic Target Recognition framework where we enable open-set recognition capability for ATR algorithms. In addition, we introduce a plugin Category-aware Binary Classifier (CBC) module to effectively tackle unknown classes seen during inference. The proposed CBC module can be easily integrated with any existing ATR algorithms and can be trained in an end-to-end manner. Experimental results show that the proposed approach outperforms many open-set methods on the DSIAC and CIFAR-10 datasets. To the best of our knowledge, this is the first work to address the open-set classification problem for ATR algorithms. Source code is available at: https://github.com/bardisafa/Open-set-ATR.
translated by 谷歌翻译
分类是数据挖掘和机器学习领域中研究最多的任务之一,并且已经提出了文献中的许多作品来解决分类问题,以解决多个知识领域,例如医学,生物学,安全性和遥感。由于没有单个分类器可以为各种应用程序取得最佳结果,因此,一个很好的选择是采用分类器融合策略。分类器融合方法成功的关键点是属于合奏的分类器之间多样性和准确性的结合。借助文献中可用的大量分类模型,一个挑战是选择最终分类系统的最合适的分类器,从而产生了分类器选择策略的需求。我们通过基于一个称为CIF-E(分类器,初始化,健身函数和进化算法)的四步协议的分类器选择和融合的框架来解决这一点。我们按照提出的CIF-E协议实施和评估24种各种集合方法,并能够找到最准确的方法。在文献中最佳方法和许多其他基线中,还进行了比较分析。该实验表明,基于单变量分布算法(UMDA)的拟议进化方法可以超越许多著名的UCI数据集中最新的文献方法。
translated by 谷歌翻译
视频识别是由端到端学习范式主导的 - 首先初始化具有预审预周化图像模型的视频识别模型,然后对视频进行端到端培训。这使视频网络能够受益于验证的图像模型。但是,这需要大量的计算和内存资源,以便在视频上进行填充以及直接使用预审计的图像功能的替代方案,而无需填充图像骨架会导致结果不足。幸运的是,在对比视力语言预训练(剪辑)方面的最新进展为视觉识别任务的新途径铺平了道路。这些模型在大型开放式图像文本对数据上进行了预测,以丰富的语义学习强大的视觉表示。在本文中,我们介绍了有效的视频学习(EVL) - 一种有效的框架,用于直接训练具有冷冻剪辑功能的高质量视频识别模型。具体来说,我们采用轻型变压器解码器并学习查询令牌,从剪辑图像编码器中动态收集帧级空间特征。此外,我们在每个解码器层中采用局部时间模块,以发现相邻帧及其注意力图的时间线索。我们表明,尽管有效地使用冷冻的骨干训练,但我们的模型在各种视频识别数据集上学习了高质量的视频表示。代码可在https://github.com/opengvlab/feld-video-rencognition上找到。
translated by 谷歌翻译
这项工作总结了2022年2022年国际生物识别联合会议(IJCB 2022)的IJCB被遮挡的面部识别竞赛(IJCB-OCFR-2022)。OCFR-2022从学术界吸引了总共3支参与的团队。最终,提交了六个有效的意见书,然后由组织者评估。在严重的面部阻塞面前,举行了竞争是为了应对面部识别的挑战。参与者可以自由使用任何培训数据,并且通过使用众所周知的数据集构成面部图像的部分来构建测试数据。提交的解决方案提出了创新,并以所考虑的基线表现出色。这项竞争的主要输出是具有挑战性,现实,多样化且公开可用的遮挡面部识别基准,并具有明确的评估协议。
translated by 谷歌翻译
在双胞胎输血综合征(TTTS)中,单座管胎盘中的异常血管吻合可能会在两个胎儿之间产生不均匀的流量。在当前的实践中,通过使用激光消融闭合异常吻合来对TTT进行手术治疗。该手术在最小的侵入性中依赖于胎儿镜检查。有限的视野使吻合术识别成为外科医生的具有挑战性的任务。为了应对这一挑战,我们提出了一个基于学习的框架,用于视野扩展的体内胎儿镜框架注册。该框架的新颖性依赖于基于学习的关键点提案网络以及基于胎儿镜图像细分和(ii)不一致的同符的编码策略(i)无关的关键点。我们在来自6个不同女性的6个TTT手术的6个术中序列的数据集中验证了我们的框架,这是根据最新的最新算法状态,该算法依赖于胎盘血管的分割。与艺术的状态相比,提出的框架的性能更高,为稳健的马赛克在TTTS手术期间提供背景意识铺平了道路。
translated by 谷歌翻译
我们研究了机器学习(ML)分类技术的误差概率收敛到零的速率的性能。利用大偏差理论,我们为ML分类器提供了数学条件,以表现出误差概率,这些误差概率呈指数级消失,例如$ \ sim \ exp \ left(-n \,i + o(i + o(n)\ right)$,其中$ n $是可用于测试的信息的数量(或其他相关参数,例如图像中目标的大小),而$ i $是错误率。这样的条件取决于数据驱动的决策功能的累积生成功能的Fenchel-Legendre变换(D3F,即,在做出最终二进制决策之前的阈值)在训练阶段中学到的。因此,D3F以及相关的错误率$ $ $取决于给定的训练集,该集合假定有限。有趣的是,可以根据基础统计模型的可用信息生成的可用数据集或合成数据集对这些条件进行验证和测试。换句话说,分类误差概率收敛到零,其速率可以在可用于培训的数据集的一部分上计算。与大偏差理论一致,我们还可以以足够大的$ n $为高斯分布的归一化D3F统计量来确定收敛性。利用此属性设置所需的渐近错误警报概率,从经验上来说,即使对于$ n $的非常现实的值,该属性也是准确的。此外,提供了近似错误概率曲线$ \ sim \ sim \ sim \ sim \ exp \ left(-n \,i \ right)$,这要归功于精制的渐近导数(通常称为精确的渐近学),其中$ \ zeta_n $代表$ \ zeta_n $误差概率的大多数代表性亚指数项。
translated by 谷歌翻译
深度学习文献通过新的架构和培训技术不断更新。然而,尽管有一些关于随机权重的发现,但最近的研究却忽略了重量初始化。另一方面,最近的作品一直在接近网络科学,以了解训练后人工神经网络(ANN)的结构和动态。因此,在这项工作中,我们分析了随机初始化网络中神经元的中心性。我们表明,较高的神经元强度方差可能会降低性能,而较低的神经元强度方差通常会改善它。然后,提出了一种新方法,根据其强度根据优先附着(PA)规则重新连接神经元连接,从而大大降低了通过常见方法初始化的层的强度方差。从这个意义上讲,重新布线仅重新组织连接,同时保留权重的大小和分布。我们通过对图像分类进行的广泛统计分析表明,在使用简单和复杂的体系结构和学习时间表时,在大多数情况下,在培训和测试过程中,性能都会提高。我们的结果表明,除了规模外,权重的组织也与更好的初始化初始化有关。
translated by 谷歌翻译
胎儿镜检查激光​​光凝是一种广泛采用的方法,用于治疗双胞胎输血综合征(TTTS)。该过程涉及光凝病理吻合术以调节双胞胎之间的血液交换。由于观点有限,胎儿镜的可操作性差,可见性差和照明的可变性,因此该程序尤其具有挑战性。这些挑战可能导致手术时间增加和消融不完全。计算机辅助干预措施(CAI)可以通过识别场景中的关键结构并通过视频马赛克来扩展胎儿镜观景领域,从而为外科医生提供决策支持和背景意识。由于缺乏设计,开发和测试CAI算法的高质量数据,该领域的研究受到了阻碍。通过作为MICCAI2021内窥镜视觉挑战组织的胎儿镜胎盘胎盘分割和注册(FETREG2021)挑战,我们发布了第一个Largescale Multencentre TTTS数据集,用于开发广义和可靠的语义分割和视频摩擦质量algorithms。对于这一挑战,我们发布了一个2060张图像的数据集,该数据集是从18个体内TTTS胎儿镜检查程序和18个简短视频剪辑的船只,工具,胎儿和背景类别的像素通道。七个团队参与了这一挑战,他们的模型性能在一个看不见的测试数据集中评估了658个从6个胎儿镜程序和6个短剪辑的图像的图像。这项挑战为创建通用解决方案提供了用于胎儿镜面场景的理解和摩西式解决方案的机会。在本文中,我们介绍了FETREG2021挑战的发现,以及报告TTTS胎儿镜检查中CAI的详细文献综述。通过这一挑战,它的分析和多中心胎儿镜数据的发布,我们为该领域的未来研究提供了基准。
translated by 谷歌翻译
我们提出了一个大规模的真实世界和干净的图像对数据集,以及一种从图像中降低降解的方法,从图像中降低了降解。由于没有用于降低的现实世界数据集,因此当前的最新方法依赖于合成数据,因此受SIM2REAL域间隙的限制。此外,由于没有真实的配对数据集,严格的评估仍然是一个挑战。我们通过通过对非鼻子变化的细致控制收集第一个真实的配对数据集来填补这一空白。我们的数据集对各种现实世界的雨水现象(例如雨条和雨水积累)进行了配对的培训和定量评估。为了学习对雨现象不变的代表,我们提出了一个深层神经网络,该网络通过最大程度地减少雨水和干净图像之间的雨水不变损失来重建基础场景。广泛的实验表明,所提出的数据集使现有的DERAINER受益,我们的模型可以在各种条件下对真实雨水图像的最先进方法优于最先进的方法。
translated by 谷歌翻译