在MR容积中准确地分割左心房可有益于心房颤动的消融过程。传统的自动化解决方案通常会使劳动密集型手动标签的专家失败。在本文中,我们提出了一种基于深度神经网络的解决方案,用于钆增强MR容量的自动左心房分割,具有良好的性能。我们首先认为,对于这种体积分割任务,2Dfashion中的网络在时间效率和分割准确性方面比具有3D时尚的网络具有很大的优势。考虑到高度变化的心房形状和相关肺静脉的分支结构,我们建议采用金字塔模块来收集多尺度特征图中的语义线索,以进行细粒度分割。此外,为了促进我们的网络对硬性示例进行分类,我们提出了一种在线硬性负面示例挖掘策略,用于识别具有低分类能力的切片中的体素并惩罚对它们的错误预测。最后,我们设计了竞争性培训方案,以进一步提高网络的泛化能力。经过20个测试量的广泛验证,我们提出的框架在分割左心房和肺静脉时平均骰子为92.83%。
translated by 谷歌翻译
特征匹配是计算机视觉领域最基础,最活跃的研究领域之一。对特征匹配器的全面评估是必要的,因为它将推动该领域的发展以及诸如Motion-from-Motion或Visual SLAM之类的高级应用。然而,据我们所知,之前的工作没有针对特征匹配器的评估,而他们只专注于评估特征检测器和描述符。这导致该领域的关键缺席,即没有标准数据集和评估指标来公平地评估不同的特征匹配器。为此,我们提出了第一个统一特征匹配基准,以便于评估特征匹配器。在提议的基准测试中,匹配器在不同方面进行评估,涉及匹配能力,通信效率和效率。此外,他们的表演被调查不同的场景和不同的匹配类型。随后,我们对基准测试中不同的最新匹配器进行了广泛的评估,并根据报告的结果进行深入分析。这可以用于在实际应用中设计实际匹配系统,并且还提倡在特征匹配领域中潜在的未来研究方向。
translated by 谷歌翻译
Semantic edge detection (SED), which aims at jointly extracting edges as well as their category information, has far-reaching applications in domains such as semantic segmentation, object proposal generation, and object recognition. SED naturally requires achieving two distinct supervision targets: locating fine detailed edges and identifying high-level semantics. We shed light on how such distracted supervision targets prevent state-of-the-art SED methods from effectively using deep supervision to improve results. In this paper, we propose a novel fully convolutional neural network architecture using diverse deep supervision (DDS) within a multi-task framework where lower layers aim at generating category-agnostic edges, while higher layers are responsible for the detection of category-aware semantic edges. To overcome the distracted supervision challenge, a novel information converter unit is introduced, whose effectiveness has been extensively evaluated in several popular benchmark datasets, including SBD, Cityscapes, and PASCAL VOC2012. Source code will be released upon paper acceptance.
translated by 谷歌翻译
直接学习点云的特征已成为3D理解中的一个活跃的研究方向。现有的基于学习的方法通常从点云构建局部区域,并使用共享的多层感知器(MLP)和最大池来提取相应的特征。然而,这些过程中的大多数并未充分考虑点云的空间分布,从而限制了感知细粒度图案的能力。我们设计了一种新颖的局部空间注意(LSA)模块,根据局部区域的空间分布自适应地生成注意力图。与这些注意力图集成的特征学习过程可以有效地捕获局部几何结构。我们进一步提出构建分支架构的空间特征提取器(SFE),以便更好地将空间信息与网络的每一层中的相关特征进行聚合。实验表明,我们的网络名为LSANet,可以达到与状态相同或更好的性能。评估具有挑战性的基准数据集时的最先进方法。源代码可从以下网址获得://github.com/LinZhuoChen/LSANet。
translated by 谷歌翻译
视觉定位是一个有吸引力的问题,它基于查询图像估计来自数据库图像的相似定位。它是各种应用的关键任务,例如自动驾驶汽车,辅助导航和增强现实。任务的挑战性问题在于查询和数据库图像之间的不同外观变化,包括照明变化,季节变化,动态对象变化和观点变化。为了应对这些挑战,本文提出了全景环形透镜和强大的深度图像描述符的全景环形定位器。处理由单个摄像机捕获的全景环形图像并将其馈送到NetVLAD网络中以形成活动的深度描述符,并且利用顺序匹配来生成定位结果。在公共数据集和现场进行的实验说明了所提出的系统的验证。
translated by 谷歌翻译
处理高方差是无模型增强学习(RL)中的重大挑战。现有方法是不可靠的,使用不同的初始化/种子表现出从一次运行到另一次运行的性能的高度变化。着眼于连续控制中出现的问题,我们提出了一种增强无模型RL的功能规范化方法。特别是,将深层政策的行为与先前的政策相似,即我们在功能空间中进行规范化。我们证明功能正则化会产生偏差 - 方差权衡,并提出一种自适应调整策略来优化这种权衡。当政策先验具有控制理论稳定性保证时,我们进一步表明,这种正规化近似预先保证了整个学习过程中的稳定性。我们在一系列设置上验证了我们的认可度,并证明了与单独的deepRL相比,显着降低了方差,保证了动态稳定性和更有效的学习。
translated by 谷歌翻译
受益于计算机视觉,自然语言处理和信息检索技术的进步,旨在回答关于图像或视频的问题的视觉问答(VQA)在过去几年中受到了很多关注。虽然到目前为止已经取得了一些进展,但是一些研究已经指出当前的VQA模型受到\ emph {语言先验问题}的严重影响,这意味着它们倾向于根据问题关键词的共现模式提出问题(例如,有多少) )和答案(例如,2)而不是理解图像和问题。现有方法试图通过平衡偏置数据集或强制模型更好地理解图像来解决该问题。然而,对于第一和第二解决方案,分别仅观察到边际效应甚至性能劣化。此外,另一个重要问题是缺乏测量来定量测量语言效应的程度,这严重阻碍了相关技术的进步。在本文中,我们从两个方面为解决上述问题做出了贡献。首先,我们设计了一个度量标准来定量测量VQA模型的语言先验效应。已经证明建议的度量标准在我们的实证研究中是有效的。其次,我们提出了一种正则化方法(即得分正则化模块),通过降低语言先验问题以及提升骨干模型性能来增强当前的VQA模型。所提出的得分正则化模块采用成对学习策略,这使得VQA模型基于图像的推理(在此问题上)回答问题,而不是基于在偏见训练集中观察到的问题 - 答案模式。 scoreregularization模块可灵活地集成到各种VQA模型中。
translated by 谷歌翻译
图神经网络(GNNs)受到越来越多的关注,部分归功于它们在许多节点和图形分类任务中的优越性能。然而,对于它们的学习和学习图形功能的复杂性缺乏了解。在这项工作中,我们首先提出了图形特征网络(GFN),一个简单的轻量级神经网络,在一组图形增强特征上定义。然后,我们建议将图形分类上的GNN解剖为两部分:1)图形过滤,其中执行基于图形的邻域聚合;以及2)集合函数,其中组成一组隐藏节点特征用于预测。为了分别测试这两个部分的重要性,我们通过线性化GNN的图形过滤部分来证明和利用GFN可以导出的连接。根据经验,我们对常见的图表分类基准进行了评估。令我们惊讶的是,我们发现,尽管有简化,但GFN可以匹配或超过最近提出的GNN产生的最佳精度,只需要一小部分计算成本。我们的结果为GNN学习的功能和当前评估它们的基准提供了新的视角。
translated by 谷歌翻译
将对象解构为内容和风格的两个正交空间是具有挑战性的,因为每个对象可以不同地且不可预测地影响视觉观察。很少有人可以访问分离影响的大量数据帮助。在本文中,我们提出了一种新的框架,以完全无监督的方式容忍这种解缠结的表示。在双分支Autoencoder框架中解决此问题。对于结构内容分支,我们将潜在因子投影到一个软结构化的点对象中,并用先验知识得到的损失约束它。此约束鼓励分支提取几何信息。 Anotherbranch学习补充风格信息。这两个分支形成了一个有效的框架,可以解开对象的内容风格表示,而不需要任何人类注释。我们在四个图像数据集上评估我们的方法,在这些数据集上我们展示了合成和现实世界数据中的优越解开和视觉类比质量。我们能够生成具有256 * 256分辨率的非常逼真的图像,这些图像明显地解开了不确定和风格。
translated by 谷歌翻译
最近对旋风强度估计的深度学习方法显示出了良好的结果。然而,由于气旋数据的极度稀缺具有特定的强度,大多数现有的深度学习方法无法在旋风强度估计上获得令人满意的表现,特别是在几乎没有实例的情况下。为了避免由稀缺样本引起的识别性能的降低,我们提出了一种情境感知的CycleGAN,它从相邻的旋风强度中学习了演化特征,并且合成了缺少来自非配对源类的样本的CNN特征。具体来说,我们的方法合成大小的特征取决于学习的进化特征,而不需要额外的信息。几种评估方法的实验结果表明了有效性,甚至可以预测看不见的类。
translated by 谷歌翻译