在本文中,我们提出了一种简单而有效的填充方案,可用作现有卷积神经网络的插入模块。我们称之为基于部分卷积的填充,直觉可以将填充区域视为空洞,将原始输入视为非空洞。具体地,在卷积操作期间,基于填充区域和卷积窗口区域之间的比率,对卷积结果重新加权近图像边界。利用各种深度网络模型对ImageNet分类和语义分割进行的广泛实验表明,所提出的填充方案始终优于标准零填充,具有更高的准确性。
translated by 谷歌翻译
最近的深度网络在各种语义分割任务上实现了最先进的性能。尽管取得了这些进展,但这些模型经常面临现实世界“野外任务”的挑战,其中存在标记的训练/源数据与看不见的测试/目标数据之间的巨大差异。特别是,这种差异通常被称为“域间隙”,并且可能导致显着降低的性能,这不能通过进一步增加表现能力来容易地补救。无监督域适应(UDA)旨在克服没有目标域标签的这种问题。在本文中,我们提出了一种基于迭代自我训练过程的新型UDA框架,其中问题被表述为潜在的可变损失最小化,并且可以通过在目标数据上生成伪标签并用这些标签重新训练模型来解决。除了自我训练之外,我们还提出了一种新颖的平衡自我训练框架,以避免大类在伪标签生成上的逐渐优势,并引入空间先验来精炼生成的标签。综合实验表明,所提出的方法在多个主要的UDA设置下实现了最新的语义分割性能。
translated by 谷歌翻译
边缘检测是其在感知分组中的作用及其广泛应用的最基本的视觉问题之一。最近代表性学习的进步已经导致该领域的相当大的改进。许多现有技术的边缘检测模型是用完全卷积网络(FCN)学习的。然而,由于边缘的精细结构,基于FCN的边缘学习倾向于易于错位标签。在评估基准中考虑了这样的问题,类似的问题在一般边缘学习中没有明确解决。在本文中,我们表明标签错位会导致边缘学习质量显着下降,并通过提出同时边缘对齐和学习框架来解决这个问题。为此,我们制定了一个概率模型,其中边缘对齐被视为潜在变量优化,并在网络训练期间进行端到端学习。实验展示了这项工作的几个应用,包括改进的边缘检测和最先进的性能,以及噪声注释的自动细化。
translated by 谷歌翻译
A family of super deep networks, referred to as residual networks or ResNet [14], achieved record-beating performance in various visual tasks such as image recognition, object detection, and semantic segmentation. The ability to train very deep networks naturally pushed the researchers to use enormous resources to achieve the best performance. Consequently, in many applications super deep residual networks were employed for just a marginal improvement in performance. In this paper, we propose-ResNet that allows us to automatically discard redundant layers, which produces responses that are smaller than a threshold , with a marginal or no loss in performance. The-ResNet architecture can be achieved using a few additional rectified linear units in the original ResNet. Our method does not use any additional variables nor numerous trials like other hyper-parameter optimization techniques. The layer selection is achieved using a single training process and the evaluation is performed on CIFAR-10, CIFAR-100, SVHN, and ImageNet datasets. In some instances, we achieve about 80% reduction in the number of parameters.
translated by 谷歌翻译
本文讨论了开放式协议下的深层识别(FR)问题,其中理想的面部特征预期在适当选择的度量空间下具有比最小的类间距离更小的最大类距离。然而,现有的算法很少能够有效地实现这一标准。为此,我们提出角度softmax(A-Softmax)损失可折叠卷积神经网络(CNN)来学习角度判别特征。从几何学角度来看,A-Softmax损失可以被视为对超球面流形的严格限制性约束,这种约束与先前的面也位于流形上有着内在的匹配。此外,可以通过参数$ m $定量调整矩形边距的大小。我们进一步推出特定的$ m $来近似理想的特征标准。对野外标记面(LFW),Youtube面(YTF)和MegaFace挑战的广泛分析和实验表明,在FR任务中A-Softmax损失的优越性。该代码也已公开发布。
translated by 谷歌翻译
我们通过$ \ ell_1 $ -minimization研究从一组信号中全局恢复字典的问题。我们假设信号是asi.i.d生成的。来自完整参考字典$ D ^ * \ in \ mathbb R ^ {K \ times K} $的$ K $原子的随机线性组合,其中线性组合系数来自伯努利型模型或精确稀疏模型。首先,我们获得必要且充分的规范条件,引用的字典$ D ^ * $是预期的$ \ ell_1 $目标函数的一个尖锐的局部最小值。我们的结果大大扩展了Wu和Yu(2015)的结果,并允许组合系数是非负的。其次,我们在所引用的字典的目标值最小的区域上获得显式绑定。第三,我们证明了参考字典是唯一的尖锐局部最小值,从而建立了第一个已知的$ \ ell_1 $ -minimization字典学习的全局属性。在理论结果的推动下,我们引入了基于扰动的测试来确定adictionary是否是目标函数的尖锐局部最小值。此外,我们还提出了一种新的基于Block CoordinateDescent的字典学习算法,称为DL-BCD,保证具有单调收敛性。模拟研究表明DL-BCD在恢复率方面具有竞争性,与许多状态相比。 -art字典学习算法。
translated by 谷歌翻译
能够解释来自实时视频流的场景的视觉算法对于计算机辅助手术系统来实现上下文感知行为是必要的。在腹腔镜手术中,这种系统所需的一种特定算法是手术阶段的识别,对于该手术阶段,现有技术是基于CNN-LSTM的模型。许多使用此类模型的先前工作已经以完全监督的方式训练它们,需要完全注释的数据集。相反,我们的工作面临着在提供大量注释数据(低于所有可用视频录像的25%)的情况下学习手术阶段识别的问题。我们提出了ateacher / student类型的方法,其中一个称为教师的强预测器,事先在一个关于地面实况注释视频的小数据集上进行训练,为更大的数据集生成合成注释,另一个模型 - 学生 - 从中​​学习。在我们的案例中,教师采用了新颖的CNN-biLSTM-CRF架构,仅用于离线推理。另一方面,学生是能够进行实时预测的CNN-LSTM。各种数量的手动注释视频的结果证明了新CNN-biLSTM-CRF预测器的优越性以及使用针对未注释视频生成的合成标签从CNN-LSTMtrained获得的改进性能。对于离线和在线手术阶段识别,只有很少的注释记录可用,这种新的教师/学生策略通过有效地利用未注释的数据提供了有价值的性能改进。
translated by 谷歌翻译
为了诊断黑素瘤,苏木精和曙红(H&E)染色的组织切片仍然是金标准。这些图像包含无关放大的定量信息。在本研究中,我们研究了深层卷积神经网络是否能够以修补的方式直接从这些大尺寸图像中提取互补文本的结构特征。为了应对组织病理学滑体形态多样性带来的挑战,我们建立了一个多中心数据库,包括来自2008年至2018年的132名患者的2241个数字全幻灯片图像。我们通过转移学习和测试性能,使用超过995万个补丁训练ResNet50和Vgg19两种关键分类:恶性黑色素瘤与良性痣不相关和混合放大;并在最大放大率中区分痣。 CNN在两个任务中都实现了卓越的性能,证明了能够根据病理学图像分析皮肤癌的AI。为了使分类合理,CNN表示的可视化还用于识别黑素瘤和痣之间的细胞。感兴趣的区域(ROI)也位于显着有用的位置,为病理学家提供了更多正确诊断的支持。
translated by 谷歌翻译
由于其不适定的性质,单图像去雾是一个具有挑战性的问题。现有的方法依赖于次优的两步法,其中估计像深度图这样的中间产品,基于该中间产品随后使用人工生成无雾图像。先前的公式。在本文中,我们提出了一个名为LDTNet的轻型双任务神经网络,可以一次性恢复无阴影图像。我们使用传输图估计作为辅助任务来辅助主要任务,雾霾去除,特征提取和增强网络的泛化。在LDTNet中,同时产生无雾图像和透射图。结果,人工原因减少到最小程度。大量实验表明,我们的算法在合成和真实世界图像上都能够达到最先进的方法。
translated by 谷歌翻译
对话是交换信息的有效方式,但细微的细节和资金非常重要。虽然重大进展为使用算法进行视觉对话铺平了道路,但细节和细微差别仍然是一个挑战。注意机制已经证明了提取细节隐形问题答案的引人注目的结果,并且由于其可解释性和有效性而为视觉对话提供了令人信服的框架。然而,伴随视觉对话的许多数据都挑战了现有的注意技术。我们解决了这个问题,并开发了visualdialog的一般注意机制,可以在任意数量的数据工具上运行。为此,我们设计了一个基于因子图的注意机制,它结合了任意数量的效用表示。我们说明了所提出的方法对具有挑战性和最近引入的VisDial数据集的适用性,在VisDial0.9中表现优于最近的最新方法1.1%,在VisRial1.0 onMRR上表现优于2%。我们的集合模型将VisDial1.0的MRR得分提高了6%以上。
translated by 谷歌翻译