深度学习,大量注释数据和越来越强大的硬件的突出使得有可能在监督分类任务中达到显着的性能,在许多情况下使训练集饱和。然而,由于至少有三个原因,将学习的分类调整到新的领域仍然是一个难题:(1)领域和任务可能大不相同; (2)新域上可能存在非常有限的注释数据量;(3)由于deepnetworks参数的剪切数,每个新任务的新模型的完全训练在内存方面是禁止的。相反,新任务应该逐步学习,建立在已经学过的任务的预知基础之上,并且没有灾难性的遗忘,即不会损害先前任务的表现。据我们所知,本文提出了第一种多域/任务学习方法,无需使用完全张量化的体系结构进行灾难性的遗忘。我们的主要贡献是多域学习的方法,其将CNN内的相同结构块的组建模为高阶张量。我们证明了这种联合模式自然地利用了不同层之间的相关性,并且导致每个新任务/域比以前的方法更紧凑的表示,这些方法专注于分别调整每个层。我们将所提出的方法应用于视觉十项全能挑战赛的10个数据集,并表明我们的方法在分类准确度和迪卡侬评分方面平均提供约7.5倍的参数数量和优异的性能。特别是,我们的方法优于Visual DecathlonChallenge的所有先前工作。
translated by 谷歌翻译
膝关节骨性关节炎(OA)是最常见的无骨折的肌肉骨骼疾病,目前的治疗方案仅限于症状缓解。对OA进展的预测是一个非常具有挑战性和及时性的问题,如果得到解决,它可以加速疾病调节药物的开发并最终帮助防止每年进行数百万次关节置换手术。在这里,我们提出了一种基于多模态机器学习的OAprogression预测模型,该模型利用原始射线照相数据,临床检查结果和患者的既往病史。我们在2,129个主题的3,918个膝关节图像的独立测试集上验证了这种方法。我们的方法在ROC曲线(AUC)下产生的面积为0.79(0.78-0.81),平均精度(AP)为0.68(0.66-0.70)。相比之下,基于逻辑回归的参考方法得出的AUC为0.75(0.74-0.77),AP为0.62(0.60-0.64)。该方法可以显着改善OA药物开发试验的主题选择过程,有助于个性化治疗方案的开发。
translated by 谷歌翻译
在过去几年中,演示攻击检测(PAD)已成为面部识别系统的基础部分。尽管已经对反欺骗研究付出了很多努力,但真实场景中的泛化仍然是一个挑战。在本文中,我们提出了一个新的开源评估框架,研究了面部PAD方法的泛化能力,这里创造了asface-GPAD。该框架有助于创建侧重于泛化问题的新协议,建立公平的评估程序和PAD解决方案之间的比较。我们还引入了一个大型聚合和分类数据集,以解决公共数据集之间不兼容的问题。最后,我们提出了一个基准,增加了两个新的评估协议:一个用于测量面部分辨率变化引入的影响,另一个用于评估对抗性操作条件的影响。
translated by 谷歌翻译
训练深度神经网络是一项非常重要的任务。不仅调整高参数,而且训练数据的收集和选择,损失函数的设计以及训练计划的构建对于充分利用模型是非常重要的。在本研究中,我们进行了一系列与这些问题相关的实验。研究不同训练策略的模型是最近呈现的SDC描述符网络(堆叠扩张卷积)。它用于描述像素级fordense匹配任务的图像。我们的工作更详细地分析了SDC,验证了用于训练深度神经网络的一些最佳实践,并提供了对多个域数据进行操作的见解。
translated by 谷歌翻译
在过去几年中,卷积神经网络(CNN)在学习许多计算机视觉任务(包括光流和立体匹配等密集估计问题)方面取得了越来越大的成功。然而,这些任务的联合预测,称为场景流,传统上使用基于原始假设的慢经典方法来解决,这些假设无法概括。本文介绍的工作通过提出PWOC-3D(在速度和精度方面)克服了这些缺点,PWOC-3D是一种紧凑的CNN架构,用于预测从端到端监督设置中立体图像序列的场景流。此外,大的运动和遮挡是场景流估计中众所周知的问题。 PWOC-3D采用专门的设计决策来明确地模拟这些挑战。在这方面,我们提出了一种新的自我监督策略来预测图像中的遮挡(在没有任何标记的遮挡数据的情况下学习)。利用多种此类构造,我们的网络在KITTI基准测试和具有挑战性的FlyingThings3D数据集上实现了竞争结果。特别是在KITTI,PWOC-3D在端到端深度学习方法中获得第二名,参数比最佳表现方法少48倍。
translated by 谷歌翻译
近几十年来,3D可变形模型(3DMM)已经普遍用于基于图像的照片级逼真3D面部重建。然而,面部图像由于包括眼镜,面具和手的非面部物体的严重遮挡而被破坏。这些对象阻止正确捕获地标和阴影信息。因此,重建的3D人脸模型几乎不可重用。本文提出了一种基于3DMM逆生成和生成对抗网络恢复去遮挡人脸图像的新方法。在提议的对抗性网络之前使用3DMM,并结合全球局部对抗性卷积神经网络来学习面部去遮挡模型。 3DMM不仅用作几何先验,还为局部鉴别器提出面部区域。实验结果证实了所提出的算法在去除具有各种头部姿势和照明的具有挑战性的闭塞类型方面的有效性和鲁棒性。此外,所提出的方法利用去遮挡纹理重建正确的3D面部模型。
translated by 谷歌翻译
本文深入研究了影响自我中心凝视的因素。我们不是盲目地为此目的训练深层模型,而是建议在日常任务中检查有助于注视引导的因素。评估底部上升和光流与强空间先验基线的比较。特定任务线索,如消失点,操纵点和手区域,作为自上而下信息的代表进行分析。我们还通过研究以自我为中心的凝视预测的简单的复发神经模型来研究这些因素的贡献。首先,为所有输入视频帧提取深度特征。然后,使用门控循环单元来整合随时间的信息并预测下一次固定。我们还提出了一个综合模型,它将循环模型与几个向下和自底向上的线索相结合。在多个数据集上的广泛实验表明:(1)自我中心视频中的空间偏差很强,(2)自下而上模型在预测凝视和表现不佳空间偏见方面表现不佳,(3)深度特征与传统特征相比表现更好,(4)相反对于手部区域,操纵点是注视预测的强有力影响因素,(5)将提出的复现模型与底部上升,消失点,特别是操纵点相结合,得出最强的注视预测精度超过自我中心视频,(6)知识转移最适用于任务或序列相似的情况,(7)任务和活动识别可以从凝视预测中受益。我们的发现表明:(1)应该更多地强调手 - 物体相互作用;(2)自我中心视觉群体应该考虑更大的数据集,包括多样刺激和更多的主题。
translated by 谷歌翻译
自动数字组织病理学图像分割是帮助病理学家诊断肿瘤和癌症亚型的重要任务。对于癌症亚型的病理诊断,病理学家通常改变全滑动图像(WSI)观察者的放大率。一个关键的假设是放大率的重要性取决于输入图像的特征,例如癌症子类型。在本文中,我们提出了一种新的语义分割方法,称为自适应加权多视场CNN(AWMF-CNN),它可以自适应地使用来自不同放大率的图像的图像特征来对输入图像中的多个癌症亚型区域进行分类。 。所提出的方法通过根据输入图像自适应地改变每个专家的权重来聚集几个专家CNN用于不同放大率的图像。它利用可能有助于识别子类型的不同放大率的图像中的信息。它在实验中的表现优于其他最先进的方法。
translated by 谷歌翻译
批量标准化(BN)对深度学习非常有效,并且被广泛使用。但是,在使用小型微型培训时,使用BNexhibit的模型性能显着下降。在本文中,我们研究BN的这种特殊行为以更好地理解该问题,并基于统计学洞察识别潜在原因。我们建议“EvalNorm”通过估计在评估期间用于BN的校正归一化统计来解决该问题。 EvalNorm支持在训练模型时在线估计校正的统计数据,并且它不影响模型的训练方案。因此,EvalNorm的一个附加优势是它可以与现有的预训练模型一起使用,使他们能够从我们的方法中受益。 EvalNorm为使用较小批量训练的模型带来了巨大的收益。我们的实验表明,对于ImageNet验证集上的2个批量大小,EvalNorm的性能比香草BN高6.18%(绝对值),并且在各种设置的COCO对象检测基准上,从1.5到7.0点(绝对)增益。
translated by 谷歌翻译
由于其不适定的性质,单图像去雾是一个具有挑战性的问题。现有的方法依赖于次优的两步法,其中估计像深度图这样的中间产品,基于该中间产品随后使用人工生成无雾图像。先前的公式。在本文中,我们提出了一个名为LDTNet的轻型双任务神经网络,可以一次性恢复无阴影图像。我们使用传输图估计作为辅助任务来辅助主要任务,雾霾去除,特征提取和增强网络的泛化。在LDTNet中,同时产生无雾图像和透射图。结果,人工原因减少到最小程度。大量实验表明,我们的算法在合成和真实世界图像上都能够达到最先进的方法。
translated by 谷歌翻译