归一化方法是卷积神经网络(CNN)中的基本组成部分。它们使用预定义像素集中的统计值来标准化或白化数据。与为特定任务设计标准化技术的现有工作不同,我们提出了可切换美白(SW),它提供了统一不同美白方法以及标准化方法的一般形式。 SW学会以端到端的方式在这些操作之间切换。它有几个优点。首先,SW自适应地为不同的任务选择适当的白化或标准化统计(见图1),使其非常适合于无需手动设计的各种任务。其次,通过整合不同规范化器的优势,SW在各种挑战中显示出与其对应物的一致性。基准。第三,SWserve作为理解美白和标准化技术特征的有用工具。我们表明,SW在图像分类(CIFAR-10/100,ImageNet),语义分割(ADE20K,Cityscapes),域适应(GTA5,Cityscapes)和图像样式转移(COCO)方面优于其他替代方案。例如,在没有花里胡哨的情况下,我们在ADE20K数据集上获得了45.33%mIoU的最先​​进的性能。将发布代码和模型。
translated by 谷歌翻译
真实世界的数据通常具有长尾和开放式分布。实用识别系统必须在多数和少数类别中进行分类,从一些已知的实例中推广出来,并在一个监督实例上承认新颖性。我们将开放式长尾识别(OLTR)定义为从这些自然分布的数据中学习并优化分类精度,包括头部,尾部和开放类的平衡测试集。 OLTR必须在一个集成算法中处理不平衡分类,少量学习和开放集识别,而现有分类方法只关注一个方面,并且在整个类频谱上表现不佳。关键挑战是如何在头尾类之间共享视觉知识,以及如何减少尾部和开放类之间的混淆。我们开发了一种集成的OLTR算法,可以将图像映射到一个特征空间,使得视觉概念可以根据一个学习的指标轻松地相互关联,该指标尊重封闭世界的分类,同时承认开放世界的新颖性。我们所谓的动态元嵌入结合了直接图像特征和相关的记忆特征,特征规范表明了对已知类的熟悉程度。在三个大型OLTR数据集中,我们从以对象为中心的ImageNet,以场景为中心的场所和以面部为中心的MS1M数据进行策划,我们的方法始终优于最先进的技术。我们的代码,数据集和模型可用的未来OLTR研究可以公开获取:http://liuziwei7.github.io/projects/LongTail.html。
translated by 谷歌翻译
智能代理自然地从运动中学习。各种自我监督算法利用运动线索来学习有效的视觉表现。这里的障碍是运动既模糊又复杂,使得先前的作品要么遭受学习效率降低,要么对对象运动的强烈假设。在这项工作中,我们设计了一种新的学习动作范式来弥合这些差距。我们将pretext任务设计为conditionalotion传播问题,而不是明确地模拟运动概率。给定输入图像和其上的几个稀疏流导向量,我们的框架寻求恢复全图像运动。与其他替代方案相比,我们的框架具有几个吸引人的特性:(1)在训练期间使用稀疏流动指导解决了固有的运动模糊性,并且从而简化了功能学习。 (2)解决有条件运动传播的借口任务可以促进运动声音表现的出现,这种表现力具有更强的表现力。广泛的实验证明我们的框架学习结构和连贯的特征;并在几个下游任务上实现了最先进的自我监督绩效,包括语义分割,实例分割和人工分析。此外,我们的框架已成功扩展到几个使用应用程序,如半自动像素级注释。项目页面:“http://mmlab.ie.cuhk.edu.hk/projects/CMP/”。
translated by 谷歌翻译
人脸识别近年来取得了长足的进步,主要归功于设计的大容量模型和丰富的标签数据。然而,扩大当前的百万级身份注释变得越来越禁止。在这项工作中,我们表明,未标记的面部数据可以与标记的面部数据一样有效。在这里,我们考虑设置密切模仿现实世界的场景,其中未标记的数据从不受约束的环境收集,并且它们的身份与标记的数据是唯一的。我们的主要观点是,尽管类信息不可用,但我们仍然可以通过以自下而上的方式构建关系图来忠实地近似这些语义关系。我们提出共识驱动传播(CDP)来解决这个具有挑战性的问题,有两个模块,即“委员会”和“调解员”,它们通过仔细聚合多视图信息来强有力地选择正面对。大量实验验证了两个模块的有效性,以丢弃异常值和挖掘硬性积极因素。使用CDP,我们通过仅使用9%的标签实现了对MegaFace识别挑战的78.18%的令人信服的准确度,相比之下,当使用未标记数据时为61.78%,而当使用所有标签时为78.52%。
translated by 谷歌翻译
Despite the rapid progress of generative adver-sarial networks (GANs) in image synthesis in recent years, current approaches work in either geometry domain or appearance domain which tend to introduce various synthesis artifacts. This paper presents an innovative Adaptive Composition GAN (AC-GAN) that incorporates image synthesis in geometry and appearance domains into an end-to-end trainable network and achieves synthesis realism in both domains simultaneously. An innovative hierarchical synthesis mechanism is designed which is capable of generating realistic geometry and composition when multiple foreground objects with or without occlusions are involved in synthesis. In addition, a novel attention mask is introduced to guide the appearance adaptation to the embedded foreground objects which helps preserve image details and resolution and also provide better reference for synthesis in geometry domain. Extensive experiments on scene text image synthesis, automated portrait editing and indoor rendering tasks show that the proposed AC-GAN achieves superior synthesis performance qualitatively and quantitatively.
translated by 谷歌翻译
人工智能(AI)研究人员声称他们在临床领域已经取得了巨大成功。然而,临床医生指出,所谓的“实现”并没有能力实施到自然临床环境中。导致这一巨大差距的根本原因是人工智能系统开发人员在没有医学背景的情况下忽略了自然临床任务的许多基本功能。在本文中,我们提出临床基准测试套件是捕获世界临床任务基本特征的新方向和有希望的方向,因此有资格指导AI系统的开发,促进AI在现实世界临床实践中的实施。
translated by 谷歌翻译
在视觉关系检测中,人与文本的关系可以被视为确定的关系。然而,仍然存在大量未标记的数据,例如具有不太重要的关系的对象对,没有关系。我们将这些未标记但可能有用的数据称为未确定的关系。尽管存在大量文献,但很少有方法利用这些未确定的关系来进行视觉关系检测。在本文中,我们探讨了视觉关系检测中未确定关系的有益效果。我们提出了一种新的基于多模态特征的未确定关系学习网络(MF-URLN),并在关系检测中实现了重要性。详细地说,我们的MF-URLN通过根据设计的标准将对象对与人类标记的数据进行比较来自动生成未确定的关系。然后,MF-URL从三个互补模态中提取和融合对象对的特征:视觉,空间和语言模态。此外,MF-URLN提出了两个相关的子网:一个子网决定确定的置信度,另一个子网预测关系。我们在两个数据集上评估MF-URLN:视觉关系检测(VRD)和视觉基因组(VG)数据集。与现有技术方法相比较的实验结果验证了未确定关系所带来的显着改进,例如,在VRDdataset上,thetop-50关系检测召回率从19.5%提高到23.9%。
translated by 谷歌翻译
来自EEG的癫痫发作检测是一个具有挑战性且耗时的临床问题,其将受益于自动算法的开发。 EEGs可以被视为结构时间序列,因为它们是多变量时间序列,其中导线在患者头皮上的放置提供了关于相互作用结构的预先信息。通常用于时间序列的深度学习模型不提供利用结构信息的方法,但这在结构时间序列的模型中是期望的。为了应对这一挑战,我们提出了时间图卷积网络(TGCN),利用结构信息并且参数相对较少的模型.TGCN应用了在时间和空间上定位和共享的特征提取操作,从而在任务中提供有用的归纳偏差。期望类似的特征在不同的序列中具有辨别力。在我们的实验中,我们关注最重要的检测方法,并证明TGCN与其他任务中已经证明是最先进的相关模型的性能相匹配。此外,我们通过探索帮助临床医生的方法来研究TGCN的可解释性优势。确定何时发生精确癫痫发作,以及大多数参与的大脑部位。
translated by 谷歌翻译
网络视频应用(例如视频会议)由于意外的网络波动和有限的带宽而经常遭受视觉质量的影响。在本文中,我们开发了一个质量增强网络(QENet)来减少视频压缩伪像,利用各个多尺度卷积产生的空间和时间先验,在时间上以循环方式进行空间和扭曲时间预测。我们已将此QENet集成为高效视频编码(HEVC)兼容解码器的标准单独后处理子系统。实验结果表明,我们的QENet在HEVC和其他基于深度学习的方法中展示了针对默认环路滤波器的最先进性能,其中在峰值信噪比(PSNR)和主观增益中具有明显的目标增益。
translated by 谷歌翻译
自动驾驶汽车必须在充满不确定性的动态环境中航行。不确定性可能来自传感器限制,例如遮挡和有限的传感器范围,或来自其他道路参与者的概率预测,或来自新区域中未知的社会行为。在存在这些不确定因素的情况下,自动驾驶汽车的决策制定和规划模块应该智能地利用所有可用信息并适当地解决不确定因素,从而产生适当的驾驶策略。在本文中,我们提出了社会感知方案,它将所有道路参与者视为传感器网络中的分布式传感器。通过观察个体行为以及群体行为,可以在信念空间中统一更新这三种类型的不确定性。来自社会感知的更新信念被明确地并入基于模型预测控制(MPC)的概率规划框架中。通过逆增强学习(IRL)学习MPC的成本函数。这种具有社会增强感知的综合概率规划模块使得自主车辆能够产生具有防御性但不过于保守且与社会兼容的行为。所提出的框架的有效性验证了对具有传感器遮挡的代表性场景的模拟。
translated by 谷歌翻译