多视图子空间聚类旨在根据其基础子空间结构将一组多源数据划分为多个组。尽管基于光谱聚类的方法在多视图聚类中实现了推广,但是它们的效用受到隔离​​亲和矩阵构造和聚类指示符估计的单独学习方式的限制。在本文中,我们建议在统一模型中共同学习自我表征,继续和离散集群指标。我们的模型可以探索每个视图的子空间结构并融合它们以便同时进行聚类。两个基准数据集的实验结果表明,我们的方法优于其他现有的竞争性多视图聚类方法。
translated by 谷歌翻译
面部地标定位是众多面部相关应用中非常关键的一步,例如面部识别,面部姿势估计,面部图像合成等。然而,之前的面部地标定位竞赛(即300-W,300-VW和Menpo挑战)旨在预测68点地标,这些地标无法描述面部构件的结构。为了克服这个问题,我们构建了一个具有挑战性的数据集,名为J-landmark。每个图像都用106点地标手动注释。这个数据集涵盖了姿势和表情的大变化,这给预测准确的地标带来了很多困难。我们与IEEE国际多媒体和博览会(ICME)2019一起在该数据集上举办了一场106点的面部地标定位竞赛1。本次比赛的目的是发现有效而强大的面部地标定位方法。
translated by 谷歌翻译
本文提出了一种从单个图像中恢复详细人体形状的新方法。由于诸如人体形状,身体姿势和观点的变化等因素,这是一项具有挑战性的任务。现有方法通常尝试使用缺少表面细节的基于参数的模板来恢复人体形状。因此,所得到的身体形状似乎没有衣服。在本文中,我们提出了一种新的基于学习的框架,它结合了参数模型的鲁棒性和自由形式三维变形的灵活性。我们使用深度神经网络在层次网格变形(HMD)框架中利用来自关节,轮廓和每像素着色信息的约束来细化3D形状。我们能够在皮肤模型之外恢复详细的人体形状。实验证明我们的方法优于以前最先进的方法,在2D IoU数和3Dmetric距离方面实现了更好的准确性。该代码可在https://github.com/zhuhao-nju/hmd.git中找到
translated by 谷歌翻译
我们提出了一种新的语言表示模型,该模型被称为ENDIE(通过kNowledge IntEgration的增强表示)的知识增强。受到BERT的掩蔽策略的启发,ERNIE旨在通过知识掩蔽策略来学习语言表达,其中包括实体级掩蔽和短语级掩蔽。实体级策略掩盖通常由多个单词组成的实体。语法级别策略掩盖整个短语,该短语由作为概念单元的几个单词组成。实验结果表明ERNIE优于其他基线方法,实现了新的状态。艺术成果包括自然语言推理,语义相似度,命名实体识别,情感分析和问答。我们还说明了ERNIE在acloze测试中具有更强大的知识推理能力。
translated by 谷歌翻译
使用忆阻器作为神经元突触的忆阻神经网络(MNNs)最近成为一个热门的研究课题。然而,大多数忆阻器与主流集成电路技术不兼容,目前大规模的可靠性不是很好。本文介绍了一种硬件友好的MNN电路,其中忆阻特性由数字集成电路实现。通过这种方法,实现了尖峰时间依赖可塑性(STDP)和无监督学习。提出了一种权重共享机制,以弥合网络规模和硬件资源的差距。实验结果表明,硬件资源得到了显着的保存,保持了良好的识别精度和高速度。此外,资源增长的趋势比网络规模的扩大慢,这推断了我们的方法在大规模神经形态网络实现方面的潜力。
translated by 谷歌翻译
给定任意语音剪辑和面部图像,说话面部生成旨在合成具有精确唇部同步的说话面部视频以及在整个视频语音上的面部运动的平滑过渡。 Mostexisting方法主要集中在解析单个图像中的信息或学习帧之间的时间信息。然而,speechaudio和视频通常具有跨模态连贯性,在合成期间没有得到很好的应用。因此,本文通过互信息近似(MIA)发现了一种适用于任意人的新型高分辨率会话人脸生成模型。通过假设音频和视频之间的模态差异大于真实视频和生成的视频,我们估计真实音频和视频之间的互信息,然后使用鉴别器来强制生成视频分配方法真实视频分发。此外,我们在口腔上引入了动态注意技术,以增强训练阶段的稳健性。基准数据集LRW的实验结果超越了流行度量的最新方法,具有性别,姿态变换和高分辨率合成的鲁棒性。
translated by 谷歌翻译
我们提供了PartNet:一个一致的大型3D对象数据集,用细粒度,实例级和分层3D零件信息进行注释。 Ourdataset包含573,585个零件实例,超过26,671个3D模型,涵盖24个对象类别。该数据集能够并作为许多任务的催化剂,如形状分析,动态三维场景建模和模拟,可供性分析等。使用我们的数据集,我们建立了三个评估三维零件识别的基准测试任务:细粒度语义分割,分层语义分割和实例分割。我们对用于细粒度语义分割的最先进的3D深度学习算法和用于分层语义分割的三种基线方法进行了基准测试。我们还提出了一种新的部分实例分割方法,并展示了优于现有方法的性能。
translated by 谷歌翻译
灾难性遗忘是持续学习中的一个挑战问题,当神经网络忘记了在后续任务学习后从前任务获得的知识。但是,现有方法试图找到与所有任务共享的参数的联合分布。这个想法可能是有问题的,因为当任务数量增加时,这种联合分布可能不会出现。另一方面,当网络容量有限时,它也会导致“长期”内存问题,因为添加任务会“吞噬”网络容量。本文中,我们提出了一种软参数修剪(SPP)策略来实现交易 - 在学习模型的短期和长期利润之间取消这些参数,这些参数较少有助于记住以前的任务,以便学习未来的任务,并通过那些有效编码同时知识的参数来保留先前任务的记忆。 SPP还通过信息熵以无标签方式测量参数的重要性。对几个任务的实验表明,与其他最先进的方法相比,SPP模式获得了最佳性能。实验结果也表明我们的方法对高参数和更好的泛化不太敏感。我们的研究表明,软件策略,即近似优化或次优解决方案,将有利于缓解记忆困境。源代码可从以下网址获得://github.com/lehaifeng/Learning_by_memory。
translated by 谷歌翻译
多人姿势估计是许多计算机视觉任务的基础,并且近年来取得了重大进展。然而,很少有先前的方法能够在拥挤的场景中探讨姿势估计的问题,而在许多场景中它仍然具有挑战性和不可避免性。此外,目前的基准测试无法为此类案例提供适当的评估。在本文中,我们提出了一种新颖有效的方法来解决人群中的姿态估计问题,并提出了一种新的数据集来更好地评估算法。我们的模型包括两个关键组成部分:联合候选人单人姿势估计(SPPE)和全局最大关节关联。利用图模型进行多峰值预测联合和全局关联,我们的方法在拥挤的场景中具有鲁棒的不可避免的干扰,并且在推理中非常有效。所提出的方法超过了CrowdPose数据集上最先进的方法4.4 mAP,MSCOCO数据集上的结果证明了我们方法的泛化能力。源代码和数据集将公开发布。
translated by 谷歌翻译
Autonomous driving has attracted remarkable attention from both industry and academia. An important task is to estimate 3D properties (e.g. translation, rotation and shape) of a moving or parked vehicle on the road. This task, while critical, is still under-researched in the computer vision community-partially owing to the lack of large scale and fully-annotated 3D car database suitable for autonomous driving research. In this paper, we contribute the first large-scale database suitable for 3D car instance understanding-ApolloCar3D. The dataset contains 5,277 driving images and over 60K car instances, where each car is fitted with an industry-grade 3D CAD model with absolute model size and semantically labelled keypoints. This dataset is above 20× larger than PASCAL3D+ [65] and KITTI [21], the current state-of-the-art. To enable efficient labelling in 3D, we build a pipeline by considering 2D-3D keypoint correspondences for a single instance and 3D relationship among multiple instances. Equipped with such dataset, we build various baseline algorithms with the state-of-the-art deep convolutional neural networks. Specifically, we first segment each car with a pre-trained Mask R-CNN [22], and then regress towards its 3D pose and shape based on a deformable 3D car model with or without using semantic keypoints. We show that using keypoints significantly improves fitting performance. Finally, we develop a new 3D metric jointly considering 3D pose and 3D shape, allowing for comprehensive evaluation and ablation study. By comparing with human performance we suggest several future directions for further improvements. (a) (b) (c) Figure 1: An example of our dataset, where (a) is the input color image, (b) illustrates the labeled 2D keypoints, (c) shows the 3D model fitting result with labeled 2D keypoints.
translated by 谷歌翻译