Prevailing deep convolutional neural networks (CNNs) for person re-IDentification (reID) are usually built upon the ResNet or VGG backbones, which were originally designed for classification. Because reID has certain differences from classification, the architecture should be modified accordingly. We propose to search for a CNN architecture that is specifically suitable for the reID task. There are three main problems. First, body structural information plays an important role in reID but is not encoded in backbones. Part-based reID models incorporate structure information at the tail of a CNN. Performance relies heavily on human experts and the models are backbone-dependent, requiring extensive human effort when a different backbone is used. Second, Neural Architecture Search (NAS) automates the process of architecture design without human effort , but no existing NAS methods incorporate the structure information of input images. Third, reID is essentially a retrieval task but current NAS algorithms are merely designed for classification. To solve these problems, we propose a retrieval-based search algorithm over a specifically designed reID search space, named Auto-ReID. Our Auto-ReID enables the automated approach to find an efficient and effective CNN architecture that is specifically suitable for reID. Extensive experiments indicate that the searched architecture achieves state-of-the-art performance while requiring less than about 50% parameters and 53% FLOPs compared to others.
translated by 谷歌翻译
电动汽车(EV)共享系统最近在全球范围内经历了前所未有的增长。在快速扩张期间,成功的一个基本决定因素是当整个系统不断发展时,能够动态预测站点的需求。这种动态需求预测问题存在几个挑战。首先,与预测只需要静态系统或在几个扩展阶段的大多数现有工作不同,在现实世界中,我们经常需要在站点部署或关闭之前预测需求,以便为决策提供信息和支持。其次,对于要部署的台站,没有可用于帮助预测其需求的历史记录或额外的移动数据。最后,部署/关闭站到系统中其余站的影响可能非常复杂。为了解决这些挑战,本文提出了一种基于图序列学习的新型动态需求预测方法,能够对系统扩展过程中的动态进行建模,并相应地预测需求。我们使用局部temporalencoding过程来处理个人站点的可用历史数据,并使用动态空间编码过程来考虑图表卷积神经网络之间的相关性。编码特征被馈送到多尺度预测网络,该网络预测电台的长期预期需求及其在近期的即时需求。我们对从上海的主要EV共享平台收集的实际数据进行了为期一年的评估。实验结果证明我们的方法明显优于现有技术,在预测快速扩展的EV共享系统的需求方面表现出高达三倍的性能提升。
translated by 谷歌翻译
在实际应用程序中,并非所有多视图数据中的实例都能得到充分表示。为了处理不完整的多视图数据,传统的多视图算法通常会丢弃不完整的实例,从而导致可用信息的丢失。为了克服这种损失,不完全多视图学习(IML)已经成为一个热门的研究课题。在本文中,我们提出了一个通用的IML框架,用于统一现有的IML方法并深入了解IML。所提出的框架共同执行嵌入式学习和低级近似。具体地说,它通过一组低秩矩阵来近似不完整数据,并通过线性变换学习完整和常见的嵌入。几种现有的IML方法可以统一为框架的特例。更有趣的是,一些基于线性变换的全视图方法可以在框架的指导下直接适应IML。这弥补了完整的多视图学习和IML之间的差距。此外,框架可以为开发新算法提供指导。为了说明,在框架内,我们提出了一种特定的方法,称为具有块对角线表示的不完全多视图学习(IML-BDR)。基于采样示例具有近似线性子空间结构的假设,IML-BDR在学习完全嵌入之前使用块对角线结构,这将导致更正确的聚类。设计了一种具有连续过度松弛(SOR)优化技术的收敛轮廓迭代算法用于优化。各种数据集的实验结果证明了IML-BDR的有效性。
translated by 谷歌翻译
我们提供了PartNet:一个一致的大型3D对象数据集,用细粒度,实例级和分层3D零件信息进行注释。 Ourdataset包含573,585个零件实例,超过26,671个3D模型,涵盖24个对象类别。该数据集能够并作为许多任务的催化剂,如形状分析,动态三维场景建模和模拟,可供性分析等。使用我们的数据集,我们建立了三个评估三维零件识别的基准测试任务:细粒度语义分割,分层语义分割和实例分割。我们对用于细粒度语义分割的最先进的3D深度学习算法和用于分层语义分割的三种基线方法进行了基准测试。我们还提出了一种新的部分实例分割方法,并展示了优于现有方法的性能。
translated by 谷歌翻译
语义分割需要大量像素方式的注释,以容许准确的模型。在本文中,我们提出了一种基于视频预测的方法,通过综合新的训练样本来扩展训练集,以提高语义分割网络的准确性。我们利用视频预测模型预测未来帧的能力,以便预测未来的标签。还提出了联合传播策略以减少合成样品中的错误比对。我们证明了由合成样本增加的数据集上的训练分割模型导致准确性的显着改善。此外,我们引入了一种新颖的边界标签松弛技术,该技术使得对沿着对象边界的注释噪声和传播伪像具有鲁棒性。我们提出的方法在Cityscapes上实现了83.5%的最新技术,在CamVid上实现了82.9%。没有模型合奏的单一模型在KITTI语义分割测试集上达到了72.8%mIoU,超过了ROBchallenge 2018的获奖作品。我们的代码和视频可以在以下网址找到://nv-adlr.github.io/publication/2018 -分割。
translated by 谷歌翻译
根据多模态上下文回答问题是一个具有挑战性的问题,需要深度整合不同的数据源。现有方法仅在一个关注点中使用数据源之间的部分交互。在本文中,我们提出了整体多模态记忆网络(HMMN)框架,它充分考虑了每一跳中不同输入源(多模态上下文,问题)之间的相互作用。此外,在上下文检索阶段需要考虑其中的选择。因此,所提出的框架有效地集成了多模态上下文,问题和答案信息,这导致了更多信息上下文的问题回答。我们的HMMN框架在MovieQA数据集上实现了最先进的准确性。广泛的消融研究表明了绝对推理的重要性以及不同注意策略的贡献。
translated by 谷歌翻译
当前最先进的视频理解方法采用时间抖动来模拟以不同帧速率分析视频。但是,这对于多速率视频效果不佳,其中动作或子动作的速度不同。帧采样率应根据不同的运动速度而变化。在这项工作中,我们提出了一个简单但有效的策略,称为随机时间跳过,以解决这种情况。该策略通过随机抽样评估培训有效地处理多速率视频。这是一种详尽的方法,可以涵盖所有的运动速度变化。此外,由于大量的时间跳过,我们的网络可以看到最初覆盖超过100帧的视频剪辑。这样的时间范围足以分析大多数动作/事件。我们还介绍了一种能够识别人类动作识别的改进运动图的一种感知识别光流学习方法。我们的框架是端到端的可训练,实时运行,并在六个广泛采用的视频基准测试中实现了最先进的性能。
translated by 谷歌翻译
深度神经网络已经在计算机视觉领域取得了一系列突破,提供了足够的注释训练数据集。对于具有有限标签数据的新任务,流行的方法是通过微调将预训练模型中学到的知识转移到新任务。经典的模式调整利用了训练有素的神经网络似乎学习跨域特征的事实。在转学习期间,这些功能得到平等对待。在本文中,我们通过引入传输模块来探索特征选择在模式调整中的影响,该模块为从预训练模型中提取的特征分配权重。所提出的传输模块证明了用于将模型从源域转移到目标域的特征选择的重要性。它被证明可以显着改善微调结果,而且只有极小的额外计算成本。我们还将辅助分类器作为额外的正则化器,以避免过度拟合。最后,我们基于我们的传输模块构建了一个门控传输网络(GTN),并在六个不同的任务上实现了最先进的结果。
translated by 谷歌翻译
对于细粒度分类任务,视频可以作为静态图像的更好来源,因为视频具有包含判别模式的更高机会。然而,视频序列也可能包含许多冗余和不相关的帧。如何定位感兴趣的关键信息是一项艰巨的任务。在本文中,我们提出了一种新的网络结构,称为冗余约简注意(RRA),它通过抑制冗余特征通道来学习专注于多重判别模式。具体来说,它首先通过对特征中所有特征向量进行加权求和来总结视频。具有时空软关注的所选帧的映射,然后根据所学习的非线性变换根据该摘要预测要抑制或增强的信道。通过调制特征图和脱粒弱激活来实现抑制。然后在下一次迭代中使用更新的特征映射。最后,视频根据多个摘要进行分类。所提出的方法在多个视频分类数据集中实现了卓越的性能。此外,我们还收集了两个大型视频数据集,YouTube-Birds和YouTube-Cars,用于未来对细粒度视频分类的研究。数据集可在http://www.cs.umd.edu/~chenzhu/fgvc获得。
translated by 谷歌翻译
在智能辅导系统(ITS)中,为了提供更多支持性的学习指导,已经研究了几十年来追踪学生的学习知识。在本文中,我们提出了一种新的知识追踪模型:i)捕捉学生的学习能力,并在规律的时间间隔内动态地将学生分配到具有相似能力的不同群体中; ii)将这些信息与称为深度知识追踪的循环神经网络结构相结合。实验结果证实,所提出的模型在预测学生表现方面明显优于众所周知的最先进的学生建模技术。
translated by 谷歌翻译