尽管其重要性,乘客需求预测仍然是一个具有高度挑战性的问题,因为需求同时受到许多空间和时间因素与其他外部因素(如天气)之间的复杂相互作用的影响。为了解决这个问题,我们提出了一个Spatio-TEmporalFuzzy神经网络(STEF-Net)来准确预测乘客需求,以解决所有已知重要因素的复杂相互作用。我们设计了一个端到端的学习框架,其中不同的神经网络建模了不同的因素。具体而言,我们建议通过卷积长短期记忆网络和模式神经网络捕获时空特征交互,模糊神经网络处理的数据不确定性明显优于确定性方法。为了在融合两个网络时保持时间关系并强调有区别的时空特征交互,我们采用了一种新的特征融合方法,即卷积操作和注意层。据我们所知,我们的工作是第一个深度递归神经网络和模糊神经网络来模拟复杂的时空特征相互作用与额外的不确定输入特征进行预测学习。在大型真实世界数据集上的实验表明,我们的模型比最先进的方法实现了超过10%的改进。
translated by 谷歌翻译
预测视频中的未来帧已成为计算机视觉和机器人学习社区研究的一个有前途的方向。该问题的核心涉及移动物体捕获和未来运动预测。虽然对象捕获指定了哪些对象在视频中移动,但运动预测描述了它们未来的动态。在此分析的推动下,我们提出了一种用于视频预测的CubicLong短期记忆(CubicLSTM)单元。 CubicLSTM包括三个分支,即用于捕获运动对象的空间分支,用于处理运动的时间分支,以及用于组合前两个分支以生成预测帧的输出分支。沿着空间分支和输出分支堆叠多个CubicLSTM单元,并且沿着时间分支的交错可以形成立方递归神经网络(CubicRNN)。实验表明,CubicRNN在合成和真实世界数据集上产生比先前方法更准确的视频预测。
translated by 谷歌翻译
在现代单词表示学习中,子字级信息(例如,字符,字符n-gram,语素)的使用已经变得无处不在。它的重要性证明特别适用于形态丰富的语言,这些语言产生了大量罕见的单词。尽管这种对子词进行知情的单词表示的兴趣日益增加,但他们对不同类型语言和不同任务的系统比较分析仍然存在。在这项工作中,我们提供了这样一项研究,重点关注子词级整合到单词表示模型所需的两个组件的变化:1)将单词分割成子单词单元,以及2)子单词组合函数以获得最终单词表示。我们提出了一个学习子字通知单词表示的通用框架,它允许使用不同的分段和组合组件进行简单的实验,还包括基于位置嵌入和自我关注的更高级技术。使用统一框架,我们在3个任务(一般和罕见的单词相似性,依赖性解析,细粒度实体类型)上运行大量的子字通知单词表示配置(总共60个),代表3种语言类型的5种语言。我们的主要结果清楚地表明,没有“one-sizefits-all”配置,因为性能取决于语言和任务。我们还发现基于无监督分割(例如,BPE,Morfessor)的配置有时与基于监督分词的配置相当或甚至优于基于监督分词的配置。
translated by 谷歌翻译
Prevailing deep convolutional neural networks (CNNs) for person re-IDentification (reID) are usually built upon the ResNet or VGG backbones, which were originally designed for classification. Because reID has certain differences from classification, the architecture should be modified accordingly. We propose to search for a CNN architecture that is specifically suitable for the reID task. There are three main problems. First, body structural information plays an important role in reID but is not encoded in backbones. Part-based reID models incorporate structure information at the tail of a CNN. Performance relies heavily on human experts and the models are backbone-dependent, requiring extensive human effort when a different backbone is used. Second, Neural Architecture Search (NAS) automates the process of architecture design without human effort , but no existing NAS methods incorporate the structure information of input images. Third, reID is essentially a retrieval task but current NAS algorithms are merely designed for classification. To solve these problems, we propose a retrieval-based search algorithm over a specifically designed reID search space, named Auto-ReID. Our Auto-ReID enables the automated approach to find an efficient and effective CNN architecture that is specifically suitable for reID. Extensive experiments indicate that the searched architecture achieves state-of-the-art performance while requiring less than about 50% parameters and 53% FLOPs compared to others.
translated by 谷歌翻译
电动汽车(EV)共享系统最近在全球范围内经历了前所未有的增长。在快速扩张期间,成功的一个基本决定因素是当整个系统不断发展时,能够动态预测站点的需求。这种动态需求预测问题存在几个挑战。首先,与预测只需要静态系统或在几个扩展阶段的大多数现有工作不同,在现实世界中,我们经常需要在站点部署或关闭之前预测需求,以便为决策提供信息和支持。其次,对于要部署的台站,没有可用于帮助预测其需求的历史记录或额外的移动数据。最后,部署/关闭站到系统中其余站的影响可能非常复杂。为了解决这些挑战,本文提出了一种基于图序列学习的新型动态需求预测方法,能够对系统扩展过程中的动态进行建模,并相应地预测需求。我们使用局部temporalencoding过程来处理个人站点的可用历史数据,并使用动态空间编码过程来考虑图表卷积神经网络之间的相关性。编码特征被馈送到多尺度预测网络,该网络预测电台的长期预期需求及其在近期的即时需求。我们对从上海的主要EV共享平台收集的实际数据进行了为期一年的评估。实验结果证明我们的方法明显优于现有技术,在预测快速扩展的EV共享系统的需求方面表现出高达三倍的性能提升。
translated by 谷歌翻译
在实际应用程序中,并非所有多视图数据中的实例都能得到充分表示。为了处理不完整的多视图数据,传统的多视图算法通常会丢弃不完整的实例,从而导致可用信息的丢失。为了克服这种损失,不完全多视图学习(IML)已经成为一个热门的研究课题。在本文中,我们提出了一个通用的IML框架,用于统一现有的IML方法并深入了解IML。所提出的框架共同执行嵌入式学习和低级近似。具体地说,它通过一组低秩矩阵来近似不完整数据,并通过线性变换学习完整和常见的嵌入。几种现有的IML方法可以统一为框架的特例。更有趣的是,一些基于线性变换的全视图方法可以在框架的指导下直接适应IML。这弥补了完整的多视图学习和IML之间的差距。此外,框架可以为开发新算法提供指导。为了说明,在框架内,我们提出了一种特定的方法,称为具有块对角线表示的不完全多视图学习(IML-BDR)。基于采样示例具有近似线性子空间结构的假设,IML-BDR在学习完全嵌入之前使用块对角线结构,这将导致更正确的聚类。设计了一种具有连续过度松弛(SOR)优化技术的收敛轮廓迭代算法用于优化。各种数据集的实验结果证明了IML-BDR的有效性。
translated by 谷歌翻译
我们提供了PartNet:一个一致的大型3D对象数据集,用细粒度,实例级和分层3D零件信息进行注释。 Ourdataset包含573,585个零件实例,超过26,671个3D模型,涵盖24个对象类别。该数据集能够并作为许多任务的催化剂,如形状分析,动态三维场景建模和模拟,可供性分析等。使用我们的数据集,我们建立了三个评估三维零件识别的基准测试任务:细粒度语义分割,分层语义分割和实例分割。我们对用于细粒度语义分割的最先进的3D深度学习算法和用于分层语义分割的三种基线方法进行了基准测试。我们还提出了一种新的部分实例分割方法,并展示了优于现有方法的性能。
translated by 谷歌翻译
语义分割需要大量像素方式的注释,以容许准确的模型。在本文中,我们提出了一种基于视频预测的方法,通过综合新的训练样本来扩展训练集,以提高语义分割网络的准确性。我们利用视频预测模型预测未来帧的能力,以便预测未来的标签。还提出了联合传播策略以减少合成样品中的错误比对。我们证明了由合成样本增加的数据集上的训练分割模型导致准确性的显着改善。此外,我们引入了一种新颖的边界标签松弛技术,该技术使得对沿着对象边界的注释噪声和传播伪像具有鲁棒性。我们提出的方法在Cityscapes上实现了83.5%的最新技术,在CamVid上实现了82.9%。没有模型合奏的单一模型在KITTI语义分割测试集上达到了72.8%mIoU,超过了ROBchallenge 2018的获奖作品。我们的代码和视频可以在以下网址找到://nv-adlr.github.io/publication/2018 -分割。
translated by 谷歌翻译
根据多模态上下文回答问题是一个具有挑战性的问题,需要深度整合不同的数据源。现有方法仅在一个关注点中使用数据源之间的部分交互。在本文中,我们提出了整体多模态记忆网络(HMMN)框架,它充分考虑了每一跳中不同输入源(多模态上下文,问题)之间的相互作用。此外,在上下文检索阶段需要考虑其中的选择。因此,所提出的框架有效地集成了多模态上下文,问题和答案信息,这导致了更多信息上下文的问题回答。我们的HMMN框架在MovieQA数据集上实现了最先进的准确性。广泛的消融研究表明了绝对推理的重要性以及不同注意策略的贡献。
translated by 谷歌翻译
当前最先进的视频理解方法采用时间抖动来模拟以不同帧速率分析视频。但是,这对于多速率视频效果不佳,其中动作或子动作的速度不同。帧采样率应根据不同的运动速度而变化。在这项工作中,我们提出了一个简单但有效的策略,称为随机时间跳过,以解决这种情况。该策略通过随机抽样评估培训有效地处理多速率视频。这是一种详尽的方法,可以涵盖所有的运动速度变化。此外,由于大量的时间跳过,我们的网络可以看到最初覆盖超过100帧的视频剪辑。这样的时间范围足以分析大多数动作/事件。我们还介绍了一种能够识别人类动作识别的改进运动图的一种感知识别光流学习方法。我们的框架是端到端的可训练,实时运行,并在六个广泛采用的视频基准测试中实现了最先进的性能。
translated by 谷歌翻译