Most of existing correlation filter-based tracking approaches only estimatesimple axis-aligned bounding boxes, and very few of them is capable ofrecovering the underlying similarity transformation. To tackle this challengingproblem, in this paper, we propose a new correlation filter-based tracker witha novel robust estimation of similarity transformation on the largedisplacements. In order to efficiently search in such a large 4-DoF space inreal-time, we formulate the problem into two 2-DoF sub-problems and apply anefficient Block Coordinates Descent solver to optimize the estimation result.Specifically, we employ an efficient phase correlation scheme to deal with bothscale and rotation changes simultaneously in log-polar coordinates. Moreover, avariant of correlation filter is used to predict the translational motionindividually. Our experimental results demonstrate that the proposed trackerachieves very promising prediction performance compared with thestate-of-the-art visual object tracking methods while still retaining theadvantages of high efficiency and simplicity in conventional correlationfilter-based tracking methods.
translated by 谷歌翻译
由于不准确的检测和识别,自主车辆可能做出错误的决定。因此,智能车辆可以将自己的数据与其他车辆相结合,提高感知能力,从而提高检测精度和驾驶安全性。然而,多车协同感知要求现实世界场景的整合和原始传感器数据交换的流量远远超过现有车载网络的带宽。据我们所知,我们是第一个对原始数据级合作感知进行研究的人。提高自驾系统的检测能力。在这项工作中,依靠LiDAR 3D点云,我们完成了从连接车辆的不同位置和角度收集的传感器数据。提出了一种基于点云的三维物体检测方法,用于对齐点云的多样性。 KITTI和我们收集的数据集的实验结果表明,所提出的系统通过扩展感知区域优于感知,提高了检测精度并促进了增强结果。最重要的是,我们证明可以通过现有的车载网络技术传输用于协作感知的pointclouds数据。
translated by 谷歌翻译
引入内在奖励来模拟人类智能如何运作,这通常通过内在动机的游戏来评估,即没有外在奖励的游戏,但是用外在奖励进行评估。然而,在这种非常具有挑战性的内在动机游戏环境下,现有的内在奖励方法都不能达到人类水平的表现。在这项工作中,我们提出了一种新颖的狂妄自大驱动的内在奖励(大奖励),据我们所知,这是第一种在内在动机游戏中实现可比较的人类表现的方法。超级奖励的出发来自于婴儿的智力在他们试图获得对环境中的实体的更多控制时的发展;因此,超级奖励旨在最大化特定环境中代理人的实体控制能力。为了形成大型奖励,提出了一种关系转换模型来弥合直接控制和潜在控制之间的差距。实验研究表明,超级奖励可以(i)大大超越最先进的内在奖励方法,(ii)通常达到与Ex-PPO和专业人类级别得分相同的表现水平; (iii)在与外在进展相结合时也具有优越的表现。
translated by 谷歌翻译
图神经网络(GNNs)受到越来越多的关注,部分归功于它们在许多节点和图形分类任务中的优越性能。然而,对于它们的学习和学习图形功能的复杂性缺乏了解。在这项工作中,我们首先提出了图形特征网络(GFN),一个简单的轻量级神经网络,在一组图形增强特征上定义。然后,我们建议将图形分类上的GNN解剖为两部分:1)图形过滤,其中执行基于图形的邻域聚合;以及2)集合函数,其中组成一组隐藏节点特征用于预测。为了分别测试这两个部分的重要性,我们通过线性化GNN的图形过滤部分来证明和利用GFN可以导出的连接。根据经验,我们对常见的图表分类基准进行了评估。令我们惊讶的是,我们发现,尽管有简化,但GFN可以匹配或超过最近提出的GNN产生的最佳精度,只需要一小部分计算成本。我们的结果为GNN学习的功能和当前评估它们的基准提供了新的视角。
translated by 谷歌翻译
机器学习和计算机科学中的许多凸问题共享相同的形式:\ begin {align *} \ min_ {x} \ sum_ {i} f_i(A_i x + b_i),\ end {align *}其中$ f_i $是凸函数on $ \ mathbb {R} ^ {n_i} $,常数为$ n_i $,$ A_i \ in \ mathbb {R} ^ {n_i \ times d} $,$ b_i \ in \ mathbb {R} ^ {n_i} $和$ \ sum_i n_i = n $。这个问题推广了线性规划,包括许多问题,经验风险最小化。在本文中,我们给出了一个运行intime \ begin {align *}的算法O ^ *((n ^ {\ omega} + n ^ {2.5 - \ alpha / 2} + n ^ {2+ 1/6}) \ log(n / \ delta))\ end {align *}其中$ \ omega $是matrixmultiplication的指数,$ \ alpha $是矩阵乘法的双指数,$ \ delta $是相对精度。请注意,运行时只对条件数或其他数据相关参数具有对数依赖性,并且这些参数在$ \ delta $中捕获。对于当前绑定的$ \ omega \ sim 2.38 $ [Vassilevska Williams'12,Le Gall'14]和$ \ alpha \ sim 0.31 $ [Le Gall,Urrutia'18],我们的运行时$ O ^ *(n ^ {\ omega} \ log(n / \ delta))$匹配当前最佳解决密集最小二乘回归问题,这是我们考虑的问题的一个特例。最近,[Alman'18]证明了目前所有已知的技术都无法提供低于$ 2.168 $的更好的$ \ omega $,这比$ 2 + 1/6 $更大。我们的结果推广了当前矩阵乘法时间[Cohen,Lee,Song'19]中线性程序的最新结果,以解决更广泛的问题。我们的算法提出了两个与[Cohen,Lee,Song'19]不同的概念:$ \ bullet $我们给出一个鲁棒的确定性中心路径方法,而前一个是随机中心路径,它通过randomsparse向量更新权重。 $ \ bullet $我们提出了一种有效的数据结构,即使权重更新向量密集,也能维持内点方法的中心路径。
translated by 谷歌翻译
知识图捕获实体之间的相互关联的信息,它们代表了可以用于推荐系统的有吸引力的结构化信息源。但是,现有的推荐引擎通过手动设计功能来使用知识图,不允许进行端到端的培训,或者提供不良的可扩展性。在这里,我们提出了知识图形卷积网络(KGCN),这是一种端到端的可训练框架,它利用知识图捕获的项目关系来提供更好的建议。从概念上讲,KGCN通过首先应用可训练功能来计算用户特定项目嵌入,该功能识别给定用户的重要知识图表关系,然后将知识图表转换为用户特定的加权图表。然后,KGCN应用图形卷积神经网络,通过传播和聚集知识图邻域信息来计算项目节点的嵌入。此外,为了提供更好的感应偏差,KGCN使用标签平滑度(LS),其提供边缘权重的规范化,并且我们证明它等同于图上的标签传播方案。最后,我们统一了KGCN和LS正规化,并为KGCN-LS模型提供了可扩展的小批量实现。实验表明,KGCN-LS在四个数据集中的表现优于强基线。 KGCN-LS在稀疏场景中也具有出色的性能,并且在知识图形大小方面具有高度可扩展性。
translated by 谷歌翻译
我们介绍了DeepICP--一种新颖的端到端学习型3D点云注册框架,可以达到与先进的几何方法相当的注册精度。与通常需要RANSAC程序的其他基于关键点的方法不同,我们实现了使用各种深度神经网络结构来建立端到端的可训练网络。我们的关键点检测器通过这种端到端结构进行训练,并使系统能够避免动态对象的推断,利用静止物体上足够显着特征的帮助,从而实现高稳健性。不是在现有点之间搜索相应的点,而是关键的贡献是我们基于一组候选者之间的学习匹配概率创新地生成它们,这可以提高注册准确性。我们的损失功能结合了局部相似性和全局几何约束,以确保所有上述网络设计能够朝着正确的方向收敛。我们使用KITTI数据集和Apollo-SouthBay数据集全面验证了我们方法的有效性。结果表明,我们的方法比最先进的基于几何的方法实现了可比较的或更好的性能。包括详细的消融和可视化分析,以进一步说明我们网络的行为和见解。低注册错误以及我们方法的高稳健性使其对依赖点云注册任务的实质性应用具有吸引力。
translated by 谷歌翻译
时间序列的建模在各种各样的应用中变得越来越重要。总体而言,数据通过遵循不同的模式而发展,这些模式通常由不同的用户行为引起。给定时间序列,我们定义进化基因以捕获潜在的用户行为并描述行为导致时间序列的生成。特别是,我们提出了一个统一的框架,通过学习分类器来识别不同的分段演化基因,并采用对抗生成器通过估计分段的分布来实现进化基因。基于合成数据集和五个真实世界数据集的实验结果表明我们的方法不仅可以获得良好的预测结果(例如,就F1而言平均为+ 10.56%),而且还能够提供结果的解释。
translated by 谷歌翻译
时间序列建模旨在捕获支撑观测数据及其演化的内在因素。然而,大多数现有的研究忽略了这些因素之间的进化关系,这些因素导致了给定时间序列的组合演化。在本文中,我们建议通过进化状态图结构来表示时间序列数据的内在因素之间的时变关系。因此,我们提出了使用图神经网络框架的演化图循环网络(EGRN)来学习这些因子的表示以及给定的时间序列。然后,学习的表示可以应用于时间序列分类任务。根据我们的实验结果,基于六个真实世界的数据集,可以看出我们的方法明显优于最先进的基线方法(例如,精确度为+ 5%,平均为F1的+ 15%) 。此外,我们证明由于图形结构的可解释性提高,我们的方法也能够解释预测事件的逻辑原因。
translated by 谷歌翻译
用于视频字幕的典型技术遵循编码器 - 解码器框架,其仅关注于正在处理的一个源视频。这种设计的潜在缺点是它不能捕获出现在多个相关视频内的数据的多个视觉上下文信息。为了解决这个限制,我们提出了用于视频字幕的存储器 - 目标逆流网络(MARN),其中设计存储器结构以探索单词及其在训练数据中的视频之间的各种类似视觉上下文之间的全谱对应。因此,我们的模型能够对每个单词实现更全面的理解,并产生更高的字幕质量。此外,构建的内存结构使我们的方法能够明确地模拟相邻单词之间的兼容性,而不是像大多数现有模型那样隐式学习模型。对两个真实数据集的广泛验证表明,我们的MARN始终优于最先进的方法。
translated by 谷歌翻译