由于不准确的检测和识别,自主车辆可能做出错误的决定。因此,智能车辆可以将自己的数据与其他车辆相结合,提高感知能力,从而提高检测精度和驾驶安全性。然而,多车协同感知要求现实世界场景的整合和原始传感器数据交换的流量远远超过现有车载网络的带宽。据我们所知,我们是第一个对原始数据级合作感知进行研究的人。提高自驾系统的检测能力。在这项工作中,依靠LiDAR 3D点云,我们完成了从连接车辆的不同位置和角度收集的传感器数据。提出了一种基于点云的三维物体检测方法,用于对齐点云的多样性。 KITTI和我们收集的数据集的实验结果表明,所提出的系统通过扩展感知区域优于感知,提高了检测精度并促进了增强结果。最重要的是,我们证明可以通过现有的车载网络技术传输用于协作感知的pointclouds数据。
translated by 谷歌翻译
我们提出了一个新的CogQA框架,用于多跳问题回答inweb-scale文档。受认知科学中的双重过程理论的启发,该框架通过协调隐式提取模块(系统1)和显式推理模块(系统2)逐步在迭代过程中构建\ textit {认知图}。在给出准确答案的同时,我们的框架进一步提供了可解释的推理路径。具体而言,基于BERT和图形神经网络的实现有效处理了HotpotQAfullwiki数据集中的多跳推理问题的数百万个文档,在排行榜上获得了34.9的联合$ F_1 $得分,而最佳竞争对手的得分为23.6。
translated by 谷歌翻译
在本文中,我们专注于面部表情翻译任务,并提出一个新的表达式条件GAN(ECGAN),它可以学习基于一个额外的表达属性从一个图像域到另一个图像域的映射。所提出的ECGAN是通用框架,并且适用于不同的表达生成任务,其中特定的面部表情可以通过条件属性标签容易地控制。此外,我们还介绍了一种新颖的面膜,以减少背景变化的影响。此外,我们提出了在野外进行面部表情生成和识别的整个框架,其包括两个模块,即生成和识别。最后,我们在几个公共面部数据集上评估我们的框架,其中主体具有不同的种族,光照,遮挡,姿势,颜色,内容和背景条件。尽管这些数据集非常多样化,但定性和定量结果都表明我们的方法能够准确,稳健地生成面部表达。
translated by 谷歌翻译
图卷积神经网络(GCNN)因其在图形结构推理方面的巨大潜力而​​吸引了越来越多的研究关注。然而,不充分的努力致力于不同卷积图层之间的聚合方法。在本文中,我们介绍了图属性聚合网络(GAAN)架构。与传统的池化操作不同,提出了基于图形转换的聚合策略,渐进式边缘折叠,PMF,用于集成图形特征。通过区分内部和边缘元素,我们提供了迭代实现折叠的方法。并且还设计了一种机制,用于在逐步折叠期间保留局部结构。此外,引入了基于超图的表示,用于在不同层之间传递聚合信息。我们的实验应用于公共分子数据集,表明所提出的GAAN优于现有的GCNN模型,效果显着。
translated by 谷歌翻译
近年来,对受约束的子模块最大化进行了广泛的研究。在本文中,我们研究了具有近似模块结构(ARONSS)的自适应鲁棒优化。我们的目标是随机选择一个项目的子集,同时最大化几个奖励函数的最坏情况值。我们的工作与现有研究有两点不同:(1)在自适应设置下研究鲁棒优化问题,即需要根据从拾取项收集的反馈自适应选择项目,(2)我们的结果适用于广泛的范围。奖励函数由$ \ epsilon $ -nearly submodular函数表征。我们首先分析了ARONSS的适应性差距,并表明最佳自适应解与最佳非自适应解之间的差距是有界的。然后我们提出了两种算法来实现有界逼近比。
translated by 谷歌翻译
Variational Audo-Encoders (VAEs) are capable of learning latent representations for high dimensional data. However, due to the i.i.d. assumption , VAEs only optimize the singleton variational distributions and fail to account for the correlations between data points, which might be crucial for learning latent representations from datasets where a priori we know correlations exist. We propose Correlated Variational Auto-Encoders (CVAEs) that can take the correlation structure into consideration when learning latent representations with VAEs. CVAEs apply a prior based on the correlation structure. To address the intractability introduced by the correlated prior, we develop an approximation by the average of a set of tractable lower bounds over all maximal acyclic subgraphs of the undirected correlation graph. Experimental results on matching and link prediction on public benchmark rating datasets and spectral clustering on a synthetic dataset show the effectiveness of the proposed method over baseline algorithms.
translated by 谷歌翻译
物体检测框架在自动驾驶中起着至关重要的作在本文中,我们介绍了名为You OnlyLook Once(YOLOv1)的实时对象检测框架以及YOLOv2的相关改进。我们通过实施预先训练的模型,在一些特定的交通场景中进行物体检测任务,进一步探索YOLOv2的能力。四个人工设计的交通场景包括单车,单人,前人 - 后车和前车 - 后人。
translated by 谷歌翻译
通过开发复杂的图像先验或设计深(er)架构,最近提出了各种图像超分辨率(SR)方法并且实现了非常有前途的性能。一个自然的问题是,这些方法是否可以重新形成一个统一的框架,这个框架是否有助于SR重建?在本文中,我们提出了一种基于集成学习的简单但有效的单图像SR方法,该方法可以产生比从任何SR方法(或称为组件超级解析器)获得的更好的性能。基于在执行SR重建时更好的组件超级解析器应该具有更大的集合权重的假设,我们提出了用于推断最优集合权重的最大后验(MAP)估计框架。特别地,我们引入了一个参考数据集,它由高分辨率(HR)和低分辨率(LR)图像对组成,用于测量不同组件超级分辨率的超分辨率能力(先验知识)。为了获得optimalesesemble权重,我们建议结合重建约束,其表明退化的HR图像应该等于LRobservation的权重,以及集合权重的先验知识到MAP估计框架中。此外,所提出的优化问题可以通过分析解决方案来解决。我们通过与不同的竞争方法进行比较来研究所提出方法的性能,包括基于最先进的非深度学习方法,四种最新的基于深度学习的方法和一种基于集成学习的方法,并证明它在三个公共数据集上的有效性和优越性。 。
translated by 谷歌翻译
视觉世界中的大多数物体都被部分遮挡,但人类可以毫无困难地识别它们。然而,仍然不知道卷积神经网络(CNN)等对象识别模型是否可以处理现实世界的遮挡。还有一个问题是,使这些模型对恒定掩模遮挡具有鲁棒性的努力是否对于真实世界的阻塞是有效的。我们测试了人类和上述计算模型在极端遮挡下对象识别的挑战性任务,其中目标对象被真实背景中的无关真实对象严重遮挡。我们的结果表明人类视觉对于极端遮挡是非常强大的,而CNN不是,即使经过修改以处理恒定的遮罩遮挡。这表明处理恒定掩模遮挡的能力并不意味着对现实世界遮挡的鲁棒性。作为比较,我们提出了另一种计算模型,该模型利用组合方式中的对象部分/子部分来构建对遮挡的鲁棒性。这在我们的任务上与基于CNN的模型相比具有与人类类似的错误模式。这些结果表明,极端遮挡下的测试可以更好地揭示视觉识别的稳健性,并且组成原则可以鼓励这种稳健性。
translated by 谷歌翻译
有许多关于从深度神经网络(DNN)中提取瓶颈(BN)特征的研究,这些特征训练用于区分说话者,密码短语和三音素状态以改善文本相关说话者验证(TD-SV)的性能。但是,取得了一定的成功。最近的一项研究[1]提出了一种时间对比学习(TCL)概念,用于探索脑信号分类的大脑状态的平稳性。语音信号具有类似的非平稳性,并且TCL还具有不需要标记数据的优点。因此,我们提出了一种基于TCL的特征提取方法。该方法将训练数据集中的每个语音容差均匀地划分为预定义数量的多帧分段。话语中的每个片段对应于一个类,并且跨语言共享类标签。然后训练DNN以区分各类中的所有语音帧以利用语音的时间结构。此外,我们提出了一种基于分段的无监督聚类算法,以便为这些分段分配类别标签。在RedDots挑战数据库上进行TD-SV实验。使用从TD-SV评估集中排除的语音数据离线密码短语来训练TCL-DNN,因此可以将所述特征视为与短语无关的。我们比较了所提出的TCL瓶颈(BN)特征与短时间倒谱特征和从DNN识别扬声器,密码短语,说话者+密码短语以及标签和边界由三种不同自动生成的单声道提取的BN特征的性能。语音识别(ASR)系统。实验结果表明,所提出的TCL-BN优于自适应特征和说话人+通行短语判别BN特征,其性能与ASR导出的BN特征相当。此外,....
translated by 谷歌翻译