视觉跟踪是最具挑战性的计算机视觉问题之一。为了在各种负面情景中实现高性能视觉跟踪,基于两种不同的深度学习网络提出并开发了一种新颖的级联连体网络:匹配子网和分类子网。匹配的子网是一个完全卷积的连接网络。根据样本图像和候选图像之间的相似性得分,其目的在于搜索可能的对象位置和被剪切的候选贴片。分类子网旨在进一步评估裁剪的候选补丁,并根据分类得分确定最佳跟踪结果。匹配子网在线进行训练,在线固定,分类子网在线进行随机梯度下降,了解更多目标特定信息。为了进一步提高跟踪性能,采用基于相似度和分类得分的有效分类子网更新方法更新分类子网。 。广泛的实验结果表明,我们提出的方法在最近的基准测试中实现了最先进的性能。
translated by 谷歌翻译
从移动车辆的角度来看道路检测是自动驾驶中的一个挑战性问题。最近,许多深度学习方法涌现出来,因为它们可以提取高级局部特征以从原始RGB数据中找到道路区域,例如卷积神经网络(CNN)和完全卷积网络(FCN)。然而,如何准确地检测道路边界仍然是一个难以解决的问题。在本文中,我们提出了亚洲完全卷积网络(称为“s-FCN-loc”),它能够同时考虑RGB通道图像,语义轮廓和位置先验,精心划分道路区域。具体而言,-s-FCN-loc具有两个流,分别处理原始RGB图像和轮廓图。同时,将位置优先直接附加到隔离的FCN以促进最终的检测性能。我们的贡献有三个:(1)建议使用s-FCN-loc来学习比原始FCN更多的道路边界判别特征,以检测更准确的道路区域; (2)位置优先被视为一种特征图,并直接附加到s-FCN-loc中的最终特征图,以有效地提高检测性能,这比其他传统方法更容易,即不同输入(图像块)的不同先验; (3)由于高度结构化轮廓的引导,训练s-FCN-loc模型的收敛速度比原始FCN快30%。所提出的方法在KITTI道路检测基准和单级道路检测数据集中进行评估,并且与现有技术相比具有竞争力。
translated by 谷歌翻译
街道场景理解是自动驾驶的基本任务。朝向这个方向的一个重要步骤是场景标记,其使用正确的类标签来注释图像中的每个像素。尽管已经开发了许多方法,但仍存在一些不足之处。首先,许多方法都是基于手工制作的特征,其图像表示能力是有限的。其次,由于数据集偏差,它们无法准确地标记前景对象。第三,在细化阶段,传统的马尔可夫随机归档(MRF)推理倾向于过度平滑。为了改善上述问题,本文提出了一种超像素级先验卷积神经网络的联合方法(称为“先验s-CNNs”)和软限制上下文转换。我们的贡献有三个:(1)提出了以超像素级学习先验位置信息的先验s-CNNs模型,以区别地描述各种对象; (2)提出了一种分层数据增强方法,以减轻先验s-CNNs训练中的数据集偏差,显着改善前景对象标记; (3)定义了软限制MRF能量函数,以改善先验s-CNNs模型的标记性能,同时降低过度平滑性。所提出的方法在CamVid数据集(11个类)和SIFT FlowStreet数据集(16个类)上得到验证,并实现了竞争性能。
translated by 谷歌翻译
许多流行的系统,尤其是谷歌的TensorFlow,都是从头开始实现的,以支持机器学习任务。我们考虑如何对现代关系数据库管理系统(RDBMS)进行一小组更改,使其适用于分布式学习计算。更改包括为递归提供更好的支持,以及优化和执行非常大的计算计划。我们还表明使用RDBMS作为机器学习平台具有关键优势。特别是,基于数据库管理系统的学习允许对大型数据集,特别是大型模型进行平凡缩放,其中不同的计算单元在模型的不同部分上操作,该模型可能太大而不适合RAM。
translated by 谷歌翻译
最近提出了光学衍射神经网络(DNN)的概念,其通过级联相位掩模架构来实现。与光学计算机一样,该系统可以以全光学方式执行机器学习任务,例如数字数字识别。然而,该系统只能在非相干光照下工作,实际实验中的精度要求相当高。本文提出了一种基于单像素成像(MLSPI)的光学机器学习框架。 MLSPI系统可以执行与DNN相同的线性模式识别任务。此外,它可以在不相干的照明条件下工作,具有较低的实验复杂性和可编程的可编程性。
translated by 谷歌翻译
在本文中,我们研究了视觉跟踪的三个主要方面,即骨干网络,注意机制和检测组件的影响,并提出了一个名为SATIN的连体注意关键点网络,以实现有效的跟踪和准确的定位。首先,新的轻型沙漏网络专为视觉跟踪而设计。它利用重复自下而上和自上而下推断的优势,在多个尺度上捕获更多的全局和局部上下文信息。其次,利用新颖的交叉注意模块来容忍信道方式和空间中间注意信息,这增强了特征图的辨别能力和定位能力。第三,发明了一种关键点检测方法,通过检测其边界框的左上角点,质心点和底部右角点来跟踪任何目标对象。据我们所知,我们是第一个提出这种方法的人。因此,我们的SATIN跟踪器不仅具有很强的学习更有效的对象表示的能力,而且还具有计算和存储器存储效率,无论是在训练期间。没有花里胡哨,实验结果表明我们的方法在几个最近的基准数据集上实现了最先进的性能,速度远远超过了帧速率要求。
translated by 谷歌翻译
提高模型性能始终是机器学习的关键问题,包括深度学习。然而,当堆叠更多层时,独立神经网络总是受到边际效应的影响。同时,整体是一种有用的技术,可以进一步提高模型性能。然而,训练几个独立的独立深度神经网络需要花费多种资源。在这项工作中,我们提出了Intra-Ensemble,这是一种端到端策略,具有随机训练操作,可以在一个神经网络内同时训练多个子网络。由于大多数参数是相互共享的,因此附加参数大小是微不足道的。同时,随机训练通过权重共享增加了子网的多样性,显着提高了整体性能。大量实验证明了整体在各种数据集和网络架构中的适用性。我们的模型与CIFAR-10和CIFAR-100上最先进的架构实现了可比较的结果。
translated by 谷歌翻译
为了解决深度生成模型学习中的挑战(例如,变分自动编码器的瑕疵和训练生成对抗网络的不稳定性,我们提出了一种新的深度生成模型,名为Wasserstein-Wasserstein自动编码器(WWAE)。我们制定了WWAE的最小化目标分布和生成的分布之间的惩罚最佳传输。通过注意到潜在代码Z的先前$ P_Z $和聚合后验$ Q_Z $可以被高斯人很好地捕获,所提出的WWAE利用方形的Wasserstein的封闭形式 - 因此,WWAE不会受到采样负担的影响,并且通过利用重新参数化技巧在计算上是有效的。数值结果在多个基准数据集上进行了评估,包括MNIST,时尚-MNIST和CelebA表明WWAE学习得更好。结构比VAE和生成更好的视觉质量和更高的样本r FID得分超过VAE和GAN。
translated by 谷歌翻译
我们提出了一个通用框架来通过概率空间上的\ textbf {V} ariational \ textbf {Gr} adient Fl \ textbf {ow}(VGrow)学习深层生成模型。渐近收敛到目标分布的演化分布由向量场控制,向量场是它们之间的$ f $ - 发散的第一个变化的负梯度。我们通过残差映射的无限时间组合证明了演化分布与前向分布一致,残差映射是沿矢量场的特征映射的扰动。矢量场取决于前推分布的密度比和目标分布,这可以从二元分类问题中一致地学习。我们提出的VGrow方法与其他流行方法(如VAE,GAN和基于流的方法)的连接已在此框架中建立,获得了深层生成学习的新见解。我们还评估了几个常用的差异,包括Kullback-Leibler,Jensen-Shannon,Jeffrey分歧以及我们新发现的`logD'分歧,它作为logD-trick GAN的目标函数。基准数据集的实验结果表明,VGrow可以稳定,有效的方式生成高保真图像,通过最先进的GAN实现竞争性能。
translated by 谷歌翻译
为了获得用于移动机器人的本地化和规划的基于紧凑线段的地图表示,有必要合并冗余线段,其在物理上代表环境无关扫描的相同部分。在本文中,提出了一种一致且有效的冗余中文合并方法(CAE-RLSM)用于在线特征地图构建。建议的CAE-RLSM由两个新提出的模块组成:一对多增量线段合并(OTM-ILSM)和多处理全局映射调整(MP-GMA)。与最先进的离线合并方法不同,所提出的CAE-RLSM可以实现实时的映射性能,不仅可以降低高效率的增量合并冗余,还可以解决循环闭合后全局映射调整的问题。全球一致性。此外,为线段图的质量评估提出了一种新的相关性基础评估度量。该评估度量不需要手动测量环境度量信息,而是充分利用通过同时定位和映射(SLAM)获得的全局一致的激光器。系统以客观公正的方式比较不同基于线段的映射方法的性能。基于平均移位的离线冗余线段合并方法(MS-RLSM)和一对一增量线段合并方法(OTO-ILSM)的离线版本对公共数据集和自记录的比较实验结果数据集显示了CAE-RLSM在不同情景下的效率和地图质量方面的卓越性能。
translated by 谷歌翻译