近年来,深度学习导致了在城市驾驶场景中移动(即具有运动能力)物体的检测方面取得的巨大进展。监督方法通常需要大型培训集的注释;因此,人们对利用弱,半或自我监督的方法避免这种情况非常兴趣,并取得了很大的成功。虽然弱和半监督的方法需要一些注释,但自我监督的方法已经使用了诸如运动之类的线索来完全减轻注释的需求。但是,完全没有注释通常会降低其性能,而在运动组进行分组期间出现的歧义可以抑制其找到准确的物体边界的能力。在本文中,我们提出了一种称为SCT的新的自制移动对象检测方法。这同时使用运动提示和预期对象大小来提高检测性能,并预测3D方向边界框的密集网格以改善对象发现。我们在Kitti跟踪基准上的最先进的自我监督的移动对象检测方法TCR极大地超过了,并且实现了全面监督的PV-RCNN ++方法的30%以内IOUS <= 0.5。
translated by 谷歌翻译
共同监督的深度学习方法的关节深度和自我运动估计可以产生准确的轨迹,而无需地面真相训练数据。但是,由于通常会使用光度损失,因此当这些损失所产生的假设(例如时间照明一致性,静态场景以及缺少噪声和遮挡)时,它们的性能会显着降解。这限制了它们用于例如夜间序列倾向于包含许多点光源(包括在动态对象上)和较暗图像区域中的低信噪比(SNR)。在本文中,我们展示了如何使用三种技术的组合来允许现有的光度损失在白天和夜间图像中起作用。首先,我们引入了每个像素神经强度转化,以补偿连续帧之间发生的光变化。其次,我们预测了每个像素的残差流图,我们用来纠正由网络估计的自我运动和深度引起的重新注入对应关系。第三,我们将训练图像降低,以提高方法的鲁棒性和准确性。这些更改使我们可以在白天和夜间图像中训练单个模型,而无需单独的编码器或诸如现有方法(例如现有方法)的额外功能网络。我们对具有挑战性的牛津机器人数据集进行了广泛的实验和消融研究,以证明我们方法对白天和夜间序列的疗效。
translated by 谷歌翻译
随着商业深度传感器和3D扫描仪的最近可用性和可承受能力,越来越多的3D(即RGBD,点云)数据集已被宣传以促进3D计算机视觉的研究。但是,现有的数据集覆盖相对较小的区域或具有有限的语义注释。对城市规模3D场景的细粒度理解仍处于起步阶段。在本文中,我们介绍了Sensaturban,一个城市规模的UAV摄影测量点云数据集,包括从三个英国城市收集的近30亿积分,占地7.6公里^ 2。 DataSet中的每个点已标记为具有细粒度的语义注释,导致数据集是上一个现有最大摄影测量点云数据集的三倍的三倍。除了诸如道路和植被等诸如道路和植被的常见类别之外,我们的数据集还包含包括轨道,桥梁和河流的城市水平类别。基于此数据集,我们进一步构建了基准,以评估最先进的分段算法的性能。特别是,我们提供了全面的分析,确定了限制城市规模点云理解的几个关键挑战。数据集可在http://point-cloud-analysis.cs.ox.ac.uk中获取。
translated by 谷歌翻译
我们提出了一种姿势自适应少量射门学习程序和两阶段数据插值正规化,被称为姿势自适应双混合(PADMIX),用于单图像3D重建。虽然通过插值特征标签对的增强在分类任务中有效,但它们在形状预测中缺失,可能由于两个图像和卷渲染观点未知时的两个图像和卷之间的不一致而缺失。 Padmix针对此问题,使用两组混合过程顺序执行。我们首先执行输入混合,该输入混合,与姿势自适应学习过程相结合,有助于学习2D特征提取和构成自适应潜在编码。 StageWise训练允许我们建立在构成不变的表示上,以在特征和地面卷之间的一对一对应项下执行后续潜在混合。 Padmix在ShapEnet​​ DataSet上的几个拍摄设置上显着优于先前的文献,并在更具挑战性的真实世界Pix3D数据集中设置新的基准。
translated by 谷歌翻译
对不利环境中的行人无处不在的定位服务了很长的挑战。尽管深入学习的戏剧性进展,但多传感器深度测量系统却带来了高计算成本并随着时间的推移遭受累积漂移的错误。由于边缘设备的计算能力越来越多,我们通过在边缘与EKF(扩展卡尔曼滤波器) - 欧拉后端集成了最新的深径测量模型,提出了一种新的无处不在的定位解决方案。我们仔细比较并选择三个传感器模式,即惯性测量单元(IMU),毫米波(MMWAVE)雷达和热红外摄像机,并实现实时运行的深度内径推理引擎。提出了考虑精度,复杂性和边缘平台的深度径流的管道。我们设计一个Lora链接,用于定位数据回程,并将深度内径仪的聚合位置投影到全局框架中。我们发现简单的基于EKF的融合模块足以用于通用定位校准,具有超过34%的精度增长,针对任何独立的深径测量系统。不同环境的广泛测试验证了我们所提出的定位系统的效率和功效。
translated by 谷歌翻译
基于RF信号的方向查找和定位系统因多径传播而受到显着影响,特别是在室内环境中。现有算法(例如音乐)在多径存在的情况下解决到达角度(AOA)或在弱信号方案中操作时表现不佳。我们注意到数字采样的RF前端允许轻松分析信号和延迟组件。低成本软件定义的无线电(SDR)模块使能跨宽频谱的通道状态信息(CSI)提取,激励增强的到达角度(AOA)解决方案的设计。我们提出了一种深入的学习方法,可以从SDR多通道数据的单一快照派生AOA。我们比较和对比基于深度学习的角度分类和回归模型,准确地估计最多两个AOA。我们已经在不同平台上实施了推理引擎,实时提取了AOA,展示了我们方法的计算途径。为了证明我们的方法的效用,我们在各种视角(LOS)和非线视线中收集了来自四元通用线性阵列(ULA)的IQ(同步和正交组件)样本( NLOS)环境,并发布了数据集。我们所提出的方法在确定撞击信号的数量并实现平均值为2 ^ {\ rIC} $ 2 ^ {\ cird} $时,我们提出的方法展示了出色的可靠性。
translated by 谷歌翻译
近年来,MMWave FMCW雷达吸引了人类居中应用的大量研究兴趣,例如人类姿态/活动识别。大多数现有的管道由传统的离散傅立叶变换(DFT)预处理和深神经网络分类器混合方法建立,其中大多数以前的作品专注于设计下游分类器以提高整体精度。在这项工作中,我们返回返回并查看预处理模块。为了避免传统DFT预处理的缺点,我们提出了一个名为Cubelearn的学习预处理模块,直接从原始雷达信号中提取特征,并为MMWAVE FMCW雷达运动识别应用构建端到端的深神经网络。广泛的实验表明,我们的立方体模块一直提高不同管道的分类准确性,特别是利益以前较弱的模型。我们提供关于所提出的模块的初始化方法和结构的消融研究,以及对PC和边缘设备上运行时间的评估。这项工作也用作不同方法对数据立方体切片的比较。通过我们的任务无关设计,我们向雷达识别问题提出了一步迈向通用端到端解决方案。
translated by 谷歌翻译
在本文中,我们介绍了一种新的端到端学习的LIDAR重新定位框架,被称为Pointloc,其仅使用单点云直接姿势作为输入,不需要预先构建的地图。与RGB基于图像的重建化相比,LIDAR帧可以提供有关场景的丰富和强大的几何信息。然而,LIDAR点云是无序的并且非结构化,使得难以为此任务应用传统的深度学习回归模型。我们通过提出一种具有自我关注的小说点风格架构来解决这个问题,从而有效地估计660 {\ DEG} LIDAR输入框架的6-DOF姿势。关于最近发布的巨大恐怖雷达机器人数据集和现实世界机器人实验的扩展实验表明ProposedMethod可以实现准确的重定位化性能。
translated by 谷歌翻译
Natural laws are often described through differential equations yet finding a differential equation that describes the governing law underlying observed data is a challenging and still mostly manual task. In this paper we make a step towards the automation of this process: we propose a transformer-based sequence-to-sequence model that recovers scalar autonomous ordinary differential equations (ODEs) in symbolic form from time-series data of a single observed solution of the ODE. Our method is efficiently scalable: after one-time pretraining on a large set of ODEs, we can infer the governing laws of a new observed solution in a few forward passes of the model. Then we show that our model performs better or on par with existing methods in various test cases in terms of accurate symbolic recovery of the ODE, especially for more complex expressions.
translated by 谷歌翻译
与原子分辨率上可实现的分子量相比,粗晶片(CG)能够研究较大系统和更长的时间尺度的分子特性。最近已经提出了机器学习技术来学习CG粒子相互作用,即开发CG力场。分子的图表和图形卷积神经网络结构的监督训练用于通过力匹配方案来学习平均力的潜力。在这项工作中,作用在每个CG粒子上的力与以Schnet的名义相关的其本地环境的表示,该代表通过连续过滤器卷积构建。我们探讨了Schnet模型在获得液体苯的CG潜力的应用,研究模型结构和超参数对模拟CG系统的热力学,动力学和结构特性的影响,并报告和讨论所设想的挑战以及未来的指导。
translated by 谷歌翻译