国家估计是自主系统的重要组成部分。已显示整合超宽带(UWB)技术可以纠正长期估计漂移并绕过环路闭合检测的复杂性。但是,机器人技术中很少有作品采用UWB作为独立的状态估计技术。这项工作的主要目的是仅使用UWB范围测量结果研究平面姿势估计,并研究估计器的统计效率。我们证明了两步方案的出色属性,该方案说,我们可以通过高斯 - 纽顿迭代的一步来完善一致的估计器在渐近上有效。基于此结果,我们设计了GN-uls估计器,并通过模拟和收集的数据集进行评估。GN-uls在我们的静态数据集上达到毫米和次级水平的准确性,并在我们的动态数据集中达到厘米和学位水平的精度,从而提出了仅将UWB用于实时状态估计的可能性。
translated by 谷歌翻译
低光视频增强(LLVE)是许多应用程序,例如拍摄和自动驾驶,是一项重要但艰巨的任务。与单图像低光增强不同,大多数LLVE方法都利用相邻帧的时间信息来恢复颜色并删除目标框架的噪声。但是,这些算法基于多帧对齐和增强的框架,在遇到极端低光或快速运动时可能会产生多帧融合工件。在本文中,受到低潜伏期和高动态事件范围的启发,我们使用来自多个帧的合成事件来指导低光视频的增强和恢复。我们的方法包含三个阶段:1)事件合成和增强,2)事件和图像融合,以及3)低光增强。在此框架中,我们分别为第二阶段和第三阶段设计了两个新型模块(事件图像融合变换和事件引导的双分支)。广泛的实验表明,我们的方法在合成数据集和真实LLVE数据集上都优于现有的低光视频或单个图像增强方法。
translated by 谷歌翻译
深度估计是某些领域的关键技术之一,例如自动驾驶和机器人导航。但是,使用单个传感器的传统方法不可避免地受到传感器的性能的限制。因此,提出了一种融合激光镜头和立体声摄像机的精度和健壮方法。该方法完全结合了LiDAR和立体声摄像机的优势,这些摄像头可以保留LIDAR高精度和图像的高分辨率的优势。与传统的立体声匹配方法相比,对象和照明条件的质地对算法的影响较小。首先,将LIDAR数据的深度转换为立体声摄像机的差异。由于LiDAR数据的密度在Y轴上相对稀疏,因此使用插值方法对转换的差异图进行了更采样。其次,为了充分利用精确的差异图,融合了差异图和立体声匹配以传播准确的差异。最后,将视差图转换为深度图。此外,转换后的差异图还可以提高算法的速度。我们在Kitti基准测试中评估了拟议的管道。该实验表明,我们的算法比几种经典方法具有更高的精度。
translated by 谷歌翻译
姿势估计对于机器人感知,路径计划等很重要。机器人姿势可以在基质谎言组上建模,并且通常通过基于滤波器的方法进行估算。在本文中,我们在存在随机噪声的情况下建立了不变扩展Kalman滤波器(IEKF)的误差公式,并将其应用于视觉辅助惯性导航。我们通过OpenVINS平台上的数值模拟和实验评估我们的算法。在Euroc公共MAV数据集上执行的仿真和实验都表明,我们的算法优于某些基于最先进的滤波器方法,例如基于Quaternion的EKF,首先估计Jacobian EKF等。
translated by 谷歌翻译
作为一个新兴的安全学习范式,在利用跨机构私人数据中,垂直联合学习(VFL)有望通过启用广告商和发布者私人拥有的补充用户属性的联合学习来改善广告模型。但是,将其应用于广告系统有两个关键的挑战:a)标记的重叠样本的有限规模,b)实时跨机构服务的高成本。在本文中,我们提出了一个半监督的拆卸框架VFED-SSD,以减轻这两个限制。我们确定:i)广告系统中有大量未标记的重叠数据,ii)我们可以通过分解联合模型来保持模型性能和推理成本之间的平衡。具体而言,我们开发了一个自制任务匹配的配对检测(MPD),以利用垂直分区的未标记数据并提出拆分知识蒸馏(SplitKD)架构,以避免跨机构服务。对三个工业数据集的实证研究表现出我们方法的有效性,在本地部署模式和联合部署模式下,所有数据集的中位数AUC分别提高了0.86%和2.6%。总体而言,我们的框架为实时展示广告提供了一种有效的联邦增强解决方案,其部署成本和大量绩效提升。
translated by 谷歌翻译
变形金刚占据了自然语言处理领域,最近影响了计算机视觉区域。在医学图像分析领域中,变压器也已成功应用于全栈临床应用,包括图像合成/重建,注册,分割,检测和诊断。我们的论文旨在促进变压器在医学图像分析领域的认识和应用。具体而言,我们首先概述了内置在变压器和其他基本组件中的注意机制的核心概念。其次,我们回顾了针对医疗图像应用程序量身定制的各种变压器体系结构,并讨论其局限性。在这篇综述中,我们调查了围绕在不同学习范式中使用变压器,提高模型效率及其与其他技术的耦合的关键挑战。我们希望这篇评论可以为读者提供医学图像分析领域的读者的全面图片。
translated by 谷歌翻译
虽然现实世界的增强学习应用程序(RL)越来越流行,但安全性和RL系统的鲁棒性需要更多的关注。最近的一项工作表明,在多代理RL环境中,可以将后门触发动作注入受害者(又称Trojan特工),这可能会在看到后门触发动作后立即导致灾难性故障。我们提出了RL后门检测的问题,旨在解决此安全漏洞。我们从广泛的经验研究中得出的一个有趣的观察是一种触发平滑性属性,与后门触发动作相似,正常动作也可以触发特洛伊木马的性能低。受到这一观察的启发,我们提出了一种加强学习解决方案Trojanseeker为特洛伊木马的代理找到近似触发作用,并进一步提出了一种有效的方法,以根据机器的学习来减轻特洛伊木马。实验表明,我们的方法可以正确区分和减轻各种类型的代理和环境中的所有特洛伊木马代理。
translated by 谷歌翻译
初步任务设计需要高效且准确地近似于低推力的聚合轨迹,这可能通常是三维的并且涉及多次转。本文开发了一种用于分析近似的使用立方样条函数的新成形方法,其显示了最优性和计算效率的优点。在假设预先指定立方样条函数的边界条件和段数,全部满足边界状态和转移时间的约束约束。然后根据是否具有自由优化参数,配制两种特定形状。没有自由参数的形状提供了有效且稳健的估计,而另一个则允许随后的优化来满足诸如推力幅度上的约束的额外约束。所提出的方法与粒子群优化算法结合的应用通过两个典型的行星际的间行序列任务讨论,即,从地球到小行星狄俄尼索斯的倾斜的多转轨迹和样本返回的多串轨迹。仿真示例表明,在为全球搜索的良好估计和为随后的轨迹优化产生合适的初始猜测方面,所提出的方法优于现有方法。
translated by 谷歌翻译
视觉问题应答(VQA)任务利用视觉图像和语言分析来回回答图像的文本问题。它是一个流行的研究课题,在过去十年中越来越多的现实应用。本文介绍了我们最近对AliceMind-MMU的研究(阿里巴巴的编码器 - 解码器来自Damo Academy - 多媒体理解的机器智能实验室),其比人类在VQA上获得相似甚至略微更好的结果。这是通过系统地改善VQA流水线来实现的,包括:(1)具有全面的视觉和文本特征表示的预培训; (2)与学习参加的有效跨模型互动; (3)一个新颖的知识挖掘框架,具有专门的专业专家模块,适用于复杂的VQA任务。处理不同类型的视觉问题,需要具有相应的专业知识在提高我们的VQA架构的表现方面发挥着重要作用,这取决于人力水平。进行了广泛的实验和分析,以证明新的研究工作的有效性。
translated by 谷歌翻译
被证明深度神经网络(DNN)被证明是易受后门攻击的影响。后门通常通过将后门触发注入训练示例中的目标DNN嵌入到目标DNN中,这可能导致目标DNN消除附加的输入附加的输入。现有的后门检测方法通常需要访问原始中毒训练数据,目标DNN的参数,或对每个给定输入的预测置信度,这在许多实际应用中是不切实际的,例如,在设备上部署的DNN。我们地址DNN是完全黑盒的黑匣子硬标签检测问题,只能访问其最终输出标签。我们从优化角度方面接近这个问题,并表明回程检测的目标受到对抗目标的界定。进一步的理论和实证研究表明,这种对抗性物镜导致具有高度偏斜分布的溶液;在后门感染的例子的对抗性地图中经常观察到奇点,我们称之为对抗性奇点现象。基于该观察,我们提出了对抗极值分析(AEVA)来检测黑匣子神经网络中的后门。 AEVA基于来自Monte-Carlo梯度估计计算的对抗地图的极值分析。在多个流行的任务和后门攻击中通过广泛的实验证明,我们的方法有效地检测了黑匣子硬标的场景下的后门攻击。
translated by 谷歌翻译