自主驾驶的典型轨迹计划通常依赖于预测周围障碍的未来行为。近年来,由于其令人印象深刻的性能,基于深度学习的预测模型已被广泛使用。但是,最近的研究表明,在长尾驾驶场景分布之后,在数据集上训练的深度学习模型将遭受“尾巴”的大量预测错误,这可能会导致计划者的失败。为此,这项工作定义了预测模型不确定性的概念,以量化由于数据稀疏而导致的高错误。此外,这项工作提出了一个轨迹规划师,以考虑对更安全性能的这种预测不确定性。首先,由于培训数据不足而导致的预测模型的不确定性是由集成网络结构估算的。然后,轨迹规划师的设计目的是考虑预测不确定性引起的最坏情况。结果表明,在数据不足引起的预测不确定性下,提出的方法可以提高轨迹计划的安全性。同时,使用足够的数据,该框架不会导致过度保守的结果。这项技术有助于在现实世界的长尾数据分布下提高自动驾驶汽车的安全性和可靠性。
translated by 谷歌翻译
移动对象(DATMO)的检测和跟踪是自动驾驶环境感知的重要组成部分。虽然使用环绕视图摄像机的3D检测器只是蓬勃发展,但越来越多的趋势是使用不同的基于变压器的方法从透视图的2D特征图中学习3D空间中的查询。本文提出了稀疏的R-CNN 3D(SRCN3D),这是一种新颖的两阶段全横向卷积映射管道,用于环绕视图摄像机检测和跟踪。 SRCN3D采用了级联结构,具有固定数量的提案盒和提案潜在功能的双轨更新。预计提案框可以透视视图,以汇总感兴趣的区域(ROI)本地特征。基于此,提案功能通过动态实例交互式头部进行完善,然后生成分类,并应用于原始边界框。与先前的艺术相比,我们的稀疏功能采样模块仅利用本地2D功能来调整每个相应的3D提案盒,从而导致完整的稀疏范式。提案功能和外观特征均在数据关联过程中采用多刺激性3D多对象跟踪方法。 Nuscenes数据集的广泛实验证明了我们提出的SRCN3D检测器和跟踪器的有效性。代码可在https://github.com/synsin0/srcn3d上找到。
translated by 谷歌翻译
自动驾驶技术的加速开发对获得大量高质量数据的需求更大。标签,现实世界数据代表性是培训深度学习网络的燃料,对于改善自动驾驶感知算法至关重要。在本文中,我们介绍了PANDASET,由完整的高精度自动车辆传感器套件生产的第一个数据集,具有无需成本商业许可证。使用一个360 {\ DEG}机械纺丝利达,一个前置,远程LIDAR和6个摄像机收集数据集。DataSet包含100多个场景,每个场景为8秒,为目标分类提供28种类型的标签和37种类型的语义分割标签。我们提供仅限LIDAR 3D对象检测的基线,LIDAR-Camera Fusion 3D对象检测和LIDAR点云分割。有关Pandaset和开发套件的更多详细信息,请参阅https://scale.com/open-datasets/pandaset。
translated by 谷歌翻译
基于勘探环境的探索能力,深度确定性政策梯度(DDPG)基于差分方程模型的限制可能会突破微分方程模型。然而,DDPG的汽车跟随性能通常因不合理的奖励功能设计而降低,培训不足和低采样效率。为了解决这种问题,提出了一种基于DDPG和协作自适应巡航控制(CACC)的混合车辆跟踪战略。首先,汽车跟踪过程被建模为Markov决策过程,以在每个帧同时计算CACC和DDPG。给定当前状态,分别从CACC和DDPG获得了两种操作。然后,选择对应于提供更大奖励的最佳动作作为混合策略的输出。同时,规则旨在确保加速度的变化率小于所需值。因此,拟议的策略不仅保证了通过CACC的汽车之后的基本性能,还可以通过DDPG充分利用探索复杂环境的优势。最后,仿真结果表明,与DDPG和CACC相比,提高了拟议策略的跟踪性能。
translated by 谷歌翻译
名人认可是品牌交流中最重要的策略之一。如今,越来越多的公司试图为自己建立生动的特征。因此,他们的品牌身份交流应符合人类和法规的某些特征。但是,以前的作品主要是通过假设停止的,而不是提出一种特定的品牌和名人之间匹配的方式。在本文中,我们建议基于自然语言处理(NLP)技术的品牌名人匹配模型(BCM)。鉴于品牌和名人,我们首先从互联网上获得了一些描述性文档,然后总结了这些文档,最后计算品牌和名人之间的匹配程度,以确定它们是否匹配。根据实验结果,我们提出的模型以0.362 F1得分和精度的6.3%优于最佳基线,这表明我们模型在现实世界中的有效性和应用值。更重要的是,据我们所知,拟议的BCM模型是使用NLP解决认可问题的第一项工作,因此它可以为以下工作提供一些新颖的研究思想和方法。
translated by 谷歌翻译
在粗糙的地形上的动态运动需要准确的脚部放置,避免碰撞以及系统的动态不足的计划。在存在不完美且常常不完整的感知信息的情况下,可靠地优化此类动作和互动是具有挑战性的。我们提出了一个完整的感知,计划和控制管道,可以实时优化机器人所有自由度的动作。为了减轻地形所带来的数值挑战,凸出不平等约束的顺序被提取为立足性可行性的局部近似值,并嵌入到在线模型预测控制器中。每个高程映射预先计算了步骤性分类,平面分割和签名的距离场,以最大程度地减少优化过程中的计算工作。多次射击,实时迭代和基于滤波器的线路搜索的组合用于可靠地以高速率解决该法式问题。我们在模拟中的间隙,斜率和踏上石头的情况下验证了所提出的方法,并在Anymal四倍的平台上进行实验,从而实现了最新的动态攀登。
translated by 谷歌翻译
最近,已经开发了许多自动白细胞(WBC)或白细胞分类技术。但是,所有这些方法仅利用单个模态显微图像,即基于血液涂片或荧光,因此缺少从多模式图像中学习更好的潜力。在这项工作中,我们基于WBC分类任务的第一个多模式WBC数据集开发了有效的多模式体系结构。具体而言,我们提出的想法是通过两个步骤开发的 - 1)首先,我们仅在单个网络中学习模式特定的独立子网; 2)我们通过从高复杂性独立教师网络中提取知识来进一步增强独立子网的学习能力。因此,我们提出的框架可以实现高性能,同时保持多模式数据集的复杂性较低。我们的独特贡献是两倍-1)我们提出了用于WBC分类的同类多模式WBC数据集的第一个; 2)我们开发了高性能的多模式体系结构,同时也有效且复杂性低。
translated by 谷歌翻译
我们提出了Video-Transunet,这是一种深层体系结构,例如通过将时间融合到Transunet深度学习框架中构建的医学CT视频中的细分。特别是,我们的方法通过Resnet CNN主链,通过时间上下文模块(TCM)混合的多帧功能(TCM),通过视觉变压器进行非本地关注以及通过基于UNET的卷积为多个目标的重建功能混合的强框架表示强的框架表示 - 具有多个头部的卷积架构。我们表明,在视频荧光吞咽研究(VFSS)CT序列中,对推注和咽/喉的分割进行测试时,这种新的网络设计可以显着优于其他最先进的系统。在我们的VFSS2022数据集上,它达到了$ 0.8796 \%$的骰子系数,平均表面距离为$ 1.0379 $。请注意,准确跟踪咽注:在临床实践中特别重要,因为它构成了吞咽损伤诊断的主要方法。我们的发现表明,所提出的模型确实可以通过利用时间信息并通过显着的边距提高分割性能来增强Transunet架构。我们发布关键源代码,网络权重和地面真相注释,以简化性能再现。
translated by 谷歌翻译
由于其在许多有影响力的领域中的广泛应用,归因网络上的图形异常检测已成为普遍的研究主题。在现实情况下,属性网络中的节点和边缘通常显示出不同的异质性,即不同类型的节点的属性显示出大量的多样性,不同类型的关系表示多种含义。在这些网络中,异常在异质性的各个角度上的表现通常与大多数不同。但是,现有的图异常检测方法不能利用归因网络中的异质性,这与异常检测高度相关。鉴于这个问题,我们提出了前方的提议:基于编码器解码器框架的异质性无监督图异常检测方法。具体而言,对于编码器,我们设计了三个关注级别,即属性级别,节点类型级别和边缘级别的关注,以捕获网络结构的异质性,节点属性和单个节点的信息。在解码器中,我们利用结构,属性和节点类型重建项来获得每个节点的异常得分。广泛的实验表明,与无监督环境中的艺术品相比,在几个现实世界中的异质信息网络上,前方的优势。进一步的实验验证了我们三重注意力,模型骨干和解码器的有效性和鲁棒性。
translated by 谷歌翻译
GitHub提交的记录,该代码随着自然语言消息的描述而变化,对于软件开发人员来说,在理解软件演变方面起着至关重要的作用。为了促进开源软件社区的开发,我们收集了一个提交基准,包括790万次跨7种编程语言的投入。基于此基准测试,我们提出了Citsbart,这是GitHub提交的大型预训练的编码器变压器模型。该模型由三个类别(即,为了学习提交碎片表示的六个预训练任务)预先培训(即,剥夺目标,跨模式生成和对比度学习)。此外,我们将一个“委托智能”框架与一项理解任务和提交的三个世代任务统一。这些任务的综合实验表明,提案巴特大大优于以前的代码预先培训作品。进一步的分析还揭示了每个预训练任务可增强模型性能。我们鼓励后续研究人员在将来为我们的框架贡献更多与承诺相关的下游任务。
translated by 谷歌翻译