在本文中,我们为自主机器人提供了一种新型的模型预测控制方法,受到任意形式的不确定性。拟议的风险感知模型预测路径积分(RA-MPPI)控制利用条件价值(CVAR)度量来为安全关键的机器人应用生成最佳控制动作。与大多数现有的随机MPC和CVAR优化方法不同,这些方法将原始动力学线性化并将控制任务制定为凸面程序,而拟议的方法直接使用原始动力学,而无需限制成本函数或噪声的形式。我们将新颖的RA-MPPI控制器应用于自动驾驶汽车,以在混乱的环境中进行积极的驾驶操作。我们的仿真和实验表明,与基线MPPI控制器相比,提出的RA-MPPI控制器可以达到大约相同的圈时间,而碰撞的碰撞明显少得多。所提出的控制器以高达80Hz的更新频率执行在线计算,利用现代图形处理单元(GPU)来进行多线程轨迹以及CVAR值的生成。
translated by 谷歌翻译
最近利用多模式数据旨在建立面部动作单元(AU)检测模型的研究。但是,由于多模式数据的异质性,多模式表示学习成为主要挑战之一。一方面,很难通过仅通过一个特征提取器从多模式中提取相关特征,另一方面,先前的研究并未完全探索多模式融合策略的潜力。例如,早期融合通常需要在推理期间存在所有方式,而晚期融合和中间融合则增加了特征学习的网络大小。与晚期融合的大量工作相反,早期融合探索渠道信息的作品很少。本文提出了一个新型的多模式网络,称为多模式通道混合(MCM),作为一种预训练的模型,以学习强大的表示形式,以促进多模式融合。我们在自动面部动作单元检测的下游任务上评估学习的表示形式。具体而言,它是一个单个流编码器网络,该网络在早期融合中使用频道混合模块,在下游检测任务中仅需要一种模态。我们还利用蒙版的VIT编码器从融合图像中学习特征,并使用两个VIT解码器重建两个模式。我们已经在两个公共数据集(称为BP4D和DISFA)上进行了广泛的实验,以评估所提出的多模式框架的有效性和鲁棒性。结果表明我们的方法是可比或优越的,它与最新的基线方法相当。
translated by 谷歌翻译
对具有代理商初始位置未知的有限3D环境的多代理探索是一个具有挑战性的问题。它需要快速探索环境,并坚定合并代理商构建的子图。我们认为现有方法是侵略性或保守的:在检测到重叠时,积极的策略合并了两种由不同代理构建的子图,这可能导致由于对重叠的错误阳性检测而导致不正确的合并,因此是如此。不健全。保守策略指导一个代理人在合并之前重新审视另一个代理商的过量验证历史轨迹,这可以降低由于对同一空间的反复探索而引起的勘探效率。为了巧妙地平衡子图合并和勘探效率的鲁棒性,我们为基于激光雷达的多代理探索开发了一种新方法,该方法可以指导一个代理商以\ emph {自适应}方式重复另一个代理商的轨迹子图合并过程的指标。此外,我们的方法通过计划合并子图的代理人共同计划,以进一步提高勘探效率,以\ emph {Cooperative}方式将最近的单格分层勘探策略扩展到多个代理。我们的实验表明,我们的方法平均比基线高出50 \%,同时稳固地合并子映射。
translated by 谷歌翻译
多模式变压器的最新努力通过合并视觉和文本信息改善了视觉上丰富的文档理解(VRDU)任务。但是,现有的方法主要集中于诸如单词和文档图像贴片之类的细粒元素,这使得他们很难从粗粒元素中学习,包括短语和显着视觉区域(如突出的图像区域)等自然词汇单元。在本文中,我们对包含高密度信息和一致语义的粗粒元素更为重要,这对于文档理解很有价值。首先,提出了文档图来模拟多层次多模式元素之间的复杂关系,其中通过基于群集的方法检测到显着的视觉区域。然后,提出了一种称为mmlayout的多模式变压器,以将粗粒的信息纳入基于图形的现有预训练的细颗粒的多峰变压器中。在mmlayout中,粗粒信息是从细粒度聚集的,然后在进一步处理后,将其融合到细粒度中以进行最终预测。此外,引入常识增强以利用天然词汇单元的语义信息。关于四个任务的实验结果,包括信息提取和文档问答,表明我们的方法可以根据细粒元素改善多模式变压器的性能,并使用更少的参数实现更好的性能。定性分析表明,我们的方法可以在粗粒元素中捕获一致的语义。
translated by 谷歌翻译
电子商务查询通常简短而模棱两可。因此,查询理解通常使用查询重写来消除用户输入查询。在使用电子商务搜索工具时,用户倾向于在购买之前输入多个搜索,我们称之为上下文。这些历史搜索包含有关用户真正购物意图的上下文见解。因此,对此类上下文信息进行建模对于更好的查询重写模型至关重要。但是,现有的查询重写模型忽略了用户的历史行为,而仅考虑即时搜索查询,这通常是一个简短的字符串,提供有关真实购物意图的有限信息。我们建议一个端到端的上下文感知查询重写模型来弥合此差距,从而考虑了搜索上下文。具体而言,我们的模型使用历史记录搜索查询及其包含的单词构建了会话图。然后,我们采用图形注意机制,该机制对交叉关系进行建模并计算会话的上下文信息。随后,模型通过使用聚合网络将上下文信息与即时搜索查询组合来计算会话表示。然后将会话表示形式解码以生成重写的查询。从经验上讲,我们证明了我们方法对各种指标下最先进的方法的优越性。在从线购物平台的内部数据上,通过介绍上下文信息,我们的模型在MRR(平均值等级)指标下取得了11.6%的改善,并在HIT@16度量指标(命中率指标)下提高了20.1%使用最佳基线方法(基于变压器的模型)。
translated by 谷歌翻译
视觉摄像头是超越视觉线(B-VLOS)无人机操作的吸引人的设备,因为它们的尺寸,重量,功率和成本较低,并且可以为GPS失败提供多余的方式。但是,最新的视觉定位算法无法匹配由于照明或观点而导致外观明显不同的视觉数据。本文介绍了Isimloc,这是一种条件/观点一致的层次结构全局重新定位方法。 Isimloc的位置功能可用于在不断变化的外观和观点下搜索目标图像。此外,我们的分层全局重新定位模块以粗到精细的方式完善,使Isimloc可以执行快速准确的估计。我们在一个数据集上评估了我们的方法,其中具有外观变化和一个数据集,该数据集的重点是在复杂的环境中长期飞行进行大规模匹配。在我们的两个数据集中,Isimloc在1.5s推导时间的成功检索率达到88.7 \%和83.8 \%,而使用下一个最佳方法,为45.8%和39.7%。这些结果证明了在各种环境中的强大定位。
translated by 谷歌翻译
这是Parse2022 Challenge最终结果中第9位的技术报告。我们通过使用基于3D CNN网络的两阶段方法来解决肺动脉的分割问题。粗模型用于定位ROI,并使用精细模型来完善分割结果。此外,为了提高细分性能,我们采用了多视图和多窗口级方法,同时我们采用了微调策略来减轻不一致的标签影响。
translated by 谷歌翻译
空中机器人(例如无人机)已被利用进行桥梁检查。可以通过板载摄像机收集具有可识别的结构元素和明显表面缺陷的检查图像,以提供有价值的信息以进行条件评估。本文旨在确定用于在检查图像中解析多类桥梁元素的合适的深神经网络(DNN)。一组广泛的定量评估以及定性示例表明,高分辨率净(HRNET)具有所需的能力。通过数据增强和130张图像的训练样本,预先训练的HRNET有效地转移到结构元件解析的任务中,并达到了92.67%的平均F1得分和86.33%的平均值。
translated by 谷歌翻译
我们考虑了自动生成音乐文本描述的新颖任务。与其他完善的文本生成任务(例如图像标题)相比,富裕的音乐和文本数据集的稀缺性使其成为更具挑战性的任务。在本文中,我们利用众包音乐评论来构建一个新的数据集,并提出一个序列到序列模型以生成音乐的文本描述。更具体地说,我们将扩张的卷积层用作编码器的基本组成部分,基于内存的复发性神经网络作为解码器。为了增强生成文本的真实性和主题,我们进一步建议用歧视者和新的主题评估者微调模型。为了衡量生成的文本的质量,我们还提出了两个新的评估指标,它们比人类评估比传统指标(例如BLEU)更加一致。实验结果验证了我们的模型能够在包含原始音乐的主题和内容信息的同时产生流利而有意义的评论。
translated by 谷歌翻译
近年来,基于注意力的场景文本识别方法非常受欢迎,并吸引了许多研究人员的兴趣。基于注意力的方法可以将注意力集中在解码过程中的小区域甚至单点上,其中注意矩阵几乎是一个旋转分布。此外,在推断过程中,所有注意力矩阵都将加权整个特征地图,从而导致巨大的冗余计算。在本文中,我们提出了一个用于场景文本识别的有效无注意的单点解码网络(称为SPDN),该网络可以取代传统的基于注意力的解码网络。具体而言,我们建议单点采样模块(SPSM)有效地在特征映射上为解码一个字符的一个关键点采样。这样,我们的方法不仅可以精确地找到每个字符的关键点,还可以删除冗余计算。基于SPSM,我们设计了一个高效且新颖的单点解码网络,以替代基于注意力的解码网络。对公开基准测试的广泛实验证明,我们的SPDN可以大大提高解码效率而不牺牲性能。
translated by 谷歌翻译