正在为军事和商业用途开发越野自动驾驶的无人接地车辆(UGV),以在偏远地区提供关键的供应,帮助绘制和监视,并在有争议的环境中协助战争战士。由于越野环境的复杂性以及地形,照明条件,昼夜和季节性变化的变化,用于感知环境的模型必须处理大量的输入可变性。当前的数据集用于训练越野自动导航的感知模型在季节,位置,语义类别以及一天中的时间中缺乏多样性。我们测试了以下假设:由于输入分布漂移,在单个数据集上训练的模型可能无法推广到其他越野导航数据集和新位置。此外,我们研究了如何组合多个数据集来训练基于语义分割的环境感知模型,并表明训练模型以捕获不确定性可以通过显着的余量提高模型性能。我们将蒙版的方法扩展到语义分割任务中的不确定性量化方法,并将其与蒙特卡洛辍学和标准基线进行比较。最后,我们测试了在新测试环境中从UGV平台收集的数据的方法。我们表明,具有不确定性量化的开发的感知模型可以在UGV上可用,以支持在线感知和导航任务。
translated by 谷歌翻译
随着深度学习的出现,机器学习领域(ML)在不同的分类任务上超越了人力级别的性能。与此同时,存在表征和量化模型对单个样本预测的可靠性。在工业控制和医疗保健的安全关键域中应用此类模型尤其如此。为了解决这一需求,我们将模型的个人预测的可靠性与模型预测的认知不确定性联系起来的问题。更具体地说,我们在认识论中延长了证明真实信仰(JTB)的理论,以研究人为知识的有效性和限制,以表征监督分类机中知识的有效性和限制。我们对神经网络分类器的分析分析了将其预测的可靠性连接到从网络的输入和潜空间收集的支持的特征的输入。我们假设JTB分析暴露了模型的认识到其推断的认知不确定性(或无知),从而允许推断只能与辩护允许一样强。我们使用训练数据探索为输入生成的各种形式的支持(例如,用于输入的K-CircleS邻居(K-NN)和基于L_P-NUM-NUN),以构造与该输入的预测的理由。通过在模拟和真实数据集上进行的实验,我们证明我们的方法可以为各个预测提供可靠性,并表征这些可靠性无法确定的区域。
translated by 谷歌翻译
我们介绍了泰德(Tidee),这是一种体现的代理,它根据学识渊博的常识对象和房间安排先验来整理一个无序场景。泰德(Tidee)探索家庭环境,检测到其自然位置的对象,渗透到它们的合理对象上下文,在当前场景中定位此类上下文,并重新定位对象。常识先验在三个模块中编码:i)检测到现象对象的视觉声音检测器,ii)对象和空间关系的关联神经图记忆,提出了对象重新定位的合理语义插座和表面,以及iii)引导代理商探索的可视搜索网络,以有效地将利益定位在当前场景中以重新定位对象。我们测试了在AI2THOR模拟环境中整理混乱的场景的潮汐。 Tidee直接从像素和原始深度输入中执行任务,而没有事先观察到同一房间,仅依靠从单独的一组培训房屋中学到的先验。人类对由此产生的房间进行重组的评估表明,泰德(Tidee)的表现优于该模型的消融版本,这些版本不使用一个或多个常识性先验。在相关的房间重新安排基准测试中,该基准使代理可以在重新排列前查看目标状态,我们的模型的简化版本大大胜过了最佳的方法,可以通过大幅度的差距。代码和数据可在项目网站上获得:https://tidee-agent.github.io/。
translated by 谷歌翻译
为不依赖LiDAR的自动驾驶汽车建造3D感知系统是一个关键的研究问题,因为与摄像机和其他传感器相比,LiDar系统的费用很高。当前方法使用从车辆周围的摄像机收集的多视图RGB数据,并从透视图像到2D接地平面的神经“升力”特征,从而产生“鸟类的眼光”(BEV)的特征代表车辆周围的3D空间。最近的研究重点是将功能从图像提升到BEV平面的方式。相反,我们提出了一个简单的基线模型,其中“提升”步骤简单地平均所有投影图像位置的特征,并发现它的表现优于BEV车辆分割中当前最新的。我们的消融表明,批处理大小,数据增强和输入分辨率在性能中起着很大的作用。此外,我们重新考虑了雷达输入的效用,雷达输入的实用性以前被最近的作品忽略或没有忽略。借助简单的RGB-radar融合模块,我们获得了相当大的性能提升,从而接近了启用激光雷达系统的精度。
translated by 谷歌翻译
通常将视频中的跟踪像素作为光流估计问题进行研究,其中每个像素都用位移向量描述,该位移向量将其定位在下一帧中。即使可以免费获得更广泛的时间上下文,但要考虑到这一点的事先努力仅在2框方法上产生了少量收益。在本文中,我们重新访问Sand and Teller的“粒子视频”方法,并将像素跟踪作为远程运动估计问题,其中每个像素都用轨迹描述,该轨迹将其定位在以后的多个帧中。我们使用该组件重新构建了这种经典方法,这些组件可以驱动流量和对象跟踪中最新的最新方法,例如密集的成本图,迭代优化和学习的外观更新。我们使用从现有的光流数据中挖掘出的远程Amodal点轨迹来训练我们的模型,并通过多帧的遮挡合成增强,这些轨迹会增强。我们在轨迹估计基准和关键点标签传播任务中测试我们的方法,并与最新的光流和功能跟踪方法进行比较。
translated by 谷歌翻译
无监督的语义分割旨在在没有手动注释的情况下获得高级视觉功能的高级语义表示。大多数现有方法是基于其视觉提示或某些预定义规则尝试将像素分组为区域的自下而上的方法。因此,在具有多个对象的复杂场景和共享类似的视觉外观的某些对象时,这些自下而上的方法难以产生细粒度的语义分割。相比之下,我们提出了一个在极其复杂的情景中的细粒度分割的第一个自上而下的无监督语义分割框架。具体而言,我们首先以自我监督的学习方式从大规模视觉数据中获得丰富的高级结构化语义概念信息,并在发现目标数据集中呈现的潜在语义类别之前使用此类信息。其次,通过计算关于某些发现的语义表示的类激活地图(CAM)来计算发现的高电平语义类别以映射到低级像素特征。最后,所获得的凸轮用作伪标签,以培训分割模块并产生最终的语义分割。多个语义分割基准测试的实验结果表明,我们的自上而下的无监督分割对于对象为中心和以场景为中心的数据集,在不同的语义粒度水平下,并且优于所有最新的最先进的自下而上方法。我们的代码可用于\ URL {https://github.com/damo-cv/transfgugu}。
translated by 谷歌翻译
本研究提出了一种具有动态障碍物和不均匀地形的部分可观察环境中的BipeDal运动的安全任务和运动计划(夯实)的分层综合框架。高级任务规划师采用线性时间逻辑(LTL),用于机器人及其环境之间的反应游戏合成,并为导航安全和任务完成提供正式保证。为了解决环境部分可观察性,在高级导航计划者采用信仰抽象,以估计动态障碍的位置。因此,合成的动作规划器向中级运动规划器发送一组运动动作,同时基于运动过程的阶数模型(ROM)结合从安全定理提取的安全机置规范。运动计划程序采用ROM设计安全标准和采样算法,以生成准确跟踪高级动作的非周期性运动计划。为了解决外部扰动,本研究还调查了关键帧运动状态的安全顺序组成,通过可达性分析实现了对外部扰动的强大转变。最终插值一组基于ROM的超参数,以设计由轨迹优化生成的全身运动机器,并验证基于ROM的可行部署,以敏捷机器人设计的20多个自由的Cassie机器人。
translated by 谷歌翻译
Dataset distillation has emerged as a prominent technique to improve data efficiency when training machine learning models. It encapsulates the knowledge from a large dataset into a smaller synthetic dataset. A model trained on this smaller distilled dataset can attain comparable performance to a model trained on the original training dataset. However, the existing dataset distillation techniques mainly aim at achieving the best trade-off between resource usage efficiency and model utility. The security risks stemming from them have not been explored. This study performs the first backdoor attack against the models trained on the data distilled by dataset distillation models in the image domain. Concretely, we inject triggers into the synthetic data during the distillation procedure rather than during the model training stage, where all previous attacks are performed. We propose two types of backdoor attacks, namely NAIVEATTACK and DOORPING. NAIVEATTACK simply adds triggers to the raw data at the initial distillation phase, while DOORPING iteratively updates the triggers during the entire distillation procedure. We conduct extensive evaluations on multiple datasets, architectures, and dataset distillation techniques. Empirical evaluation shows that NAIVEATTACK achieves decent attack success rate (ASR) scores in some cases, while DOORPING reaches higher ASR scores (close to 1.0) in all cases. Furthermore, we conduct a comprehensive ablation study to analyze the factors that may affect the attack performance. Finally, we evaluate multiple defense mechanisms against our backdoor attacks and show that our attacks can practically circumvent these defense mechanisms.
translated by 谷歌翻译
Blind image quality assessment (BIQA) remains challenging due to the diversity of distortion and image content variation, which complicate the distortion patterns crossing different scales and aggravate the difficulty of the regression problem for BIQA. However, existing BIQA methods often fail to consider multi-scale distortion patterns and image content, and little research has been done on learning strategies to make the regression model produce better performance. In this paper, we propose a simple yet effective Progressive Multi-Task Image Quality Assessment (PMT-IQA) model, which contains a multi-scale feature extraction module (MS) and a progressive multi-task learning module (PMT), to help the model learn complex distortion patterns and better optimize the regression issue to align with the law of human learning process from easy to hard. To verify the effectiveness of the proposed PMT-IQA model, we conduct experiments on four widely used public datasets, and the experimental results indicate that the performance of PMT-IQA is superior to the comparison approaches, and both MS and PMT modules improve the model's performance.
translated by 谷歌翻译
The development of social media user stance detection and bot detection methods rely heavily on large-scale and high-quality benchmarks. However, in addition to low annotation quality, existing benchmarks generally have incomplete user relationships, suppressing graph-based account detection research. To address these issues, we propose a Multi-Relational Graph-Based Twitter Account Detection Benchmark (MGTAB), the first standardized graph-based benchmark for account detection. To our knowledge, MGTAB was built based on the largest original data in the field, with over 1.55 million users and 130 million tweets. MGTAB contains 10,199 expert-annotated users and 7 types of relationships, ensuring high-quality annotation and diversified relations. In MGTAB, we extracted the 20 user property features with the greatest information gain and user tweet features as the user features. In addition, we performed a thorough evaluation of MGTAB and other public datasets. Our experiments found that graph-based approaches are generally more effective than feature-based approaches and perform better when introducing multiple relations. By analyzing experiment results, we identify effective approaches for account detection and provide potential future research directions in this field. Our benchmark and standardized evaluation procedures are freely available at: https://github.com/GraphDetec/MGTAB.
translated by 谷歌翻译