Modern autonomous driving system is characterized as modular tasks in sequential order, i.e., perception, prediction and planning. As sensors and hardware get improved, there is trending popularity to devise a system that can perform a wide diversity of tasks to fulfill higher-level intelligence. Contemporary approaches resort to either deploying standalone models for individual tasks, or designing a multi-task paradigm with separate heads. These might suffer from accumulative error or negative transfer effect. Instead, we argue that a favorable algorithm framework should be devised and optimized in pursuit of the ultimate goal, i.e. planning of the self-driving-car. Oriented at this goal, we revisit the key components within perception and prediction. We analyze each module and prioritize the tasks hierarchically, such that all these tasks contribute to planning (the goal). To this end, we introduce Unified Autonomous Driving (UniAD), the first comprehensive framework up-to-date that incorporates full-stack driving tasks in one network. It is exquisitely devised to leverage advantages of each module, and provide complementary feature abstractions for agent interaction from a global perspective. Tasks are communicated with unified query design to facilitate each other toward planning. We instantiate UniAD on the challenging nuScenes benchmark. With extensive ablations, the effectiveness of using such a philosophy is proven to surpass previous state-of-the-arts by a large margin in all aspects. The full suite of codebase and models would be available to facilitate future research in the community.
translated by 谷歌翻译
在鸟眼中学习强大的表现(BEV),以进行感知任务,这是趋势和吸引行业和学术界的广泛关注。大多数自动驾驶算法的常规方法在正面或透视视图中执行检测,细分,跟踪等。随着传感器配置变得越来越复杂,从不同的传感器中集成了多源信息,并在统一视图中代表功能至关重要。 BEV感知继承了几个优势,因为代表BEV中的周围场景是直观和融合友好的。对于BEV中的代表对象,对于随后的模块,如计划和/或控制是最可取的。 BEV感知的核心问题在于(a)如何通过从透视视图到BEV来通过视图转换来重建丢失的3D信息; (b)如何在BEV网格中获取地面真理注释; (c)如何制定管道以合并来自不同来源和视图的特征; (d)如何适应和概括算法作为传感器配置在不同情况下各不相同。在这项调查中,我们回顾了有关BEV感知的最新工作,并对不同解决方案进行了深入的分析。此外,还描述了该行业的BEV方法的几种系统设计。此外,我们推出了一套完整的实用指南,以提高BEV感知任务的性能,包括相机,激光雷达和融合输入。最后,我们指出了该领域的未来研究指示。我们希望该报告能阐明社区,并鼓励对BEV感知的更多研究。我们保留一个活跃的存储库来收集最新的工作,并在https://github.com/openperceptionx/bevperception-survey-recipe上提供一包技巧的工具箱。
translated by 谷歌翻译
基础学习者和集合中的样本(镜头)几乎没有弹出分类器极大地影响了模型性能。当表现不满意时,通常很难理解基本原因并进行改进。为了解决这个问题,我们提出了一种视觉分析方法FSLDIAGNOTOR。考虑到一组基础学习者和一系列射击的样本,我们考虑了两个问题:1)找到一个很好的基础学习者,可以很好地预测样本集; 2)用更多代表性的镜头代替低质量的镜头,以充分代表样品集。我们将两个问题提出为稀疏子集选择,并开发两种选择算法,分别推荐适当的学习者和射击。将矩阵可视化和散点图组合在一起,以解释上下文中推荐的学习者和镜头,并促进用户调整它们。根据调整,该算法更新了建议结果,以进行另一轮改进。进行了两项案例研究,以证明FSLDIAGNOTOR有助于有效地构建一些分类器,并分别将精度提高12%和21%。
translated by 谷歌翻译
Novel artificial intelligence (AI) technology has expedited various scientific research, e.g., cosmology, physics and bioinformatics, inevitably becoming a significant category of workload on high performance computing (HPC) systems. Existing AI benchmarks tend to customize well-recognized AI applications, so as to evaluate the AI performance of HPC systems under predefined problem size, in terms of datasets and AI models. Due to lack of scalability on the problem size, static AI benchmarks might be under competent to help understand the performance trend of evolving AI applications on HPC systems, in particular, the scientific AI applications on large-scale systems. In this paper, we propose a scalable evaluation methodology (SAIH) for analyzing the AI performance trend of HPC systems with scaling the problem sizes of customized AI applications. To enable scalability, SAIH builds a set of novel mechanisms for augmenting problem sizes. As the data and model constantly scale, we can investigate the trend and range of AI performance on HPC systems, and further diagnose system bottlenecks. To verify our methodology, we augment a cosmological AI application to evaluate a real HPC system equipped with GPUs as a case study of SAIH.
translated by 谷歌翻译
由于视觉识别的社会影响一直受到审查,因此出现了几个受保护的平衡数据集,以解决不平衡数据集中的数据集偏差。但是,在面部属性分类中,数据集偏置既源于受保护的属性级别和面部属性级别,这使得构建多属性级别平衡的真实数据集使其具有挑战性。为了弥合差距,我们提出了一条有效的管道,以产生具有所需面部属性的高质量和足够的面部图像,并将原始数据集补充为两个级别的平衡数据集,从理论上讲,这在理论上满足了几个公平标准。我们方法的有效性在性别分类和面部属性分类方面得到了验证,通过将可比的任务性能作为原始数据集,并通过广泛的度量标准进行全面的公平评估,并进一步提高公平性。此外,我们的方法优于重采样和平衡的数据集构建来解决数据集偏差,以及解决任务偏置的模型模型。
translated by 谷歌翻译
虽然某些工作尝试从UI屏幕截图中智能生成前端代码,但在Sketch中使用UI设计草稿可能更方便,这是一种流行的UI设计软件,因为我们可以直接访问多模式UI信息,例如层,位置,位置,位置,位置,位置,,,,位置,位置,位置,,位置,位置,位置,位置,,位置,位置,位置,位置,位置,,位置,位置,位置,位置,位置,位置,位置,位置,位置,位置,位置,位置,位置,位置,位置,位置,位置类型大小和视觉图像。但是,如果所有这些层都参与了代码生成,则分散的层可能会降低代码质量,而不会合并为整个部分。在本文中,我们提出了一条管道,以自动合并碎片层。我们首先为UI草稿的图层树构造图表,并根据视觉特征和图形神经网络检测所有碎片层。然后,基于规则的算法旨在合并零碎的层。通过在新构建的数据集上的实验,我们的方法可以在UI设计草案中检索最碎片的层,并在检测任务中实现87%的准确性,并在简单且一般的情况下开发了后处理算法以聚集关联层。
translated by 谷歌翻译
尽管令人鼓舞的是深泡检测的进展,但由于训练过程中探索的伪造线索有限,对未见伪造类型的概括仍然是一个重大挑战。相比之下,我们注意到Deepfake中的一种常见现象:虚假的视频创建不可避免地破坏了原始视频中的统计规律性。受到这一观察的启发,我们建议通过区分实际视频中没有出现的“规律性中断”来增强深层检测的概括。具体而言,通过仔细检查空间和时间属性,我们建议通过伪捕获生成器破坏真实的视频,并创建各种伪造视频以供培训。这种做法使我们能够在不使用虚假视频的情况下实现深泡沫检测,并以简单有效的方式提高概括能力。为了共同捕获空间和时间上的破坏,我们提出了一个时空增强块,以了解我们自我创建的视频之间的规律性破坏。通过全面的实验,我们的方法在几个数据集上表现出色。
translated by 谷歌翻译
面部伪造技术的最新进展几乎可以产生视觉上无法追踪的深冰录视频,这些视频可以通过恶意意图来利用。结果,研究人员致力于深泡检测。先前的研究已经确定了局部低级提示和时间信息在追求跨层次方法中概括的重要性,但是,它们仍然遭受鲁棒性问题的影响。在这项工作中,我们提出了基于本地和时间感知的变压器的DeepFake检测(LTTD)框架,该框架采用了局部到全球学习协议,特别关注本地序列中有价值的时间信息。具体而言,我们提出了一个局部序列变压器(LST),该局部序列变压器(LST)对限制空间区域的序列进行了时间一致性,其中低级信息通过学习的3D滤波器的浅层层增强。基于局部时间嵌入,我们然后以全球对比的方式实现最终分类。对流行数据集进行的广泛实验验证了我们的方法有效地发现了本地伪造线索并实现最先进的表现。
translated by 谷歌翻译
随着面部识别使用的平等问题最近,最近追求了很多关注,因此已经对脱叠的深入学习模型进行了更大的努力,以改善少数群体的公平性。但是,仍然没有明确的定义,也没有足够的偏见评估指标进行分析。我们提出了一种信息 - 理论,独立的偏见评估度量,以识别来自普查面部识别系统的学习概念的受保护人口属性的偏差程度。我们的指标与其他方法不同,依赖于分类准确性或检查使用浅网络预测的受保护属性的地面真理和预测标签之间的差异。此外,我们理论上和实验地认为,由于基于神经网络的预测器始终可以找到相关性,所以Logits级丢失不充分解释偏差。此外,我们介绍了一个合成数据集,这些数据集可以减轻某些队列中的样本不足的问题。最后,我们通过在明确的歧视和与其他度量进行比较的情况下呈现优势来建立基准度量,并评估具有所提出的指标的不同脱叠模型的性能。
translated by 谷歌翻译
Dataset distillation has emerged as a prominent technique to improve data efficiency when training machine learning models. It encapsulates the knowledge from a large dataset into a smaller synthetic dataset. A model trained on this smaller distilled dataset can attain comparable performance to a model trained on the original training dataset. However, the existing dataset distillation techniques mainly aim at achieving the best trade-off between resource usage efficiency and model utility. The security risks stemming from them have not been explored. This study performs the first backdoor attack against the models trained on the data distilled by dataset distillation models in the image domain. Concretely, we inject triggers into the synthetic data during the distillation procedure rather than during the model training stage, where all previous attacks are performed. We propose two types of backdoor attacks, namely NAIVEATTACK and DOORPING. NAIVEATTACK simply adds triggers to the raw data at the initial distillation phase, while DOORPING iteratively updates the triggers during the entire distillation procedure. We conduct extensive evaluations on multiple datasets, architectures, and dataset distillation techniques. Empirical evaluation shows that NAIVEATTACK achieves decent attack success rate (ASR) scores in some cases, while DOORPING reaches higher ASR scores (close to 1.0) in all cases. Furthermore, we conduct a comprehensive ablation study to analyze the factors that may affect the attack performance. Finally, we evaluate multiple defense mechanisms against our backdoor attacks and show that our attacks can practically circumvent these defense mechanisms.
translated by 谷歌翻译