Large language models have exhibited intriguing in-context learning capability, achieving promising zero- and few-shot performance without updating the parameters. However, conventional in-context learning is usually restricted by length constraints, rendering it ineffective to absorb supervision from a large number of examples. In order to go beyond few shots, we introduce structured prompting that breaks the length limit and scales in-context learning to thousands of examples. Specifically, demonstration examples are separately encoded with well-designed position embeddings, and then they are jointly attended by the test example using a rescaled attention mechanism. So we can scale the number of exemplars with linear complexity instead of quadratic complexity with respect to length. Experimental results on a diverse set of tasks show that our approach improves end-task performance and reduces evaluation variance over conventional in-context learning as the number of demonstration examples increases. Code has been released at https://aka.ms/structured-prompting.
translated by 谷歌翻译
High-definition (HD) semantic map generation of the environment is an essential component of autonomous driving. Existing methods have achieved good performance in this task by fusing different sensor modalities, such as LiDAR and camera. However, current works are based on raw data or network feature-level fusion and only consider short-range HD map generation, limiting their deployment to realistic autonomous driving applications. In this paper, we focus on the task of building the HD maps in both short ranges, i.e., within 30 m, and also predicting long-range HD maps up to 90 m, which is required by downstream path planning and control tasks to improve the smoothness and safety of autonomous driving. To this end, we propose a novel network named SuperFusion, exploiting the fusion of LiDAR and camera data at multiple levels. We benchmark our SuperFusion on the nuScenes dataset and a self-recorded dataset and show that it outperforms the state-of-the-art baseline methods with large margins. Furthermore, we propose a new metric to evaluate the long-range HD map prediction and apply the generated HD map to a downstream path planning task. The results show that by using the long-range HD maps predicted by our method, we can make better path planning for autonomous vehicles. The code will be available at https://github.com/haomo-ai/SuperFusion.
translated by 谷歌翻译
High-quality traffic flow generation is the core module in building simulators for autonomous driving. However, the majority of available simulators are incapable of replicating traffic patterns that accurately reflect the various features of real-world data while also simulating human-like reactive responses to the tested autopilot driving strategies. Taking one step forward to addressing such a problem, we propose Realistic Interactive TrAffic flow (RITA) as an integrated component of existing driving simulators to provide high-quality traffic flow for the evaluation and optimization of the tested driving strategies. RITA is developed with fidelity, diversity, and controllability in consideration, and consists of two core modules called RITABackend and RITAKit. RITABackend is built to support vehicle-wise control and provide traffic generation models from real-world datasets, while RITAKit is developed with easy-to-use interfaces for controllable traffic generation via RITABackend. We demonstrate RITA's capacity to create diversified and high-fidelity traffic simulations in several highly interactive highway scenarios. The experimental findings demonstrate that our produced RITA traffic flows meet all three design goals, hence enhancing the completeness of driving strategy evaluation. Moreover, we showcase the possibility for further improvement of baseline strategies through online fine-tuning with RITA traffic flows.
translated by 谷歌翻译
我们研究了一种模块化方法,可以解决对象重排的长马移动操作任务,该任务将完整的任务分解为一系列子任务。为了解决整个任务,先前的工作将具有点目标导航技能的多个固定操作技巧,这些技巧是在子任务上单独学习的。尽管比整体端到端的RL政策更有效,但该框架遭受了技能链条的复杂错误,例如导航到一个不良位置,在这种情况下,固定操作技能无法达到其目标进行操纵。为此,我们建议操纵技巧应包括移动性,以便从多个位置与目标对象进行互动,同时导航技能可能具有多个终点,从而导致成功的操纵。我们通过实施移动操纵技能而不是固定技能来实现这些想法,并训练接受区域目标而不是积分目标的导航技能。我们在家庭助理基准(HAB)中评估了三个挑战性的长途移动操纵任务M3,并在3个挑战性的长途移动操纵任务上评估了我们的多技能,并且与基线相比表现出了出色的性能。
translated by 谷歌翻译
随着硬件和算法的开发,ASR(自动语音识别)系统发展了很多。随着模型变得越来越简单,开发和部署的困难变得更加容易,ASR系统正越来越接近我们的生活。一方面,我们经常使用ASR的应用程序或API来生成字幕和记录会议。另一方面,智能扬声器和自动驾驶汽车依靠ASR系统来控制Aiot设备。在过去的几年中,对ASR系统的攻击攻击有很多作品。通过在波形中添加小的扰动,识别结果有很大的不同。在本文中,我们描述了ASR系统的发展,攻击的不同假设以及如何评估这些攻击。接下来,我们在两个攻击假设中介绍了有关对抗性示例攻击的当前作品:白框攻击和黑框攻击。与其他调查不同,我们更多地关注它们在ASR系统中扰动波形,这些攻击之间的关系及其实现方法之间的层。我们专注于他们作品的效果。
translated by 谷歌翻译
为了解决不平衡分类任务中生成图像的质量多样性的权衡问题,我们研究了功能级别的基于过度采样的方法,而不是数据级别,并专注于搜索潜在功能空间以进行最佳分布。在此基础上,我们提出了改进的基于潜在特征分布演化(MEDA_LUDE)算法的改进的估计分布算法,其中对联合学习程序进行了编程,以使深神经网络和进化算法分别优化和进化。我们探讨了大利润度高斯混合物(L-GM)损失功能对分配学习和设计基于样品之间相似性以增加多样性的专业健身函数的影响。基于基准的不平衡数据集的广泛实验验证了我们提出的算法的有效性,该算法可以生成具有质量和多样性的图像。此外,MEDA_LUDE算法还应用于工业领域,并成功地减轻了织物缺陷分类中的不平衡问题。
translated by 谷歌翻译
我们研究人员重新识别(RE-ID)的向后兼容问题,该问题旨在限制更新的新模型的功能,以与画廊中旧模型的现有功能相提并论。大多数现有作品都采用基于蒸馏的方法,这些方法着重于推动新功能模仿旧功能。但是,基于蒸馏的方法本质上是最佳的,因为它迫使新的特征空间模仿旧特征空间。为了解决这个问题,我们提出了基于排名的向后兼容学习(RBCL),该学习直接优化了新功能和旧功能之间的排名指标。与以前的方法不同,RBCL仅推动新功能以在旧功能空间而不是严格对齐中找到最佳的位置,并且与向后检索的最终目标保持一致。但是,用于使排名度量可区分的尖锐的Sigmoid函数也会导致梯度消失的问题,因此在训练后期的时期造成了排名的完善。为了解决这个问题,我们提出了动态梯度重新激活(DGR),可以通过在远期步骤中添加动态计算的常数来重新激活抑制梯度。为了进一步帮助目标最佳位置,我们包括邻居上下文代理(NCAS),以近似训练期间的整个旧特征空间。与以前仅在内域设置上测试的作品不同,我们首次尝试引入跨域设置(包括受监督和无监督的),这更有意义和困难。所有五个设置上的实验结果表明,在所有设置下,提出的RBCL都以大幅度优于先前的最新方法。
translated by 谷歌翻译
非结构化的文本中存在大量的位置信息,例如社交媒体帖子,新闻报道,科学文章,网页,旅行博客和历史档案。地理学是指识别文本中的位置参考并识别其地理空间表示的过程。虽然地理标准可以使许多领域受益,但仍缺少特定应用程序的摘要。此外,缺乏对位置参考识别方法的现有方法的全面审查和比较,这是地理验证的第一个和核心步骤。为了填补这些研究空白,这篇综述首先总结了七个典型的地理应用程序域:地理信息检索,灾难管理,疾病监视,交通管理,空间人文,旅游管理和犯罪管理。然后,我们通过将这些方法分类为四个组,以基于规则的基于规则,基于统计学学习的基于统计学学习和混合方法将这些方法分类为四个组,从而回顾了现有的方法参考识别方法。接下来,我们彻底评估了27种最广泛使用的方法的正确性和计算效率,该方法基于26个公共数据集,其中包含不同类型的文本(例如,社交媒体帖子和新闻报道),包含39,736个位置参考。这项彻底评估的结果可以帮助未来的方法论发展以获取位置参考识别,并可以根据应用需求指导选择适当方法的选择。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
建议制度,依靠历史观察数据来模仿用户和物品之间的复杂关系,取得了巨大的成功,在现实世界中取得了巨大的成功。选择偏见是现有的现有观测数据基于方法的最重要问题之一,其实际上是由多种类型的不观察室的暴露策略引起的(例如促销和假期效应)。虽然已经提出了各种方法来解决这个问题,但它们主要依赖于隐含的脱叠技术,但没有明确建立未观察的曝光策略。通过明确重建曝光策略(简称休息),我们将推荐问题正式化为反事实推理,并提出了脱叠的社会推荐方法。在休息时,我们假设项目的曝光由潜在曝光策略,用户和项目控制。基于上述生成过程,首先通过识别分析提供我们方法的理论保证。其次,在社交网络和项目的帮助下,我们采用了变分自动编码器来重建潜在的曝光策略。第三,我们通过利用回收的曝光策略制定基于反事实推理的建议算法。四个现实世界数据集的实验,包括三个已发布的数据集和一个私人微信官方帐户数据集,展示了几种最先进的方法的显着改进。
translated by 谷歌翻译