具有更多数据,计算和参数的缩放语言模型在自然语言处理方面取得了重大进展。例如,由于缩放,GPT-3能够在内心学习任务上实现强烈结果。但是,培训这些大密度模型需要大量的计算资源。在本文中,我们提出并开发了名为Glam(通用语言模型)的语言模型系列,它使用稀疏激活的专家架构来规模模型容量,同时与致密变体相比,也产生显着更少的训练成本。最大的Glam具有1.2万亿参数,比GPT-3大约为7倍。它仅消耗了用于训练GPT-3的1/3的能量,并且需要一半的计算拖鞋进行推理,同时仍然在29个NLP任务中实现更好的整体零射击和一次性性能。
translated by 谷歌翻译
Detection Transformer (DETR) and Deformable DETR have been proposed to eliminate the need for many hand-designed components in object detection while demonstrating good performance as previous complex hand-crafted detectors. However, their performance on Video Object Detection (VOD) has not been well explored. In this paper, we present TransVOD, the first end-to-end video object detection system based on spatial-temporal Transformer architectures. The first goal of this paper is to streamline the pipeline of VOD, effectively removing the need for many hand-crafted components for feature aggregation, e.g., optical flow model, relation networks. Besides, benefited from the object query design in DETR, our method does not need complicated post-processing methods such as Seq-NMS. In particular, we present a temporal Transformer to aggregate both the spatial object queries and the feature memories of each frame. Our temporal transformer consists of two components: Temporal Query Encoder (TQE) to fuse object queries, and Temporal Deformable Transformer Decoder (TDTD) to obtain current frame detection results. These designs boost the strong baseline deformable DETR by a significant margin (2 %-4 % mAP) on the ImageNet VID dataset. TransVOD yields comparable performances on the benchmark of ImageNet VID. Then, we present two improved versions of TransVOD including TransVOD++ and TransVOD Lite. The former fuses object-level information into object query via dynamic convolution while the latter models the entire video clips as the output to speed up the inference time. We give detailed analysis of all three models in the experiment part. In particular, our proposed TransVOD++ sets a new state-of-the-art record in terms of accuracy on ImageNet VID with 90.0 % mAP. Our proposed TransVOD Lite also achieves the best speed and accuracy trade-off with 83.7 % mAP while running at around 30 FPS on a single V100 GPU device. Code and models will be available for further research.
translated by 谷歌翻译
Characterizing the patterns of errors that a system makes helps researchers focus future development on increasing its accuracy and robustness. We propose a novel form of "meta learning" that automatically learns interpretable rules that characterize the types of errors that a system makes, and demonstrate these rules' ability to help understand and improve two NLP systems. Our approach works by collecting error cases on validation data, extracting meta-features describing these samples, and finally learning rules that characterize errors using these features. We apply our approach to VilBERT, for Visual Question Answering, and RoBERTa, for Common Sense Question Answering. Our system learns interpretable rules that provide insights into systemic errors these systems make on the given tasks. Using these insights, we are also able to "close the loop" and modestly improve performance of these systems.
translated by 谷歌翻译
在车辆场景中的毫米波链路的光束选择是一个具有挑战性的问题,因为所有候选光束对之间的详尽搜索都不能在短接触时间内被确认完成。我们通过利用像LIDAR,相机图像和GPS等传感器收集的多模级数据来解决这一问题。我们提出了可以在本地以及移动边缘计算中心(MEC)本地执行的个人方式和分布式融合的深度学习(F-DL)架构,并研究相关权衡。我们还制定和解决优化问题,以考虑实际的光束搜索,MEC处理和传感器到MEC数据传送延迟开销,用于确定上述F-DL架构的输出尺寸。在公开的合成和本土现实世界数据集上进行的广泛评估结果分别在古典RF光束上释放出95%和96%的束选择速度提高。在预测前10个最佳光束对中,F-DL还优于最先进的技术20-22%。
translated by 谷歌翻译
基于光学传感器的运动跟踪系统通常遭受问题,例如差的照明条件,遮挡,有限的覆盖,并且可以提高隐私问题。最近,已经出现了使用商业WiFi设备的基于射频(RF)的方法,这些方法提供了低成本的普遍感感知,同时保留隐私。然而,RF感测系统的输出,例如范围多普勒谱图,不能直观地代表人类运动,并且通常需要进一步处理。在本研究中,提出了基于WiFi微多普勒签名的人类骨骼运动重建的新颖框架。它提供了一种有效的解决方案,通过重建具有17个关键点的骨架模型来跟踪人类活动,这可以帮助以更易于理解的方式解释传统的RF感测输出。具体地,MDPose具有各种增量阶段来逐渐地解决一系列挑战:首先,实现去噪算法以去除可能影响特征提取的任何不需要的噪声,并增强弱多普勒签名。其次,应用卷积神经网络(CNN)-Recurrent神经网络(RNN)架构用于从清洁微多普勒签名和恢复关键点的速度信息学习时间空间依赖性。最后,采用姿势优化机制来估计骨架的初始状态并限制误差的增加。我们在各种环境中使用了许多受试者进行了全面的测试,其中许多受试者具有单个接收器雷达系统,以展示MDPOST的性能,并在所有关键点位置报告29.4mm的绝对误差,这优于最先进的RF-基于姿势估计系统。
translated by 谷歌翻译
智能系统能够随着时间的推移提高他们的行为,考虑观察,经验或明确的反馈。例如,传统方法分离了学习问题,并使孤立的机器学习领域的技术使用,例如加强学习,主动学习,异常检测或转移学习。在这种情况下,基本强化学习方法具有几个缺点,即阻碍其对现实世界系统的应用:试验和错误,纯粹的反应行为或隔离问题处理。本文的想法是通过建立智能系统中“积极加固学习”的研究议程来提出一种减轻这些缺点的概念。
translated by 谷歌翻译
Mohamed Bin Zayed国际机器人挑战(MBZIRC)2020为无人机(无人机)构成了不同的挑战。我们提供了四个量身定制的无人机,专门为MBZIRC的单独空中机器人任务开发,包括自定义硬件和软件组件。在挑战1中,使用高效率,车载对象检测管道进行目标UAV,以捕获来自目标UAV的球。第二个UAV使用类似的检测方法来查找和流行散落在整个竞技场的气球。对于挑战2,我们展示了一种能够自主空中操作的更大的无人机:从相机图像找到并跟踪砖。随后,将它们接近,挑选,运输并放在墙上。最后,在挑战3中,我们的UAV自动发现使用LIDAR和热敏摄像机的火灾。它用船上灭火器熄灭火灾。虽然每个机器人都具有任务特定的子系统,但所有无人机都依赖于为该特定和未来竞争开发的标准软件堆栈。我们介绍了我们最开源的软件解决方案,包括系统配置,监控,强大无线通信,高级控制和敏捷轨迹生成的工具。为了解决MBZirc 2020任务,我们在多个研究领域提出了机器视觉和轨迹生成的多个研究领域。我们介绍了我们的科学贡献,这些贡献构成了我们的算法和系统的基础,并分析了在阿布扎比的MBZIRC竞赛2020年的结果,我们的系统在大挑战中达到了第二名。此外,我们讨论了我们参与这种复杂的机器人挑战的经验教训。
translated by 谷歌翻译
在Crypto 2019中,Gohr进行了开创性的尝试,并成功地向NSA块密码SPECK32 / 64进行了深度学习,实现了比纯差分区分的更高的精度。通过其本质,数据中的挖掘有效特征在数据驱动的深度学习中起着至关重要的作用。在本文中,除了从密文对的训练数据中考虑信息的完整性,还考虑了关于差分密码分析结构的域知识也被认为是深度学习的培训过程,提高性能。此外,基于SAT / SMT求解器,我们发现其他高概率兼容差分特性,与以前的工作相比有效地提高了性能。我们建立针对西蒙和Simeck的神经区别师(NDS)和相关关键的神经区别SIMON32 / 64的ND和RKND分别达到11-,11轮,精度分别为59.55%和97.90%。对于Simon64 / 128,ND在13轮达到60.32%的准确性,而RKND为95.49%。对于SIMECK32 / 64,获得11-,14轮的ND和RKND,分别达到63.32%和87.06%的准确度。我们为SIMECK64 / 128建立了17轮ND和21轮RKND,精度分别为64.24%和62.96%。目前,这些是Simon32 / 64,Simon64 / 128,Simeck32 / 64和Simeck64 / 128的更高精度的最长(相关关键)的神经区别。
translated by 谷歌翻译
我们研究数据集假设允许求解离线双人零和Markov游戏。在与离线单代理马尔可夫决策过程的鲜明对比中,我们表明单一策略浓度假设不足以在离线双球零和马尔可夫游戏中学习纳什均衡(NE)战略。另一方面,我们提出了一个名为单侧浓度的新假设,并设计了一种悲观型算法,可在此假设下提供有效的。此外,我们表明单方面浓度假设是学习网元策略所必需的。此外,我们的算法可以实现Minimax样本复杂性,而对于两个广泛研究的设置,可以进行任何修改:数据集具有均匀浓度假设和基于转向的马尔可夫游戏。我们的工作是了解离线多智能经纪增强学习的重要初步步骤。
translated by 谷歌翻译
可以处理各种扬声器和声学条件的模型在语音情感识别(Ser)中至关重要。通常,这些模型往往会在培训期间呈现扬声器或声学条件时显示混合结果。本文调查了交叉组件数据互补和数据增强对Ser模型的影响(从相同的语料库中的测试设置)和不匹配(从不同的语料库测试)条件。介绍了使用六种情绪语音集团的调查,其中包括单一和多个扬声器以及情感风格的变化(作用,引发,自然)和记录条件。观察结果表明,正如预期的那样,在单一语料库上培训的模型在匹配条件下表现最佳,而性能在不匹配的条件下减少10-40%,具体取决于语料库特定功能。在混合语料库上培训的型号在不匹配的上下文中可以更稳定,与匹配条件中的单个语料库模型相比,性能减少的范围为1%至8%。数据增强产生额外的收益高达4%,似乎有利于比匹配的不匹配条件。
translated by 谷歌翻译