In massive multiple-input multiple-output (MIMO) systems, the user equipment (UE) needs to feed the channel state information (CSI) back to the base station (BS) for the following beamforming. But the large scale of antennas in massive MIMO systems causes huge feedback overhead. Deep learning (DL) based methods can compress the CSI at the UE and recover it at the BS, which reduces the feedback cost significantly. But the compressed CSI must be quantized into bit streams for transmission. In this paper, we propose an adaptor-assisted quantization strategy for bit-level DL-based CSI feedback. First, we design a network-aided adaptor and an advanced training scheme to adaptively improve the quantization and reconstruction accuracy. Moreover, for easy practical employment, we introduce the expert knowledge of data distribution and propose a pluggable and cost-free adaptor scheme. Experiments show that compared with the state-of-the-art feedback quantization method, this adaptor-aided quantization strategy can achieve better quantization accuracy and reconstruction performance with less or no additional cost. The open-source codes are available at https://github.com/zhangxd18/QCRNet.
translated by 谷歌翻译
Video event extraction aims to detect salient events from a video and identify the arguments for each event as well as their semantic roles. Existing methods focus on capturing the overall visual scene of each frame, ignoring fine-grained argument-level information. Inspired by the definition of events as changes of states, we propose a novel framework to detect video events by tracking the changes in the visual states of all involved arguments, which are expected to provide the most informative evidence for the extraction of video events. In order to capture the visual state changes of arguments, we decompose them into changes in pixels within objects, displacements of objects, and interactions among multiple arguments. We further propose Object State Embedding, Object Motion-aware Embedding and Argument Interaction Embedding to encode and track these changes respectively. Experiments on various video event extraction tasks demonstrate significant improvements compared to state-of-the-art models. In particular, on verb classification, we achieve 3.49% absolute gains (19.53% relative gains) in F1@5 on Video Situation Recognition.
translated by 谷歌翻译
在多机构系统(例如多机构无人驾驶汽车和多机构自动驾驶水下车辆)中,羊群控制是一个重大问题,可增强代理的合作和安全性。与传统方法相反,多机构增强学习(MARL)更灵活地解决了羊群控制的问题。但是,基于MARL的方法遭受了样本效率低下的影响,因为它们需要从代理与环境之间的相互作用中收集大量的经验。我们提出了一种新颖的方法,该方法对MARL(PWD-MARL)的示范进行了预处理,该方法可以利用以传统方法预处理剂来利用非专家示范。在预审进过程中,代理人同时通过MARL和行为克隆从示范中学习政策,并阻止过度拟合示范。通过对非专家示范进行预处理,PWD-MARL在温暖的开始中提高了在线MAL的样品效率。实验表明,即使发生不良或很少的示威,PWD-MARL在羊群控制问题中提高了样本效率和政策性能。
translated by 谷歌翻译
羊群控制是一个具有挑战性的问题,在维持羊群的同时,需要达到目标位置,并避免了环境中特工之间的障碍和碰撞碰撞。多代理增强学习在羊群控制中取得了有希望的表现。但是,基于传统强化学习的方法需要代理与环境之间的相互作用。本文提出了一项次优政策帮助多代理增强学习算法(SPA-MARL),以提高样本效率。 Spa-Marl直接利用可以通过非学习方法手动设计或解决的先前政策来帮助代理人学习,在这种情况下,该策略的表现可以是最佳的。 SPA-MARL认识到次优政策与本身之间的性能差异,然后模仿次优政策,如果次优政策更好。我们利用Spa-Marl解决羊群控制问题。基于人造潜在领域的传统控制方法用于生成次优政策。实验表明,水疗中心可以加快训练过程,并优于MARL基线和所使用的次优政策。
translated by 谷歌翻译
近年来,由于其在数字人物,角色产生和动画中的广泛应用,人们对3D人脸建模的兴趣越来越大。现有方法压倒性地强调了对面部的外部形状,质地和皮肤特性建模,而忽略了内部骨骼结构和外观之间的固有相关性。在本文中,我们使用学习的参数面部发电机提出了雕塑家,具有骨骼一致性的3D面部创作,旨在通过混合参数形态表示轻松地创建解剖上正确和视觉上令人信服的面部模型。雕塑家的核心是露西(Lucy),这是与整形外科医生合作的第一个大型形状面部脸部数据集。我们的Lucy数据集以最古老的人类祖先之一的化石命名,其中包含正牙手术前后全人头的高质量计算机断层扫描(CT)扫描,这对于评估手术结果至关重要。露西(Lucy)由144次扫描,分别对72名受试者(31名男性和41名女性)组成,其中每个受试者进行了两次CT扫描,并在恐惧后手术中进行了两次CT扫描。根据我们的Lucy数据集,我们学习了一个新颖的骨骼一致的参数面部发电机雕塑家,它可以创建独特而细微的面部特征,以帮助定义角色,同时保持生理声音。我们的雕塑家通过将3D脸的描绘成形状混合形状,姿势混合形状和面部表达混合形状,共同在统一数据驱动的框架下共同建模头骨,面部几何形状和面部外观。与现有方法相比,雕塑家在面部生成任务中保留了解剖学正确性和视觉现实主义。最后,我们展示了雕塑家在以前看不见的各种花式应用中的鲁棒性和有效性。
translated by 谷歌翻译
艺术文本识别是一项极具挑战性的任务,具有广泛的应用程序。但是,当前场景文本识别方法主要集中于不规则文本,而未专门探讨艺术文本。艺术文本识别的挑战包括具有特殊设计的字体和效果的各种外观,字符之间的复杂连接和重叠以及背景模式的严重干扰。为了减轻这些问题,我们建议在三个层面上识别艺术文本。首先,考虑到角结构对外观和形状的稳健性,使用角点指导角色内部特征的提取。通过这种方式,角点的离散性切断了字符之间的连接,它们的稀疏性改善了背景干扰的稳健性。其次,我们设计了一个字符对比损失,以模拟字符级别的特征,从而改善了字符分类的特征表示。第三,我们利用变形金刚在图像级别上学习全局功能,并在角落跨注意机制的帮助下对角点的全球关系进行建模。此外,我们提供了一个艺术文本数据集来基准表演。实验结果验证了我们提出的方法在艺术文本识别方面的显着优势,并在几个模糊和透视数据集上实现了最先进的性能。
translated by 谷歌翻译
自动驾驶汽车(SDC)通常会实施感知管道,以检测周围的障碍并跟踪其移动轨迹,这为随后的驾驶决策过程奠定了基础。尽管对SDC中障碍物检测的安全性进行了深入的研究,但直到最近,攻击者才开始利用跟踪模块的脆弱性。与仅攻击对象探测器相比,这种新的攻击策略以更少的攻击预算更有效地影响了驾驶决策。但是,关于揭示的脆弱性在端到端的自动驾驶系统中是否仍然有效,以及如何减轻威胁。在本文中,我们介绍了SDC中对象跟踪安全性的第一个系统研究。通过一项全面的案例研究Baidu's Apollo的全面感知管道,我们证明了基于Kalman Filter(KF)的主流多对象跟踪器(MOT),即使具有启用的多种多样,传感器融合机制。我们的根本原因分析揭示了脆弱性是对基于KF的MOT设计的天生,该漏洞将错误地处理对象检测器的预测结果,但是当采用的KF算法易于在其与预测偏离的偏差时更容易相信该观察结果更大。为了解决这个设计缺陷,我们为基于KF的MOT提出了一个简单而有效的安全贴,其核心是一种适应性策略,可以平衡KF的重点在观测和预测上,根据观察预测偏差的异常指数,并具有针对广义劫持攻击模型的认证有效性。对基于$ 4 $ kf的现有MOT实施(包括2D和3D,学术和阿波罗的)的广泛评估验证了我们方法的防御效果和微不足道的绩效开销。
translated by 谷歌翻译
本地化和导航是基本的机器人任务,需要准确,最新的地图才能完成这些任务,众包数据可检测地图更改,提出了吸引人的解决方案。收集和处理众包数据需要低成本的传感器和算法,但是现有的方法依赖于昂贵的传感器或计算昂贵的算法。此外,没有现有数据集来评估点云更改检测。因此,本文提出了一个使用低成本传感器(如立体声摄像机和IMU)来检测点云图中的变化的新型框架。此外,我们创建了一个数据集和相应的指标,借助高保真模拟器虚幻引擎4.实验表明,我们的视觉框架可以有效地检测数据集中的变化。
translated by 谷歌翻译
在本文中,我们提出了一种名为Matryoshka的新型内部攻击,该攻击采用无关紧要的计划与公开的DNN模型作为覆盖多个秘密模型的载体模型,以记住存储在本地数据中心中的私人ML数据的功能。我们没有将载体模型的参数视为位字符串并应用常规隐志,而是设计了一种新型参数共享方法,该方法利用了载体模型的学习能力来隐藏信息。同时实现Matryoshka:(i)高容量 - Matryoshka几乎没有实用性损失载体模型,可以隐藏一个26倍较大的秘密模型或8个跨越载体模型中不同应用程序域的不同体系结构的秘密模型,这两个模型都不能是使用现有的隐志技术完成; (ii)解码效率 - 一旦下载了已发布的运营商模型,外部颜色可以将隐藏的模型独家解码,只有几个整数秘密和隐藏模型体系结构的知识; (iii)有效性 - 此外,几乎所有恢复的模型的性能都与私人数据独立培训一样; (iv)鲁棒性 - 自然会实施信息冗余,以在出版前对载体上的常见后处理技术实现弹性; (v)秘密性 - 具有不同先验知识水平的模型检查员几乎不能将载体模型与正常模型区分开。
translated by 谷歌翻译
基于信息瓶颈(IB)的多视图学习提供了一种信息理论原则,用于寻找异质数据描述中包含的共享信息。但是,它的巨大成功通常归因于估计网络变得复杂时棘手的多元互助信息。此外,表示折衷的表示,{\ it},预测压缩和足够的一致性权衡,使IB难以同时满足这两个要求。在本文中,我们设计了几种变分信息瓶颈,以利用两个关键特征({\ it,即},充分性和一致性)用于多视图表示学习。具体而言,我们提出了一种多视图变量蒸馏(MV $^2 $ d)策略,以通过给出观点的任意输入,但没有明确估算它,从而为拟合MI提供了可扩展,灵活和分析的解决方案。在严格的理论保证下,我们的方法使IB能够掌握观测和语义标签之间的内在相关性,从而自然产生预测性和紧凑的表示。同样,我们的信息理论约束可以通过消除任务 - 求核和特定信息的信息来有效地中和对异质数据的敏感性,从而阻止在多种视图情况下两种权衡。为了验证理论上的策略,我们将方法应用于三种不同应用下的各种基准。广泛的定量和定性实验证明了我们对最新方法的方法的有效性。
translated by 谷歌翻译