Federated learning (FL) allows multiple clients cooperatively train models without disclosing local data. However, the existing works fail to address all these practical concerns in FL: limited communication resources, dynamic network conditions and heterogeneous client properties, which slow down the convergence of FL. To tackle the above challenges, we propose a heterogeneity-aware FL framework, called FedCG, with adaptive client selection and gradient compression. Specifically, the parameter server (PS) selects a representative client subset considering statistical heterogeneity and sends the global model to them. After local training, these selected clients upload compressed model updates matching their capabilities to the PS for aggregation, which significantly alleviates the communication load and mitigates the straggler effect. We theoretically analyze the impact of both client selection and gradient compression on convergence performance. Guided by the derived convergence rate, we develop an iteration-based algorithm to jointly optimize client selection and compression ratio decision using submodular maximization and linear programming. Extensive experiments on both real-world prototypes and simulations show that FedCG can provide up to 5.3$\times$ speedup compared to other methods.
translated by 谷歌翻译
Motion prediction is highly relevant to the perception of dynamic objects and static map elements in the scenarios of autonomous driving. In this work, we propose PIP, the first end-to-end Transformer-based framework which jointly and interactively performs online mapping, object detection and motion prediction. PIP leverages map queries, agent queries and mode queries to encode the instance-wise information of map elements, agents and motion intentions, respectively. Based on the unified query representation, a differentiable multi-task interaction scheme is proposed to exploit the correlation between perception and prediction. Even without human-annotated HD map or agent's historical tracking trajectory as guidance information, PIP realizes end-to-end multi-agent motion prediction and achieves better performance than tracking-based and HD-map-based methods. PIP provides comprehensive high-level information of the driving scene (vectorized static map and dynamic objects with motion information), and contributes to the downstream planning and control. Code and models will be released for facilitating further research.
translated by 谷歌翻译
AI的创作(例如诗歌或歌词产生)吸引了行业和学术社区的越来越多的关注,在过去的几年中,许多有前途的模型提出了许多有前途的模型。现有方法通常基于单个和独立的视觉或文本信息估算输出。但是,实际上,人类通常会根据自己的经验进行创作,这可能涉及不同的方式并依次相关。为了模拟这种人类能力,在本文中,我们根据人类的经验来定义和解决一个新颖的AI创建问题。更具体地说,我们研究了如何基于顺序多模式信息生成文本。与以前的作品相比,此任务要困难得多,因为设计的模型必须很好地理解和适应不同模式之间的语义,并以顺序的方式有效地将其转化为输出。为了减轻这些困难,我们首先设计了配备有多模式注意力网络的多通道序列到序列体系结构。为了获得更有效的优化,我们然后提出了针对顺序输入量身定制的课程负抽样策略。为了基准这个问题并证明我们的模型的有效性,我们手动标记了一个新的多模式体验数据集。使用该数据集,我们通过将模型与一系列代表性基线进行比较,进行了广泛的实验,我们可以基于自动和以人为中心的指标来证明模型的显着改进。代码和数据可在:\ url {https://github.com/aman-4-real/mmtg}中获得。
translated by 谷歌翻译
视觉变压器(VIT)已证明了各种与视觉相关的任务的最新性能。 VIT的成功激发了对手对VIT进行后门攻击。尽管传统CNN对后门攻击的脆弱性是众所周知的,但很少研究对VIT的后门攻击。与CNN相比,通过卷积捕获像素的本地特征,通过补丁和关注来提取全球上下文信息。 na \'ively Aftile CNN特异性的后门攻击对VIT只能产生低清洁的数据准确性和低攻击的成功率。在本文中,我们提出了隐形和实用的VIT特定于VIT特定的后门攻击$ TROJVIT $。而不是区域 - 而不是一个区域 - CNN特异性后门攻击使用的明智触发器,Trojvit生成了一个贴片触发器,旨在构建一个由一些脆弱的位置组成的特洛伊木马,该特洛伊特在vit的参数上通过贴片记忆中存储在DRAM内存中的参数,通过贴片显着排名和注意力靶标的损失。最小调整的参数更新以减少特洛伊木马的位数量。一旦攻击者通过翻转脆弱的位将特洛伊木马插入VIT模型中,VIT模型仍会用良性输入产生正常的推理精度。但是,当攻击者将触发触发嵌入到一个输入,VIT模型被迫将输入分类为预定义的目标类。我们表明,使用众所周知的Rowhammer在VIT模型上识别出较少的弱势位可以将模型转换为一个背面的模型。我们在各种VIT模型上对多个数据集进行了广泛的实验。 Trojvit可以通过在ImageNet上翻转$ 345 $的$ 345 $位来将$ 99.64 \%的测试图像分类为目标类。
translated by 谷歌翻译
未校准的光度立体声(UPS)由于未知光带来的固有歧义而具有挑战性。现有的解决方案通过将反射率明确关联到光条件或以监督方式解决光条件来减轻歧义。本文建立了光线线索和光估计之间的隐含关系,并以无监督的方式解决了UPS。关键思想是将反射率表示为四个神经内在字段,即\ ie,位置,光,镜头和阴影,基于神经光场与镜面反射和铸造阴影的光线线索隐含相关联。神经内在字段的无监督,关节优化可以不受训练数据偏差和累积误差,并完全利用所有观察到的像素值的UPS值。我们的方法在常规和具有挑战性的设置下,在公共和自我收集的数据集上获得了优于最先进的UPS方法的优势。该代码将很快发布。
translated by 谷歌翻译
人类姿势估计旨在准确估计各种人类姿势。但是,现有的数据集通常遵循长尾巴的分布,而异常姿势仅占据一小部分,这进一步导致缺乏稀有姿势的多样性。这些问题导致当前姿势估计器的概括能力。在本文中,我们提出了一种简单而有效的数据增强方法,称为姿势转化(后部),以减轻上述问题。具体而言,我们建议姿势转化模块(PTM)创建具有多种姿势并采用姿势歧视者的新训练样本,以确保增强姿势的合理性。此外,我们提出姿势聚类模块(PCM)来测量姿势稀有性并选择“最稀有”姿势,以帮助平衡长尾分布。在三个基准数据集上进行的广泛实验证明了我们方法的有效性,尤其是在稀有姿势上。同样,我们的方法是有效且易于实施的,可以轻松地集成到现有姿势估计模型的训练管道中。
translated by 谷歌翻译
对比学习在图表学习领域表现出了巨大的希望。通过手动构建正/负样本,大多数图对比度学习方法依赖于基于矢量内部产品的相似性度量标准来区分图形表示样品。但是,手工制作的样品构建(例如,图表的节点或边缘的扰动)可能无法有效捕获图形的固有局部结构。同样,基于矢量内部产品的相似性度量标准无法完全利用图形的局部结构来表征图差。为此,在本文中,我们提出了一种基于自适应子图生成的新型对比度学习框架,以实现有效且强大的自我监督图表示学习,并且最佳传输距离被用作子绘图之间的相似性度量。它的目的是通过捕获图的固有结构来生成对比样品,并根据子图的特征和结构同时区分样品。具体而言,对于每个中心节点,通过自适应学习关系权重与相应邻域的节点,我们首先开发一个网络来生成插值子图。然后,我们分别构建来自相同和不同节点的子图的正和负对。最后,我们采用两种类型的最佳运输距离(即Wasserstein距离和Gromov-Wasserstein距离)来构建结构化的对比损失。基准数据集上的广泛节点分类实验验证了我们的图形对比学习方法的有效性。
translated by 谷歌翻译
单眼3D对象检测是低成本自主剂感知其周围环境的常见解决方案。单眼检测已分为两类:(1)直接从正面视图图像推断3D边界框的直接方法; (2)3D中间表示方法将图像映射到3D空间以进行后续3D检测。第二类不仅脱颖而出,不仅是因为3D检测锻造的伪装在更有意义和代表性的特征的怜悯下,而且还因为新兴的SOTA端到端的预测和计划范式需要从感知中获得鸟类视图的特征图管道。但是,在转换为3D表示形式时,这些方法不能保证对象在潜在空间中的隐式方向和位置与在欧几里得空间中明确观察到的物体一致,这会损害模型性能。因此,我们认为,隐式和显式特征的一致性很重要,并提出了一种新颖的单眼检测方法,名为CIEF,并具有第一个方向感知的图像主链,以消除随后的3D表示中隐式和显式特征的差异。作为第二个贡献,我们引入了射线注意机制。与以前的方法相反,该方法沿着投影射线重复特征或依靠另一个Intermedia froustum Point云,我们将图像特征直接转换为具有稳定特征的Voxel表示。我们还提出了一个手工制作的高斯位置编码函数,该函数的表现优于正弦的编码函数,但保持连续的好处。 CIEF在提交时间的3D和BEV检测基准的所有报告的方法中排名第一。
translated by 谷歌翻译
用于对象检测的常规知识蒸馏(KD)方法主要集中于同质的教师学生探测器。但是,用于部署的轻质检测器的设计通常与高容量探测器显着不同。因此,我们研究了异构教师对之间的KD,以进行广泛的应用。我们观察到,异质KD(异核KD)的核心难度是由于不同优化的方式而导致异质探测器的主链特征之间的显着语义差距。常规的同质KD(HOMO-KD)方法遭受了这种差距的影响,并且很难直接获得异性KD的令人满意的性能。在本文中,我们提出了异助剂蒸馏(Head)框架,利用异质检测头作为助手来指导学生探测器的优化以减少此间隙。在头上,助手是一个额外的探测头,其建筑与学生骨干的老师负责人同质。因此,将异源KD转变为同性恋,从而可以从老师到学生的有效知识转移。此外,当训练有素的教师探测器不可用时,我们将头部扩展到一个无教师的头(TF-Head)框架。与当前检测KD方法相比,我们的方法已取得了显着改善。例如,在MS-COCO数据集上,TF-Head帮助R18视网膜实现33.9 MAP(+2.2),而Head将极限进一步推到36.2 MAP(+4.5)。
translated by 谷歌翻译
$ t_ {1 \ rho} $映射是一种有希望的定量MRI技术,用于对组织性质的非侵入性评估。基于学习的方法可以从减少数量的$ t_ {1 \ rho} $加权图像中映射$ t_ {1 \ rho} $,但需要大量的高质量培训数据。此外,现有方法不提供$ t_ {1 \ rho} $估计的置信度。为了解决这些问题,我们提出了一个自我监督的学习神经网络,该网络使用学习过程中的放松约束来学习$ t_ {1 \ rho} $映射。为$ t_ {1 \ rho} $量化网络建立了认知不确定性和态度不确定性,以提供$ t_ {1 \ rho} $映射的贝叶斯置信度估计。不确定性估计还可以使模型规范化,以防止其学习不完美的数据。我们对52例非酒精性脂肪肝病患者收集的$ T_ {1 \ rho} $数据进行了实验。结果表明,我们的方法优于$ t_ {1 \ rho} $量化肝脏的现有方法,使用少于两个$ t_ {1 \ rho} $加权图像。我们的不确定性估计提供了一种可行的方法,可以建模基于自我监督学习的$ t_ {1 \ rho} $估计的信心,这与肝脏中的现实$ t_ {1 \ rho} $成像是一致的。
translated by 谷歌翻译