多代理协作感知可以通过使代理商能够通过交流相互共享互补信息来显着升级感知表现。它不可避免地会导致感知表现与沟通带宽之间的基本权衡。为了解决这个瓶颈问题,我们提出了一个空间置信度图,该图反映了感知信息的空间异质性。它使代理只能在空间上共享稀疏而感知的关键信息,从而有助于沟通。基于这张新型的空间置信度图,我们提出了2Comm,即沟通有效的协作感知框架。其中2Comm具有两个不同的优势:i)它考虑了实用的压缩,并使用较少的沟通来通过专注于感知至关重要的领域来实现更高的感知表现; ii)它可以通过动态调整涉及通信的空间区域来处理不同的通信带宽。要评估2comm的位置,我们考虑了在现实世界和模拟方案中使用两种模式(相机/激光镜头)和两种代理类型(CAR/无人机)的3D对象检测:OPV2V,v2x-sim,dair-v2x和我们的原始的Coperception-uavs。其中2comm始终优于先前的方法;例如,它实现了超过$ 100,000 \ times $较低的通信量,并且在OPV2V上仍然优于脱颖而出和v2x-vit。我们的代码可在https://github.com/mediabrain-sjtu/where2comm上找到。
translated by 谷歌翻译
我们介绍了第一个基于学习的可重建性预测指标,以改善使用无人机的大规模3D城市场景获取的视图和路径计划。与以前的启发式方法相反,我们的方法学习了一个模型,该模型明确预测了从一组观点重建3D城市场景的能力。为了使这种模型可训练并同时适用于无人机路径计划,我们在培训期间模拟了基于代理的3D场景重建以设置预测。具体而言,我们设计的神经网络经过训练,可以预测场景的重构性,这是代理几何学的函数,一组观点,以及在飞行中获得的一系列场景图像。为了重建一个新的城市场景,我们首先构建了3D场景代理,然后依靠我们网络的预测重建质量和不确定性度量,基于代理几何形状,以指导无人机路径计划。我们证明,与先前的启发式措施相比,我们的数据驱动的可重建性预测与真实的重建质量更加紧密相关。此外,我们学到的预测变量可以轻松地集成到现有的路径计划中,以产生改进。最后,我们根据学习的可重建性设计了一个新的迭代视图计划框架,并在重建合成场景和真实场景时展示新计划者的卓越性能。
translated by 谷歌翻译
动机,情感和行动是人类活动中相关的基本因素。尽管长期以来一直认为动机和情感是探索人们如何在人类活动中采取行动的核心,但几乎没有研究支持分析人类精神状态与行动之间的关系。我们介绍了第一项研究,该研究研究了基于语言的人类活动中建模动机,情感和行动的生存能力,即逗号(人类活动的认知框架)。在逗号的指导下,我们定义了三个自然语言处理任务(情感理解,动机理解和有条件的动作生成),并通过自动从故事常识中提取样本来建立一个具有挑战性的数据集冰雹。 NLP应用程序的实验结果证明了建模关系的有效性。此外,与现有方法相比,受逗号启发的模型可以更好地揭示动机,情感和行动之间的基本关系。
translated by 谷歌翻译
尽管利用张量低级别先验的方法是在高维数据处理中蓬勃发展并获得了令人满意的性能,但它们在动态磁共振(MR)图像重建中的应用受到限制。在本文中,我们集中于基于快速傅立叶变换(FFT)的张量奇异值分解(T-SVD),并且仅提供了FFT域中的确定且有限的张量低级别先验密切的数据和FFT域匹配。通过将FFT推广到转换的T-SVD的任意统一转换并提出了转换的张量核标准(TTNN),我们引入了一个基于TTNN的灵活模型,能够利用张量的低量量,在变换的域中的张量低级别。更大的转换空间并精心设计了基于乘数交替方向方法(ADMM)的迭代优化算法,该算法进一步将其进一步展开为基于模型的深层展开的重建网络,以学习转换后的张量低率之前(t $^2) $ LR-NET)。卷积神经网络(CNN)被合并到T $^2 $ LR-NET中,以从动态MR Image数据集中学习最匹配的转换。展开的重建网络还通过利用CNN提取的特征域中的低级别先验来提供有关低级先验利用率的新观点。两个心脏CINE MR数据集的实验结果表明,与基于最新优化和基于网络的最先进的基于网络的方法相比,提出的框架可以提供改进的恢复结果。
translated by 谷歌翻译
在视频中检测动作已被广泛应用于设备应用程序。实用的设备视频始终没有动作和背景。希望既可以识别动作类别又定位动作发生的时间位置。这样的任务称为“时间动作位置”(TAL),该位置总是在收集和标记多个未修剪视频的云上训练。希望TAL模型不断地从新数据中学习,这可以直接提高动作检测精度,同时保护客户的隐私。但是,训练TAL模型是不平凡的,因为需要具有时间注释的大量视频样本。但是,逐帧的注释视频非常耗时且昂贵。尽管已经提出了仅使用视频级标签的未修剪视频来学习弱监督的TAL(W-TAL),但这种方法也不适合在设备学习方案中。在实用的设备学习应用中,在流中收集数据。将如此长的视频流分为多个视频片段需要大量的人为努力,这阻碍了将TAL任务应用于现实的设备学习应用程序的探索。为了使W-TAL模型能够从长时间的未修剪流视频中学习,我们提出了一种有效的视频学习方法,可以直接适应新的环境。我们首先提出了一种自适应视频划分方法,采用基于对比分数的段合并方法将视频流转换为多个段。然后,我们探索TAL任务上的不同采样策略,以要求尽可能少的标签。据我们所知,我们是直接从设备的长视频流中学习的首次尝试。
translated by 谷歌翻译
作为一种有希望的隐私机器学习方法,联合学习(FL)可以使客户跨客户培训,而不会损害其机密的本地数据。但是,现有的FL方法遇到了不均分布数据的推理性能低的问题,因为它们中的大多数依赖于联合平均(FIDAVG)基于联合的聚合。通过以粗略的方式平均模型参数,FedAvg将局部模型的个体特征黯然失色,这极大地限制了FL的推理能力。更糟糕的是,在每一轮FL培训中,FedAvg向客户端向客户派遣了相同的初始本地模型,这很容易导致对最佳全局模型的局限性搜索。为了解决上述问题,本文提出了一种新颖有效的FL范式,名为FEDMR(联合模型重组)。与传统的基于FedAvg的方法不同,FEDMR的云服务器将收集到的本地型号的每一层层混合,并重组它们以实现新的模型,以供客户端培训。由于在每场FL比赛中进行了细粒度的模型重组和本地培训,FEDMR可以迅速为所有客户找出一个全球最佳模型。全面的实验结果表明,与最先进的FL方法相比,FEDMR可以显着提高推理准确性而不会引起额外的通信开销。
translated by 谷歌翻译
视觉和听觉信息对于确定视频中的显着区域都是有价值的。深度卷积神经网络(CNN)展示了应对视听显着性预测任务的强大能力。由于各种因素,例如拍摄场景和天气,源训练数据和目标测试数据之间通常存在适度的分布差异。域差异导致CNN模型目标测试数据的性能降解。本文提前尝试解决视听显着性预测的无监督域适应问题。我们提出了一种双重域交流学习算法,以减轻源数据和目标数据之间的域差异。首先,建立了一个特定的域歧视分支,以对齐听觉功能分布。然后,这些听觉功能通过跨模式自我发项模块融合到视觉特征中。设计了其他域歧视分支,以减少视觉特征的域差异和融合视听特征所隐含的视听相关性的差异。公共基准测试的实验表明,我们的方法可以减轻域差异引起的性能降解。
translated by 谷歌翻译
视觉关系检测旨在检测图像中对象之间的相互作用。但是,由于对象和相互作用的多样性,此任务遭受了组合爆炸的影响。由于与同一对象相关的相互作用是依赖的,因此我们探讨了相互作用的依赖性以减少搜索空间。我们通过交互图明确地对象和交互对象进行建模,然后提出一种消息式风格的算法来传播上下文信息。因此,我们称为建议的方法神经信息传递(NMP)。我们进一步整合了语言先验和空间线索,以排除不切实际的互动并捕获空间互动。两个基准数据集的实验结果证明了我们提出的方法的优越性。我们的代码可在https://github.com/phyllish/nmp上找到。
translated by 谷歌翻译
配备摄像机的无人机可以显着增强人类在3D空间中具有显着的可操作性,从而使人类感知世界的能力。具有讽刺意味的是,无人机的对象检测始终是在2D图像空间中进行的,这从根本上限制了其理解3D场景的能力。此外,由于缺乏变形模型,无法直接应用于为自动驾驶开发的现有3D对象检测方法,这对于具有敏感变形和小物体的遥远空中透视至关重要。为了填补空白,这项工作提出了一个名为DVDET的双视检测系统,以在2D图像空间和3D物理空间中实现空中单眼对象检测。为了解决严重的视图变形问题,我们提出了一个可训练的可训练的可训练的转换模块,该模块可以从无人机的角度正确地扭曲信息到BEV。与汽车的单眼方法相比,我们的转换包括一个可学习的可变形网络,可显式修改严重的偏差。为了应对数据集挑战,我们提出了一个名为AM3D-SIM的新的大规模模拟数据集,该数据集由AirSim和Carla的共模制成,以及一个名为AM3D-REAL的新的现实世界空中数据集,由DJI Matrice 300 RTK收集,在两个数据集中,都提供了3D对象检测的高质量注释。广泛的实验表明,i)空中单眼3D对象检测是可行的; ii)在仿真数据集中预先训练的模型受益于现实世界的性能,iii)DVDET也有益于汽车的单眼3D对象检测。为了鼓励更多的研究人员调查该领域,我们将在https://sjtu-magic.github.io/dataset/am3d/中发布数据集和相关代码。
translated by 谷歌翻译
现有的自动驾驶管道将感知模块与预测模块分开。这两个模块通过手工挑选的功能(例如代理框和轨迹)作为接口进行通信。由于这种分离,预测模块仅从感知模块接收部分信息。更糟糕的是,感知模块的错误会传播和积累,从而对预测结果产生不利影响。在这项工作中,我们提出了VIP3D,这是一种视觉轨迹预测管道,利用原始视频的丰富信息来预测场景中代理的未来轨迹。VIP3D在整个管道中采用稀疏的代理查询,使其完全可区分和可解释。此外,我们为这项新型的端到端视觉轨迹预测任务提出了评估度量。Nuscenes数据集的广泛实验结果表明,VIP3D在传统管道和以前的端到端模型上的强劲性能。
translated by 谷歌翻译