Deep learning-based physical-layer secret key generation (PKG) has been used to overcome the imperfect uplink/downlink channel reciprocity in frequency division duplexing (FDD) orthogonal frequency division multiplexing (OFDM) systems. However, existing efforts have focused on key generation for users in a specific environment where the training samples and test samples obey the same distribution, which is unrealistic for real world applications. This paper formulates the PKG problem in multiple environments as a learning-based problem by learning the knowledge such as data and models from known environments to generate keys quickly and efficiently in multiple new environments. Specifically, we propose deep transfer learning (DTL) and meta-learning-based channel feature mapping algorithms for key generation. The two algorithms use different training methods to pre-train the model in the known environments, and then quickly adapt and deploy the model to new environments. Simulation results show that compared with the methods without adaptation, the DTL and meta-learning algorithms both can improve the performance of generated keys. In addition, the complexity analysis shows that the meta-learning algorithm can achieve better performance than the DTL algorithm with less time, lower CPU and GPU resources.
translated by 谷歌翻译
神经隐式表示最近引起了机器人界的广泛关注,因为它们具有表现力,连续和紧凑。然而,基于稀疏激光雷达输入​​的城市规模增量隐式密集映射仍然是一个不足的挑战。为此,我们成功地构建了第一个城市规模的增量神经映射系统,该系统具有由环境级别和实例级建模组成的全景表示。给定稀疏发光点云流,它维护了一个动态生成模型,该模型将3D坐标映射到签名的距离字段(SDF)值。为了解决城市规模空间中不同级别的几何信息的困难,我们提出了一种定制的三层抽样策略,以动态采样全球,本地和近乎表面的域。同时,为了实现高保真度映射,引入了特定于类别的先验,以更好地对几何细节进行建模,从而导致全景表示。我们使用定量和定性结果评估了公共Semantickitti数据集,并证明了新提出的三层抽样策略和泛型表示的重要性。代码和数据将公开可用。
translated by 谷歌翻译
神经辐射场(NERF)在代表具有高分辨率细节和有效记忆的复杂3D场景方面取得了巨大成功。然而,当前基于NERF的姿势估计量没有初始姿势预测,并且在优化过程中易于局部优势。在本文中,我们介绍了纬度:全球定位,具有截短的动态低通滤波器,该过滤器引入了城市规模的NERF中的两阶段定位机制。在识别阶段,我们通过训练有素的NERFS生成的图像来训练回归器,该图像为全球本地化提供了初始值。在姿势优化阶段,我们通过直接优化切线平面上的姿势来最大程度地减少观察到的图像之间的残差和渲染图像。为了避免收敛到局部最优,我们引入了一个截短的动态低通滤波器(TDLF),以进行粗到细小的姿势注册。我们在合成和现实世界中评估了我们的方法,并显示了其在大规模城市场景中高精度导航的潜在应用。代码和数据将在https://github.com/jike5/latitude上公开获取。
translated by 谷歌翻译
对于人类,使用视觉信号了解对象之间的关系是直观的。但是,对于人工智能,这项任务仍然具有挑战性。研究人员在研究语义关系检测方面取得了重大进展,例如人类对象的相互作用检测和视觉关系检测。我们将视觉关系的研究从语义到几何发展迈进了一步。在具体上,我们预测相对阻塞和相对距离关系。但是,从单个图像中检测这些关系具有挑战性。强制集中注意特定于任务的区域在成功检测这些关系方面起着关键作用。在这项工作中,(1)我们提出了一种新颖的三年级架构,作为集中注意力的基础架构。 2)我们使用广义交叉框预测任务有效地指导我们的模型专注于遮挡特定区域; 3)我们的模型在距离感知关系检测方面实现了新的最新性能。具体而言,我们的模型将F1分数从33.8%提高到38.6%,并将闭塞F1得分从34.4%提高到41.2%。我们的代码公开可用。
translated by 谷歌翻译
离线模仿学习(IL)是从没有奖励标签的专家演示中解决决策问题的强大方法。由于协变量转移,现有的离线IL方法在有限的专家数据下遭受严重的性能变性。但是,包括学习的动力学模型可以潜在地改善专家数据的状态行动空间覆盖范围,但是,它也面临着诸如模型近似/概括/概括性错误和推出数据的次级优势之类的挑战性问题。在本文中,我们提出了基于歧视者指导的基于模型的离线模仿学习(DMIL)框架,该框架引入了一个歧视者,以同时区分模型推出数据的动力学正确性和次优性与真实专家示范。 DMIL采用了一种新颖的合作对抗学习策略,该策略使用歧视者指导和融合了政策和动态模型的学习过程,从而改善了模型性能和鲁棒性。当演示包含大量次优数据时,我们的框架也可以扩展到案例。实验结果表明,与小型数据集下的最新离线IL方法相比,DMIL及其扩展具有出色的性能和鲁棒性。
translated by 谷歌翻译
在没有高保真模拟环境的情况下,学习有效的加强学习(RL)政策可以解决现实世界中的复杂任务。在大多数情况下,我们只有具有简化动力学的不完善的模拟器,这不可避免地导致RL策略学习中的SIM到巨大差距。最近出现的离线RL领域为直接从预先收集的历史数据中学习政策提供了另一种可能性。但是,为了达到合理的性能,现有的离线RL算法需要不切实际的离线数据,并具有足够的州行动空间覆盖范围进行培训。这提出了一个新问题:是否有可能通过在线RL中的不完美模拟器中的离线RL中的有限数据中的学习结合到无限制的探索,以解决两种方法的缺点?在这项研究中,我们提出了动态感知的混合离线和对线增强学习(H2O)框架,以为这个问题提供肯定的答案。 H2O引入了动态感知的政策评估方案,该方案可以自适应地惩罚Q函数在模拟的状态行动对上具有较大的动态差距,同时也允许从固定的现实世界数据集中学习。通过广泛的模拟和现实世界任务以及理论分析,我们证明了H2O与其他跨域在线和离线RL算法相对于其他跨域的表现。 H2O提供了全新的脱机脱机RL范式,该范式可能会阐明未来的RL算法设计,以解决实用的现实世界任务。
translated by 谷歌翻译
最近的进展表明,可以通过像欧妮线方程等物理限制来实现半监督隐式表示学习。然而,由于其空间不同的稀疏性,该方案尚未成功地用于LiDAR点云数据。在本文中,我们开发了一种新颖的制定,条件在局部形状嵌入上的半监督隐式功能。它利用稀疏卷积网络的强大表示力,以产生形状感知密集特征卷,同时仍允许半监控符号函数学习,而不知道自由空间的确切值。具有广泛的定量和定性结果,我们证明了这种新的学习系统的内在属性及其在现实世界道路场景中的用途。值得注意的是,我们在Semantickitti将iou从26.3%到51.0%。此外,我们探索了两个范式来集成语义标签预测,实现隐式语义完成。可以在https://github.com/open-air-sun/sisc访问代码和模型。
translated by 谷歌翻译
基于变压器的神经模型在许多AI应用中使用。培训这些模型很昂贵,因为它需要大量的GPU资源和较长的持续时间。这是具有挑战性的,因为诸如句子之类的典型数据具有可变的长度,而变压器的计算模式比卷积神经网络更为复杂。现有系统要么仅专注于模型推理,要么仅针对BERT样编码器模型进行优化。在本文中,我们提出了LightSeq2,该系统是为GPU上的一般变压器模型加速培训的系统。我们提出了一系列针对变压器模型的特定计算流量和内存访问模式量身定制的GPU优化技术。 LightSeq2支持许多模型体系结构,包括BERT(仅编码),GPT(仅解码器),变压器(编码器编码器)和视觉变压器。我们对各种模型和基准测试的实验表明,LightSeq2始终比不同GPU上的先前系统更快(1.4-3.5倍)。特别是,与大型公共机器翻译基准(WMT14英语 - 德国人)上的现有系统相比,它获得了308%的培训速度。
translated by 谷歌翻译
我们解决了3D室内场景的语言引导语义风格转移的新问题。输入是一个3D室内场景网格和几个描述目标场景的短语。首先,通过多层感知器将3D顶点坐标映射到RGB残基。其次,通过针对室内场景量身定制的视点采样策略将彩色的3D网格分化为2D图像。第三,通过预训练的视觉模型将渲染的2D图像与短语进行比较。最后,错误被反向传播到多层感知器,以更新与某些语义类别相对应的顶点颜色。我们对公共扫描仪和场景数据集进行了大规模定性分析和A/B用户测试。我们证明:(1)视觉令人愉悦的结果,这些结果可能对多媒体应用有用。 (2)从与人类先验一致的观点渲染3D​​室内场景很重要。 (3)合并语义可显着提高样式转移质量。 (4)HSV正则化项会导致结果与输入更一致,并且通常评分更好。代码和用户研究工具箱可从https://github.com/air-discover/lasst获得
translated by 谷歌翻译
组织分割是病理检查的主要主机,而手动描述则过于繁重。为了协助这一耗时和主观的手动步骤,研究人员已经设计了自动在病理图像中分割结构的方法。最近,自动化机器和基于深度学习的方法主导了组织分割研究。但是,大多数基于机器和深度学习的方法都是使用大量培训样本进行监督和开发的,其中PixelWise注释很昂贵,有时无法获得。本文通过将端到端的深层混合模型与有限的指标集成以获取准确的语义组织分割,从而引入了一种新颖的无监督学习范式。该约束旨在在计算优化函数期间集中深层混合模型的组成部分。这样做,可以大大减少当前无监督学习方法中常见的多余或空的班级问题。通过对公共和内部数据集的验证,拟议的深度约束高斯网络在组织细分方面取得了更好的性能(Wilcoxon签名级测试)更好的性能(平均骰子得分分别为0.737和0.735),具有改善与其他现有的无监督分割方法相比。此外,该方法与完全监督的U-NET相比,提出的方法具有相似的性能(P值> 0.05)。
translated by 谷歌翻译