虽然最先进的视觉变压器模型实现了图像分类的有希望的结果,但它们是非常昂贵的并且需要许多GFLOPS。尽管可以通过减少网络中的令牌数量来降低视觉变压器的GFLOPS,但是没有对所有输入图像的最佳设置。因此,在这项工作中,我们引入了可分辨率的无参数自适应令牌采样(ATS)模块,可以插入任何现有的视觉变压器架构。通过评分和自适应采样重要令牌,在视觉变压器上实现视觉变压器。结果,令牌的数量不再静态,但是每个输入图像都变化。通过将ATS集成为当前变压器块内的附加层,我们可以将它们转换为具有自适应令牌的更高效的视觉变压器。由于ATS是一种无参数模块,因此它可以作为即插即用模块添加到从货架上的预制视觉变压器中,从而在没有任何额外训练的情况下减少他们的GFLOP。但是,由于其可分辨动的设计,人们还可以培训配有ATS的视觉变压器。通过将其添加到多个最先进的视觉变压器,我们在想象成数据集上进行评估。我们的评估表明,通过将计算成本(GFLOPS)降低37%,在保留准确性时,该模块通过降低了37%,提高了最先进的模块。
translated by 谷歌翻译
基于视频的人重新识别(RE-ID)是视觉监控系统中的重要技术,旨在匹配由不同摄像机捕获的人们的视频片段。现有方法主要基于卷积神经网络(CNN),其构建块一次处理局部邻居像素,或者当3D卷绕用于建模时间信息时,遭受由人移动引起的未对准问题。在本文中,我们建议克服具有以人为本的图表方法的正常卷曲的局限性。具体地,提取位于人关节键点的特征并将其作为空间时间图连接。然后通过使用图形卷积网络(GCN)从连接节点传递的消息更新这些关键点特征。在培训期间,GCN可以附加到任何基于CNN的人RE-ID模型,以协助在特征映射上进行表示学习,同时可以在培训后丢弃以获得更好的推广速度。我们的方法通过生成的人关键点和新注释的数据集:posetrackreid,对火星数据集的基于CNN的基线模型进行了重大改进。它还在与现有作品相比,在前1个精度和平均平均精度方面定义了新的最先进的方法。
translated by 谷歌翻译
LIDAR数据的实时语义分割对于自动驾驶车辆至关重要,这通常配备有嵌入式平台并具有有限的计算资源。直接在点云上运行的方法使用复杂的空间聚合操作,这非常昂贵,难以优化嵌入式平台。因此,它们不适用于嵌入式系统的实时应用。作为替代方案,基于投影的方法更有效并且可以在嵌入式平台上运行。然而,目前基于最先进的投影的方法不会达到与基于点的方法相同的准确性并使用数百万个参数。因此,我们提出了一种基于投影的方法,称为多尺度交互网络(Minet),这是非常有效和准确的。该网络使用具有不同尺度的多个路径并余额尺度之间的计算资源。尺度之间的额外密集相互作用避免了冗余计算并使网络高效。在准确度,参数数量和运行时,所提出的网络以基于点为基础的基于图像和基于投影的方法。此外,网络处理在嵌入式平台上每秒超过24个扫描,该嵌入式平台高于激光雷达传感器的帧。因此,网络适用于自动车辆。
translated by 谷歌翻译
许多基于点的语义分割方法是为室内场景设计的,但如果它们被应用于户外环境中的LIDAR传感器捕获的点云,则他们挣扎。为了使这些方法更有效和坚固,使得它们可以处理LIDAR数据,我们介绍了重新建立基于3D点的操作的一般概念,使得它们可以在投影空间中运行。虽然我们通过三个基于点的方法显示了重新计算的版本速度快300到400倍,但实现了更高的准确性,但我们还证明了重新制定基于3D点的操作的概念允许设计统一益处的新架构基于点和基于图像的方法。作为示例,我们介绍一种网络,该网络将基于重新的3D点的操作集成到2D编码器 - 解码器架构中,该架构融合来自不同2D尺度的信息。我们评估了四个具有挑战性的语义LIDAR点云分割的方法,并显示利用基于2D图像的操作的重新推出的基于3D点的操作实现了所有四个数据集的非常好的结果。
translated by 谷歌翻译
具有多核光纤(MCF)无透镜微观镜片的定制光的产生广泛用于生物医学。然而,用于这种应用的计算机生成的全息图(CGHS)通常由迭代算法产生,这需要高计算工作,限制在体内光源刺激和光纤细胞操纵中的高级应用。纤维芯的随机和离散分布对CGHS引起了强烈的空间偏大,因此,非常需要一种能够快速生成MCF的量身定制的CGHS的方法。我们展示了一种新型阶段编码器深神经网络(Coreenet),它可以在近视频速率下为MCF产生精确定制的CGHS。模拟表明,与传统的CGH技术相比,CoreNet可以将计算时间加速两个大小,并增加产生的光场的保真度。首次,实时生成的定制CGHS在飞行中加载到仅相位的SLM,用于通过MCF微内窥镜在实验中产生动态光场。这铺设了实时细胞旋转的途径和几种需要在生物医学中实时高保真光传递的几种进一步的应用。
translated by 谷歌翻译
这项工作介绍了斯坦福大学的Rendezvous和光学导航(Tron)的机器人测试的最新进展 - 这是一个能够验证空间载光学导航机器学习算法的第一个机器人试验。 Tron设施包括两个6度自由的Kuka机器人武器和一组Vicon运动轨道摄像机,以重新配置相机和目标样机模型之间的任意相对姿势。该设施包括多个地球玻璃灯箱和阳光灯,以重建高保真星源照明条件。在该设施概述后,该工作详细说明了多源校准程序,使物体与相机之间的相对姿势估计,具有毫米级位置和跨越级别的方向精度。最后,使用在合成图像上预先培训的卷积神经网络(CNN)进行合成和Tron模拟成像的比较分析。结果显示了CNN性能相当大的差距,表明Tron模拟图像可用于验证从计算机图形学更容易访问的合成图像训练的任何机器学习算法的鲁棒性。
translated by 谷歌翻译
本文档介绍了生成连续动态优化问题实例的广义移动峰值基准(GMPB)。GMPB产生的景观是通过组装多种可控特性的多种可控特性来构建的,该景观包括从单峰的高度多峰,对称的,对称,平滑地高度不规则,以及各种可变的相互作用和不均匀程度。在本文档中,我们解释了如何通过GMPB的不同参数设置生成这些特征。还解释了GMPB的MATLAB源代码。
translated by 谷歌翻译