事件摄像机是受到生物启发的视觉传感器,异步代表像素级亮度随着事件流而变化。基于事件的单眼多视图立体声(EMV)是一种利用事件流以估算具有已知轨迹的半密度3D结构的技术。对于基于事件的单眼大满贯,这是一项关键任务。但是,所需的密集计算工作负载使其对于嵌入式平台上的实时部署而具有挑战性。在本文中,通过实现最关键和最耗时的阶段,包括事件反向预测和FPGA上的体积射线计数,提出Eventor作为快速有效的EMV加速器。高度平行且完全管道的处理元素是通过FPGA专门设计的,并与嵌入式臂集成为异质系统,以改善吞吐量并减少记忆足迹。同时,通过重新安排,近似计算和混合数据量化,将EMVS算法重新制定为更硬件的方式。戴维斯数据集的评估结果表明,与英特尔i5 CPU平台相比,Eventor的能源效率最高可提高$ 24 \ times $。
translated by 谷歌翻译
事件摄像机是由生物启发的传感器,比传统摄像机具有优势。它们不同步,用微秒的分辨率对场景进行采样,并产生亮度变化。这种非常规的输出引发了新型的计算机视觉方法,以释放相机的潜力。我们解决了SLAM的基于事件的立体3D重建问题。大多数基于事件的立体声方法都试图利用相机跨相机的高时间分辨率和事件同时性,以建立匹配和估计深度。相比之下,我们研究了如何通过融合有效的单眼方法来融合差异空间图像(DSIS)来估计深度。我们开发融合理论,并将其应用于设计产生最先进结果的多相机3D重建算法,正如我们通过与四种基线方法进行比较并在各种可用数据集上进行测试的确认。
translated by 谷歌翻译
基于事件的视觉传感器基于视觉场景的变化产生具有高时间分辨率的异步事件流。随着事件的生成,这些传感器的特性允许精确快速地计算光学流量。对于从事件数据计算光学流的现有解决方案未能由于孔径问题而无法捕获真正的运动方向,请勿使用传感器的高时间分辨率,或者在嵌入式平台上实时运行太昂贵。在这项研究中,我们首先提供了我们之前的算法,武器(光圈稳健的多尺度流)的更快版本。新的优化软件版本(农场)显着提高了传统CPU的吞吐量。此外,我们呈现危害,一种农场算法的硬件实现,允许实时计算低功耗,嵌入式平台上的真实流量。建议的危害架构针对混合系统的片上器件,旨在最大限度地提高可配置性和吞吐量。硬件架构和农场算法是用异步的神经形态处理而开发的,放弃了事件帧的常用使用,而是仅使用不同事件的小历史运行,允许独立于传感器分辨率进行缩放。与现有方法相比,处理范例的这种变化将流量方向的估计变为高达73%,并在选择的基准配置上显示出危害最高为1.21 Mevent / s的危害。此吞吐量使实时性能能够实现迄今为止迄今为止最快速的基于活动的事件的光流的实现。
translated by 谷歌翻译
LIDAR(光检测和测距)SLAM(同时定位和映射)作为室内清洁,导航和行业和家庭中许多其他有用应用的基础。从一系列LIDAR扫描,它构建了一个准确的全球一致的环境模型,并估计它内部的机器人位置。 SLAM本质上是计算密集的;在具有有限的加工能力的移动机器人上实现快速可靠的SLAM系统是一个具有挑战性的问题。为了克服这种障碍,在本文中,我们提出了一种普遍,低功耗和资源有效的加速器设计,用于瞄准资源限制的FPGA。由于扫描匹配位于SLAM的核心,所提出的加速器包括可编程逻辑部分上的专用扫描匹配核心,并提供软件接口以便于使用。我们的加速器可以集成到各种SLAM方法,包括基于ROS(机器人操作系统) - 基于ROS(机器人操作系统),并且用户可以切换到不同的方法而不修改和重新合成逻辑部分。我们将加速器集成为三种广泛使用的方法,即扫描匹配,粒子滤波器和基于图形的SLAM。我们使用现实世界数据集评估资源利用率,速度和输出结果质量方面的设计。 Pynq-Z2板上的实验结果表明,我们的设计将扫描匹配和循环闭合检测任务加速高达14.84倍和18.92倍,分别在上述方法中产生4.67倍,4.00倍和4.06倍的整体性能改进。我们的设计能够实现实时性能,同时仅消耗2.4W并保持精度,可与软件对应物乃至最先进的方法相当。
translated by 谷歌翻译
在光场压缩中,基于图的编码功能强大,可以利用沿着不规则形状的信号冗余并获得良好的能量压实。然而,除了高度复杂性到处理高维图外,它们的图形构造方法对观点之间的差异信息的准确性非常敏感。在计算机软件生成的现实世界光场或合成光场中,由于渐晕效果和两种类型的光场视图之间的视图之间的巨大差异,将视差信息用于超射线投影可能会遭受不准确性。本文介绍了两种新型投影方案,导致差异信息的错误较小,其中一个投影方案还可以显着降低编码器和解码器的时间计算。实验结果表明,与原始投影方案和基于HEVC或基于JPEG PLENO的编码方法相比,使用这些建议可以大大增强超级像素的投影质量,以及率延伸性能。
translated by 谷歌翻译
Figure 1: Example output from our system, generated in real-time with a handheld Kinect depth camera and no other sensing infrastructure. Normal maps (colour) and Phong-shaded renderings (greyscale) from our dense reconstruction system are shown. On the left for comparison is an example of the live, incomplete, and noisy data from the Kinect sensor (used as input to our system).
translated by 谷歌翻译
使用FASS-MVS,我们提出了一种具有表面感知半全局匹配的快速多视图立体声的方法,其允许从UAV捕获的单眼航空视频数据中快速深度和正常地图估计。反过来,由FASS-MVS估计的数据促进在线3D映射,这意味着在获取或接收到图像数据时立即和递增地生成场景的3D地图。 FASS-MVS由分层处理方案组成,其中深度和正常数据以及相应的置信度分数以粗略的方式估计,允许有效地处理由倾斜图像所固有的大型场景深度低无人机。实际深度估计采用用于致密多图像匹配的平面扫描算法,以产生深度假设,通过表面感知半全局优化来提取实际深度图,从而减少了SGM的正平行偏压。给定估计的深度图,然后通过将深度图映射到点云中并计算狭窄的本地邻域内的普通向量来计算像素 - 方面正常信息。在彻底的定量和消融研究中,我们表明,由FASS-MV计算的3D信息的精度接近离线多视图立体声的最先进方法,误差甚至没有一个幅度而不是科麦。然而,同时,FASS-MVS的平均运行时间估计单个深度和正常地图的距离小于ColMAP的14%,允许在1-中执行全高清图像的在线和增量处理2 Hz。
translated by 谷歌翻译
本文提出了一种新颖的方法,用于在具有复杂拓扑结构的地下领域的搜索和救援行动中自动合作。作为CTU-Cras-Norlab团队的一部分,拟议的系统在DARPA SubT决赛的虚拟轨道中排名第二。与专门为虚拟轨道开发的获奖解决方案相反,该建议的解决方案也被证明是在现实世界竞争极为严峻和狭窄的环境中飞行的机上实体无人机的强大系统。提出的方法可以使无缝模拟转移的无人机团队完全自主和分散的部署,并证明了其优于不同环境可飞行空间的移动UGV团队的优势。该论文的主要贡献存在于映射和导航管道中。映射方法采用新颖的地图表示形式 - 用于有效的风险意识长距离计划,面向覆盖范围和压缩的拓扑范围的LTVMAP领域,以允许在低频道通信下进行多机器人合作。这些表示形式与新的方法一起在导航中使用,以在一般的3D环境中可见性受限的知情搜索,而对环境结构没有任何假设,同时将深度探索与传感器覆盖的剥削保持平衡。所提出的解决方案还包括一条视觉感知管道,用于在没有专用GPU的情况下在5 Hz处进行四个RGB流中感兴趣的对象的板上检测和定位。除了参与DARPA SubT外,在定性和定量评估的各种环境中,在不同的环境中进行了广泛的实验验证,UAV系统的性能得到了支持。
translated by 谷歌翻译
在本文中,我们串联串联一个实时单手抄语和密集的测绘框架。对于姿势估计,串联基于关键帧的滑动窗口执行光度束调整。为了增加稳健性,我们提出了一种新颖的跟踪前端,使用从全局模型中呈现的深度图来执行密集的直接图像对齐,该模型从密集的深度预测逐渐构建。为了预测密集的深度映射,我们提出了通过分层构造具有自适应视图聚合的3D成本卷来平衡关键帧之间的不同立体声基线的3D成本卷来使用整个活动密钥帧窗口的级联视图 - 聚合MVSNet(CVA-MVSNET)。最后,将预测的深度映射融合到表示为截短的符号距离函数(TSDF)体素网格的一致的全局映射中。我们的实验结果表明,在相机跟踪方面,串联优于其他最先进的传统和学习的单眼视觉径管(VO)方法。此外,串联示出了最先进的实时3D重建性能。
translated by 谷歌翻译
Video, as a key driver in the global explosion of digital information, can create tremendous benefits for human society. Governments and enterprises are deploying innumerable cameras for a variety of applications, e.g., law enforcement, emergency management, traffic control, and security surveillance, all facilitated by video analytics (VA). This trend is spurred by the rapid advancement of deep learning (DL), which enables more precise models for object classification, detection, and tracking. Meanwhile, with the proliferation of Internet-connected devices, massive amounts of data are generated daily, overwhelming the cloud. Edge computing, an emerging paradigm that moves workloads and services from the network core to the network edge, has been widely recognized as a promising solution. The resulting new intersection, edge video analytics (EVA), begins to attract widespread attention. Nevertheless, only a few loosely-related surveys exist on this topic. A dedicated venue for collecting and summarizing the latest advances of EVA is highly desired by the community. Besides, the basic concepts of EVA (e.g., definition, architectures, etc.) are ambiguous and neglected by these surveys due to the rapid development of this domain. A thorough clarification is needed to facilitate a consensus on these concepts. To fill in these gaps, we conduct a comprehensive survey of the recent efforts on EVA. In this paper, we first review the fundamentals of edge computing, followed by an overview of VA. The EVA system and its enabling techniques are discussed next. In addition, we introduce prevalent frameworks and datasets to aid future researchers in the development of EVA systems. Finally, we discuss existing challenges and foresee future research directions. We believe this survey will help readers comprehend the relationship between VA and edge computing, and spark new ideas on EVA.
translated by 谷歌翻译
通常,非刚性登记的问题是匹配在两个不同点拍摄的动态对象的两个不同扫描。这些扫描可以进行刚性动作和非刚性变形。由于模型的新部分可能进入视图,而其他部件在两个扫描之间堵塞,则重叠区域是两个扫描的子集。在最常规的设置中,没有给出先前的模板形状,并且没有可用的标记或显式特征点对应关系。因此,这种情况是局部匹配问题,其考虑了随后的扫描在具有大量重叠区域的情况下进行的扫描经历的假设[28]。本文在环境中寻址的问题是同时在环境中映射变形对象和本地化摄像机。
translated by 谷歌翻译
我们提出EV-NERF,这是一个从事件数据得出的神经辐射场。虽然事件摄像机可以测量高框架速率的细微亮度变化,但低照明或极端运动的测量却遭受了显着的域差异,并具有复杂的噪声。结果,基于事件的视觉任务的性能不会转移到具有挑战性的环境中,在这种环境中,事件摄像机预计会在普通摄像机上蓬勃发展。我们发现,NERF的多视图一致性提供了强大的自我实施信号,以消除虚假测量结果并提取一致的基础结构,尽管输入高度嘈杂。 EV-NERF的输入不是原始NERF的图像,而是事件测量值,并伴随着传感器的运动。使用反映传感器测量模型的损耗函数,EV-NERF创建了一个集成的神经体积,该量总结了捕获约2-4秒的非结构化和稀疏数据点。生成的神经体积还可以从具有合理深度估计的新型视图中产生强度图像,这可以作为各种基于视觉任务的高质量输入。我们的结果表明,EV-NERF在极端噪声条件和高动力范围成像下实现了强度图像重建的竞争性能。
translated by 谷歌翻译
在小型电池约束的物流设备上部署现代TinyML任务需要高计算能效。使用非易失性存储器(NVM)的模拟内存计算(IMC)承诺在深神经网络(DNN)推理中的主要效率提高,并用作DNN权重的片上存储器存储器。然而,在系统级别尚未完全理解IMC的功能灵活性限制及其对性能,能量和面积效率的影响。为了目标实际的端到端的IOT应用程序,IMC阵列必须括在异构可编程系统中,引入我们旨在解决这项工作的新系统级挑战。我们介绍了一个非均相紧密的聚类架构,整合了8个RISC-V核心,内存计算加速器(IMA)和数字加速器。我们在高度异构的工作负载上基准测试,例如来自MobileNetv2的瓶颈层,显示出11.5倍的性能和9.5倍的能效改进,而在核心上高度优化并行执行相比。此外,我们通过将我们的异构架构缩放到多阵列加速器,探讨了在IMC阵列资源方面对全移动级DNN(MobileNetv2)的端到端推断的要求。我们的结果表明,我们的解决方案在MobileNetv2的端到端推断上,在执行延迟方面比现有的可编程架构更好,比最先进的异构解决方案更好的数量级集成内存计算模拟核心。
translated by 谷歌翻译
事件摄像机是运动激活的传感器,可捕获像素级照明的变化,而不是具有固定帧速率的强度图像。与标准摄像机相比,它可以在高速运动和高动态范围场景中提供可靠的视觉感知。但是,当相机和场景之间的相对运动受到限制时,例如在静态状态下,事件摄像机仅输出一点信息甚至噪音。尽管标准相机可以在大多数情况下,尤其是在良好的照明条件下提供丰富的感知信息。这两个相机完全是互补的。在本文中,我们提出了一种具有鲁棒性,高智能和实时优化的基于事件的视觉惯性镜(VIO)方法,具有事件角度,基于线的事件功能和基于点的图像功能。提出的方法旨在利用人为场景中的自然场景和基于线路的功能中的基于点的功能,以通过设计良好设计的功能管理提供更多其他结构或约束信息。公共基准数据集中的实验表明,与基于图像或基于事件的VIO相比,我们的方法可以实现卓越的性能。最后,我们使用我们的方法演示了机上闭环自动驾驶四极管飞行和大规模室外实验。评估的视频在我们的项目网站上介绍:https://b23.tv/oe3qm6j
translated by 谷歌翻译
在深度学习中,变压器一直是必不可少的主食。但是,对于现实生活中的应用程序,由于模型的巨大参数和操作,部署有效的变压器非常具有挑战性。为了减轻这种负担,利用稀疏是加速变压器的有效方法。新出现的Ampere GPU利用2:4的稀疏模式来实现模型加速度,而在部署模型时,它几乎无法满足各种算法和硬件约束。相比之下,我们提出了一个算法 - 铁软件合作的框架,以灵活有效地加速变压器,通过使用一般的N:M稀疏模式。 (1)从算法的角度来看,我们提出了一种稀疏性遗传机制以及一种遗传的动态修剪(IDP)方法,以迅速获得一系列N:M稀疏候选变压器。进一步提出了模型压缩方案,以显着减少部署的存储需求。 (2)从硬件的角度来看,我们提出了一种灵活,有效的硬件体系结构,即STA,以在部署N:M稀疏变压器时达到显着加速。 STA不仅具有具有较高计算效率的稀疏密度和致密矩阵乘法的计算引擎,而且还具有可扩展的软模块,从而消除了中级外芯片外数据通信的延迟。实验结果表明,与其他使用IDP生成的其他方法相比,n:m稀疏变压器的准确性平均提高了6.7%。此外,与Intel I9-9900X和NVIDIA RTX 2080 TI相比,STA可以达到14.47倍和11.33倍的速度,并且比最先进的基于FPGA的加速器对变形金刚的最先进的推断速度可以快2.00-19.47倍。
translated by 谷歌翻译
在本文中,引入了一种新颖的解决方案,用于由深度学习组件构建的视觉同时定位和映射(VSLAM)。所提出的体系结构是一个高度模块化的框架,在该框架中,每个组件在基于视觉的深度学习解决方案的领域中提供了最新的最新技术。该论文表明,通过这些单个构建基块的协同整合,可以创建一个功能高效,有效的全直神经(ATDN)VSLAM系统。引入了嵌入距离损耗函数并使用ATDN体系结构进行了训练。最终的系统在Kitti数据集的子集上设法实现了4.4%的翻译和0.0176 ver/m的旋转误差。所提出的体系结构可用于有效,低延迟的自主驾驶(AD)协助数据库创建以及自动驾驶汽车(AV)控制的基础。
translated by 谷歌翻译
到目前为止,已经研究了基于学习坐标的体积3D场景表示,例如神经辐射场(NERF),假设RGB或RGB-D图像是输入。同时,从神经科学文献中知道,人类视觉系统(HVS)的定制是为了处理异步亮度而不是同步的RGB图像,以构建和不断更新周围环境的心理3D表示,以进行导航和生存。受HVS原理启发的视觉传感器是事件摄像机。因此,事件是稀疏和异步的每个像素亮度(或颜色通道)更改信号。与神经3D场景表示学习的现有作品相反,本文从新的角度解决了问题。我们证明,可以从异步事件流中学习适用于RGB空间中新型视图合成的NERF。我们的模型在RGB空间中具有挑战性场景的新颖的视野具有很高的视觉准确性,即使它们的数据训练得多(即,来自单个事件摄像机的事件流围绕对象移动)并更有效(由于其效率更高(由于其培训)(由于事件流的固有稀疏性)比现有的NERF模型接受了RGB图像。我们将发布我们的数据集和源代码,请参见https://4dqv.mpi-inf.mpg.de/eventnerf/。
translated by 谷歌翻译
综合照片 - 现实图像和视频是计算机图形的核心,并且是几十年的研究焦点。传统上,使用渲染算法(如光栅化或射线跟踪)生成场景的合成图像,其将几何形状和材料属性的表示为输入。统称,这些输入定义了实际场景和呈现的内容,并且被称为场景表示(其中场景由一个或多个对象组成)。示例场景表示是具有附带纹理的三角形网格(例如,由艺术家创建),点云(例如,来自深度传感器),体积网格(例如,来自CT扫描)或隐式曲面函数(例如,截短的符号距离)字段)。使用可分辨率渲染损耗的观察结果的这种场景表示的重建被称为逆图形或反向渲染。神经渲染密切相关,并将思想与经典计算机图形和机器学习中的思想相结合,以创建用于合成来自真实观察图像的图像的算法。神经渲染是朝向合成照片现实图像和视频内容的目标的跨越。近年来,我们通过数百个出版物显示了这一领域的巨大进展,这些出版物显示了将被动组件注入渲染管道的不同方式。这种最先进的神经渲染进步的报告侧重于将经典渲染原则与学习的3D场景表示结合的方法,通常现在被称为神经场景表示。这些方法的一个关键优势在于它们是通过设计的3D-一致,使诸如新颖的视点合成捕获场景的应用。除了处理静态场景的方法外,我们还涵盖了用于建模非刚性变形对象的神经场景表示...
translated by 谷歌翻译
深神经网络(DNNS)在各种机器学习(ML)应用程序中取得了巨大成功,在计算机视觉,自然语言处理和虚拟现实等中提供了高质量的推理解决方案。但是,基于DNN的ML应用程序也带来计算和存储要求的增加了很多,对于具有有限的计算/存储资源,紧张的功率预算和较小形式的嵌入式系统而言,这尤其具有挑战性。挑战还来自各种特定应用的要求,包括实时响应,高通量性能和可靠的推理准确性。为了应对这些挑战,我们介绍了一系列有效的设计方法,包括有效的ML模型设计,定制的硬件加速器设计以及硬件/软件共同设计策略,以启用嵌入式系统上有效的ML应用程序。
translated by 谷歌翻译
基于干涉视觉的导航(IVISNAV)是一种用于自主接近操作的新型光电传感器。 ivisnav采用激光发射结构化的信标,并通过测量传输激光脉冲的相变的变化来精确地表征六个自由度相对运动速率。 Ivisnav的嵌入式软件包必须有效地处理高频动力学,以进行健壮的感应和估计。本文开发了一种新的嵌入式系统,用于基于最小二乘的速率估计。所得系统能够与光子学连接并在现场可编程的门数阵列中实现估计算法。嵌入式软件包被证明是使用有限的精度算术进行高速计算的硬件/软件共同设计估计程序。将有限精度FPGA硬件设计的准确性与MATLAB上算法的浮点软件评估进行了比较,以基于其性能和与错误度量的统计一致性。实施结果证明了使用IVISNAV进行高速接近导航的FPGA计算功能的实用性。
translated by 谷歌翻译