智能论文笔记

Structured Light with Redundancy Codes

Zhanghao Sun , Yu Zhang , Yicheng Wu , Dong Huo , Yiming Qian , Jian Wang

分类：计算机视觉

2022-06-18

结构光（SL）系统以主动照明投影获得高保真3D几何形状。当在具有强烈的环境照明，全球照明和跨设备干扰的环境中工作时，常规系统会出现挑战。本文提出了一种通用技术，以通过投影除天然SL模式来预测冗余光学信号来提高SL的鲁棒性。这样，预计的信号与错误更具区别。因此，可以使用简单的信号处理更容易地恢复几何信息，并获得``性能中的编码增益''。我们使用冗余代码提出了三个应用程序：（1）在强环境光下进行SL成像的自我错误校正，（（（ 2）在全球照明下自适应重建的错误检测，以及（3）使用设备特定的投影序列编码的干扰过滤，尤其是针对基于事件摄像机的SL和灯窗帘设备。我们系统地分析了这些应用中的设计规则和信号处理算法。相应的硬件原型是用于在现实世界复杂场景上进行评估的。合成和真实数据的实验结果证明了具有冗余代码的SL系统的显着性能改进。

translated by 谷歌翻译

Seeing Far in the Dark with Patterned Flash

Zhanghao Sun , Jian Wang , Yicheng Wu , Shree Nayar

分类：计算机视觉

2022-07-25

闪光照明广泛用于在弱光环境下的成像中。然而，照明强度在繁殖距离四边形掉落，这对长距离闪存成像构成了重大挑战。我们提出了一种新的Flash技术，称为“图案闪光灯”，用于长途闪光灯成像。图案闪光灯将光功率浓缩到点阵列中。与传统的均匀闪光灯相比，信号被各地的噪声淹没，图案闪光灯在整个视野的稀疏分布点上提供了更强的信号，以确保这些点处的信号从传感器噪声中脱颖而出。这使后处理能够解决重要的对象和细节。此外，图案闪光灯将纹理投影到场景上，可以将其视为深度感知的结构化光系统。鉴于新型系统，我们使用卷积神经网络开发了联合图像重建和深度估计算法。我们构建硬件原型，并在各种场景上测试提出的闪存技术。实验结果表明，在弱光环境中，我们的图案闪光在长距离的性能明显更好。

translated by 谷歌翻译

ESL: Event-based Structured Light

Manasi Muglikar , Guillermo Gallego , Davide Scaramuzza

分类：计算机视觉

2021-11-30

事件摄像机是生物启发传感器，可通过标准摄像机提供显着优势，例如低延迟，高延迟，高度的时间分辨率和高动态范围。我们提出了一种使用事件摄像机的新型结构化光系统来解决准确和高速深度感测的问题。我们的设置包括一个事件摄像机和一个激光点投影仪，在16毫秒期间，在光栅扫描模式中均匀地照亮场景。以前的方法匹配相互独立的事件，因此它们在信号延迟和抖动的存在下以高扫描速度提供噪声深度估计。相比之下，我们优化了旨在利用事件相关性的能量函数，称为时空稠度。所得到的方法对事件抖动鲁棒，因此以更高的扫描速度执行更好。实验表明，我们的方法可以根据事件摄像机处理高速运动和优于最先进的3D重建方法，对于相同的采集时间，平均地将RMSE降低了83％。

translated by 谷歌翻译

Sensors for Mobile Robots

Henrik Andreasson , Giorgio Grisetti , Todor Stoyanov , Alberto Pretto

分类：机器人

2022-06-07

传感器是将物理参数或环境特征（例如温度，距离，速度等）转换为可以通过数字测量和处理以执行特定任务的信号的设备。移动机器人需要传感器来测量其环境的属性，从而允许安全导航，复杂的感知和相应的动作以及与填充环境的其他代理的有效相互作用。移动机器人使用的传感器范围从简单的触觉传感器（例如保险杠）到复杂的基于视觉的传感器，例如结构化灯相机。所有这些都提供了可以由机器人计算机处理的数字输出（例如，字符串，一组值，矩阵等）。通常通过使用传感器中包含的数字转换器（ADC）的类似物来离散一个或多个模拟电信号来获得此类输出。在本章中，我们介绍了移动机器人技术中最常见的传感器，并提供了其分类法，基本特征和规格的介绍。对功能和应用程序类型的描述遵循一种自下而上的方法：在描述现实世界传感器之前，介绍了传感器所基于的基本原理和组件，这些传感器通常基于多种技术和基本设备。

translated by 谷歌翻译

Event-based RGB-D sensing with structured light

Seyed Ehsan Marjani Bajestani , Giovanni Beltrame

分类：机器人

2022-07-23

基于事件的相机（ECS）是受生物启发的传感器，它们异步报告每个像素的亮度变化。由于它们的高动态范围，像素带宽，时间分辨率，低功耗和计算简单性，它们对在挑战性照明条件下基于视觉的项目有益，并且可以通过微秒响应时间检测快速运动。第一代EC是单色的，但是颜色数据非常有用，有时对于某些基于视觉的应用程序至关重要。最新的技术使制造商能够建造颜色EC，交易传感器的大小，并与单色模型相比，尽管具有相同的带宽，但与单色模型相比大大降低了分辨率。此外，ECS仅检测光的变化，不会显示静态或缓慢移动的物体。我们介绍了一种使用结构化照明投影仪帮助的单色EC检测完整RGB事件的方法。投影仪在场景上迅速发出了光束的RGB图案，其反射是由EC捕获的。我们结合了ECS和基于投影的技术的好处，并允许将静态或移动物体与商用Ti LightCrafter 4500投影仪和单眼单色EC进行深度和颜色检测，为无框RGB-D传感应用铺平了道路。

translated by 谷歌翻译

iToF2dToF: A Robust and Flexible Representation for Data-Driven Time-of-Flight Imaging

Felipe Gutierrez-Barragan , Huaijin Chen , Mohit Gupta , Andreas Velten , Jinwei Gu

分类：计算机视觉

2021-03-12

间接飞行时间（ITOF）相机是一个有希望的深度传感技术。然而，它们容易出现由多路径干扰（MPI）和低信噪比（SNR）引起的错误。传统方法，在去噪后，通过估计编码深度的瞬态图像来减轻MPI。最近，在不使用中间瞬态表示的情况下，共同去噪和减轻MPI的数据驱动方法已经成为最先进的。在本文中，我们建议重新审视瞬态代表。使用数据驱动的Priors，我们将其插入/推断ITOF频率并使用它们来估计瞬态图像。给定直接TOF（DTOF）传感器捕获瞬态图像，我们将我们的方法命名为ITOF2DTOF。瞬态表示是灵活的。它可以集成与基于规则的深度感测算法，对低SNR具有强大，并且可以处理实际上出现的模糊场景（例如，镜面MPI，光学串扰）。我们在真正深度传感方案中展示了先前方法上的ITOF2DTOF的好处。

translated by 谷歌翻译

A Review of Indoor Millimeter Wave Device-based Localization and Device-free Sensing Technologies

Anish Shastri , Neharika Valecha , Enver Bashirov , Harsh Tataria , Michael Lentmaier , Fredrik Tufvesson , Michele Rossi , Paolo Casari

分类：机器学习

2021-12-10

低成本毫米波（MMWAVE）通信和雷达设备的商业可用性开始提高消费市场中这种技术的渗透，为第五代（5G）的大规模和致密的部署铺平了道路（5G） - 而且以及6G网络。同时，普遍存在MMWAVE访问将使设备定位和无设备的感测，以前所未有的精度，特别是对于Sub-6 GHz商业级设备。本文使用MMWAVE通信和雷达设备在基于设备的定位和无设备感应中进行了现有技术的调查，重点是室内部署。我们首先概述关于MMWAVE信号传播和系统设计的关键概念。然后，我们提供了MMWaves启用的本地化和感应方法和算法的详细说明。我们考虑了在我们的分析中的几个方面，包括每个工作的主要目标，技术和性能，每个研究是否达到了一定程度的实现，并且该硬件平台用于此目的。我们通过讨论消费者级设备的更好算法，密集部署的数据融合方法以及机器学习方法的受过教育应用是有前途，相关和及时的研究方向的结论。

translated by 谷歌翻译

Autonomous Driving in Adverse Weather Conditions: A Survey

Yuxiao Zhang , Alexander Carballo , Hanting Yang , Kazuya Takeda

分类：机器人

2021-12-16

自动化驾驶系统（广告）开辟了汽车行业的新领域，为未来的运输提供了更高的效率和舒适体验的新可能性。然而，在恶劣天气条件下的自主驾驶已经存在，使自动车辆（AVS）长时间保持自主车辆（AVS）或更高的自主权。本文评估了天气在分析和统计方式中为广告传感器带来的影响和挑战，并对恶劣天气条件进行了解决方案。彻底报道了关于对每种天气的感知增强的最先进技术。外部辅助解决方案如V2X技术，当前可用的数据集，模拟器和天气腔室的实验设施中的天气条件覆盖范围明显。通过指出各种主要天气问题，自主驾驶场目前正在面临，近年来审查硬件和计算机科学解决方案，这项调查概述了在不利的天气驾驶条件方面的障碍和方向的障碍和方向。

translated by 谷歌翻译

Semantics-Empowered Communication: A Tutorial-cum-Survey

Zhilin Lu , Rongpeng Li , Kun Lu , Xianfu Chen , Ekram Hossain , Zhifeng Zhao , Honggang Zhang

分类：人工智能

2022-12-16

Along with the springing up of semantics-empowered communication (SemCom) researches, it is now witnessing an unprecedentedly growing interest towards a wide range of aspects (e.g., theories, applications, metrics and implementations) in both academia and industry. In this work, we primarily aim to provide a comprehensive survey on both the background and research taxonomy, as well as a detailed technical tutorial. Specifically, we start by reviewing the literature and answering the "what" and "why" questions in semantic transmissions. Afterwards, we present corresponding ecosystems, including theories, metrics, datasets and toolkits, on top of which the taxonomy for research directions is presented. Furthermore, we propose to categorize the critical enabling techniques by explicit and implicit reasoning-based methods, and elaborate on how they evolve and contribute to modern content \& channel semantics-empowered communications. Besides reviewing and summarizing the latest efforts in SemCom, we discuss the relations with other communication levels (e.g., reliable and goal-oriented communications) from a holistic and unified viewpoint. Subsequently, in order to facilitate the future developments and industrial applications, we also highlight advanced practical techniques for boosting semantic accuracy, robustness, and large-scale scalability, just to mention a few. Finally, we discuss the technical challenges that shed light on future research opportunities.

translated by 谷歌翻译

Smart Visual Beacons with Asynchronous Optical Communications using Event Cameras

Ziwei Wang , Yonhon Ng , Jack Henderson , Robert Mahony

分类：机器人

2022-08-02

事件摄像机是受到生物启发的动态视觉传感器，它们以高时间分辨率，高动态范围和低延迟响应图像强度的变化。这些传感器特性非常适合与智能视觉信标的广播视觉通信频道一起启用视觉目标跟踪，并在分布式机器人技术中应用。视觉信标可以通过对发射二极管（LED）的高频调节（例如车辆前大灯，物联网（IoT）LED，智能建筑灯等）来构建，这些灯光已经存在于许多真实世界中。事件摄像机的高时间分辨率特征使他们能够以基于经典的框架摄像机的速度捕获更高数据速率的视觉信号。在本文中，我们提出了一种具有LED调制和事件摄像头解调算法的新型智能视觉标准架构。我们定量评估我们原型型的智能视觉信标通信系统的LED传输速率，通信距离和消息传输精度之间的关系。所提出的方法在室内环境中最多可实现4 kbps，并且在100米的距离内以500桶的传输速率在阳光下以500 bps的速度实现了无损的传播，这表明了该技术在室外环境中的潜力。

translated by 谷歌翻译

Single-shot ToF sensing with sub-mm precision using conventional CMOS sensors

Manuel Ballester , Heming Wang , Jiren Li , Oliver Cossairt , Florian Willomitzer

分类：计算机视觉

2022-12-02

We present a novel single-shot interferometric ToF camera targeted for precise 3D measurements of dynamic objects. The camera concept is based on Synthetic Wavelength Interferometry, a technique that allows retrieval of depth maps of objects with optically rough surfaces at submillimeter depth precision. In contrast to conventional ToF cameras, our device uses only off-the-shelf CCD/CMOS detectors and works at their native chip resolution (as of today, theoretically up to 20 Mp and beyond). Moreover, we can obtain a full 3D model of the object in single-shot, meaning that no temporal sequence of exposures or temporal illumination modulation (such as amplitude or frequency modulation) is necessary, which makes our camera robust against object motion. In this paper, we introduce the novel camera concept and show first measurements that demonstrate the capabilities of our system. We present 3D measurements of small (cm-sized) objects with > 2 Mp point cloud resolution (the resolution of our used detector) and up to sub-mm depth precision. We also report a "single-shot 3D video" acquisition and a first single-shot "Non-Line-of-Sight" measurement. Our technique has great potential for high-precision applications with dynamic object movement, e.g., in AR/VR, industrial inspection, medical imaging, and imaging through scattering media like fog or human tissue.

translated by 谷歌翻译

A soft thumb-sized vision-based sensor with accurate all-round force perception

Huanbo Sun , Katherine J. Kuchenbecker , Georg Martius

分类：机器人 | 计算机视觉 | 机器学习

2021-11-10

视觉的触觉传感器由于经济实惠的高分辨率摄像机和成功的计算机视觉技术而被出现为机器人触摸的有希望的方法。但是，它们的物理设计和他们提供的信息尚不符合真实应用的要求。我们提供了一种名为Insight的强大，柔软，低成本，视觉拇指大小的3D触觉传感器：它不断在其整个圆锥形感测表面上提供定向力分布图。围绕内部单眼相机构造，传感器仅在刚性框架上仅成型一层弹性体，以保证灵敏度，鲁棒性和软接触。此外，Insight是第一个使用准直器将光度立体声和结构光混合的系统来检测其易于更换柔性外壳的3D变形。通过将图像映射到3D接触力的空间分布（正常和剪切）的深神经网络推断力信息。洞察力在0.4毫米的总空间分辨率，力量幅度精度约为0.03 n，并且对于具有不同接触面积的多个不同触点，在0.03-2 n的范围内的5度大约5度的力方向精度。呈现的硬件和软件设计概念可以转移到各种机器人部件。

translated by 谷歌翻译

Roadmap on Signal Processing for Next Generation Measurement Systems

D. K. Iakovidis , M. Ooi , Y. C. Kuang , S. Damidenko , A. Shestakov , V. Sinistin , M. Henry , A. Sciacchitano , A. Discetti , S. Donati

分类：人工智能 | 计算机视觉

2021-11-03

信号处理是几乎任何传感器系统的基本组件，具有不同科学学科的广泛应用。时间序列数据，图像和视频序列包括可以增强和分析信息提取和量化的代表性形式的信号。人工智能和机器学习的最近进步正在转向智能，数据驱动，信号处理的研究。该路线图呈现了最先进的方法和应用程序的关键概述，旨在突出未来的挑战和对下一代测量系统的研究机会。它涵盖了广泛的主题，从基础到工业研究，以简明的主题部分组织，反映了每个研究领域的当前和未来发展的趋势和影响。此外，它为研究人员和资助机构提供了识别新前景的指导。

translated by 谷歌翻译

Event Guided Depth Sensing

Manasi Muglikar , Diederik Paul Moeys , Davide Scaramuzza

分类：计算机视觉

2021-10-20

有源深度传感器，如结构化光，激光雷达和飞行时间系统以固定扫描速率均匀地样本整个场景的深度。这导致了有限的时空分辨率，其中冗余静态信息是过度采样的，并且可能会被采样珍贵运动信息。在本文中，我们提出了一种有效的生物启发事件 - 摄像机驱动深度估计算法。在我们的方法中，我们密集地动态地照亮感兴趣的领域，这取决于事件摄像机检测到的场景活动，并在没有动作的视野中稀疏地照亮区域。深度估计是通过基于事件的结构化光系统来实现，该光点投影仪组成，该激光点投影仪与调谐的第二事件的传感器耦合，以检测来自场景的激光器的反射。我们在模拟自主驾驶场景和真实室内序列中展示了我们方法的可行性，使用我们的原型。我们表明，在自动驾驶和室内环境的自然场景中，移动边缘平均对应于场景的不到10％。因此，我们的设置要求传感器仅扫描10％的场景，这可能会导致照明源的功耗较低的差价较低。虽然我们为基于事件的结构光系统提供了评估和验证，但这里提出的思想适用于Lidar，飞行时间和标准立体声等广泛的深度感测模式。视频可用于\ url {https://youtu.be/rvv9iqlyjcq}。

translated by 谷歌翻译

Deep Learning for HDR Imaging: State-of-the-Art and Future Trends

Lin Wang , Kuk-Jin Yoon

分类：计算机视觉 | 机器学习

2021-10-20

高动态范围（HDR）成像是一种允许广泛的动态曝光范围的技术，这在图像处理，计算机图形和计算机视觉中很重要。近年来，使用深度学习（DL），HDR成像有重大进展。本研究对深层HDR成像方法的最新发展进行了综合和富有洞察力的调查和分析。在分层和结构上，将现有的深层HDR成像方法基于（1）输入曝光的数量/域，（2）学习任务数，（3）新传感器数据，（4）新的学习策略，（5）应用程序。重要的是，我们对关于其潜在和挑战的每个类别提供建设性的讨论。此外，我们审查了深度HDR成像的一些关键方面，例如数据集和评估指标。最后，我们突出了一些打开的问题，并指出了未来的研究方向。

translated by 谷歌翻译

A Survey on Over-the-Air Computation

Alphan Sahin , Rui Yang

分类：人工智能

2022-10-20

Communication and computation are often viewed as separate tasks. This approach is very effective from the perspective of engineering as isolated optimizations can be performed. On the other hand, there are many cases where the main interest is a function of the local information at the devices instead of the local information itself. For such scenarios, information theoretical results show that harnessing the interference in a multiple-access channel for computation, i.e., over-the-air computation (OAC), can provide a significantly higher achievable computation rate than the one with the separation of communication and computation tasks. Besides, the gap between OAC and separation in terms of computation rate increases with more participating nodes. Given this motivation, in this study, we provide a comprehensive survey on practical OAC methods. After outlining fundamentals related to OAC, we discuss the available OAC schemes with their pros and cons. We then provide an overview of the enabling mechanisms and relevant metrics to achieve reliable computation in the wireless channel. Finally, we summarize the potential applications of OAC and point out some future directions.

translated by 谷歌翻译

DeepFormableTag: End-to-end Generation and Recognition of Deformable Fiducial Markers

Mustafa B. Yaldiz , Andreas Meuleman , Hyeonjoong Jang , Hyunho Ha , Min H. Kim

分类：计算机视觉

2022-06-16

基金标记已广泛用于识别可以通过相机检测到的对象或嵌入式消息。主要是，现有的检测方法假设标记印刷在理想的平面表面上。由于光学/透视失真和运动模糊的各种成像伪像，标记通常无法识别。为了克服这些局限性，我们提出了一个新型的可变形基准标记系统，该系统由三个主要部分组成：首先，基准标记生成器会创建一组自由形式的颜色模式，以在唯一的视觉代码中编码大量的大规模信息。其次，一个可区分的图像模拟器创建了具有变形标记的影像现实主义场景图像的训练数据集，并在优化期间以可区分的方式渲染。渲染的图像包括带有镜面反射，光学失真，散焦和运动模糊，颜色改变，成像噪声以及标记的形状变形的逼真的阴影。最后，训练有素的标记探测器寻求感兴趣的区域，并通过反变形转换同时识别多个标记模式。可变形的标记创建者和探测器网络以端到端的方式通过可区分的光真逼真的渲染器共同优化，使我们能够以高精度来稳健地识别广泛的可变形标记。我们的可变形标记系统能够在〜29 fps中成功解码36位消息，并具有严重的形状变形。结果验证了我们的系统明显优于传统和数据驱动的标记方法。我们基于学习的标记系统打开了基准标记的新有趣应用，包括对人体的成本效益运动捕获，使用我们的基金标记阵列作为结构化的光模式进行主动3D扫描，以及强大的增强现实对象的虚拟物体在动态上进行虚拟对象渲染表面。

translated by 谷歌翻译

Diffractive lensless imaging with optimized Voronoi-Fresnel phase

Qiang Fu , Dong-Ming Yan , Wolfgang Heidrich

分类：计算机视觉

2021-09-28

Lensless cameras are a class of imaging devices that shrink the physical dimensions to the very close vicinity of the image sensor by replacing conventional compound lenses with integrated flat optics and computational algorithms. Here we report a diffractive lensless camera with spatially-coded Voronoi-Fresnel phase to achieve superior image quality. We propose a design principle of maximizing the acquired information in optics to facilitate the computational reconstruction. By introducing an easy-to-optimize Fourier domain metric, Modulation Transfer Function volume (MTFv), which is related to the Strehl ratio, we devise an optimization framework to guide the optimization of the diffractive optical element. The resulting Voronoi-Fresnel phase features an irregular array of quasi-Centroidal Voronoi cells containing a base first-order Fresnel phase function. We demonstrate and verify the imaging performance for photography applications with a prototype Voronoi-Fresnel lensless camera on a 1.6-megapixel image sensor in various illumination conditions. Results show that the proposed design outperforms existing lensless cameras, and could benefit the development of compact imaging systems that work in extreme physical conditions.

translated by 谷歌翻译

Recent Advances on Non-Line-of-Sight Imaging: Conventional Physical Models, Deep Learning, and New Scenes

Ruixu Geng , Yang Hu , Yan Chen

分类：计算机视觉

2021-04-28

作为一种引起巨大关注的新兴技术，通过分析继电器表面上的漫反射来重建隐藏物体的非视线（NLOS）成像，具有广泛的应用前景，在自主驾驶，医学成像和医学成像领域防御。尽管信噪比低（SNR）和高不良效率的挑战，但近年来，NLOS成像已迅速发展。大多数当前的NLOS成像技术使用传统的物理模型，通过主动或被动照明构建成像模型，并使用重建算法来恢复隐藏场景。此外，NLOS成像的深度学习算法最近也得到了很多关注。本文介绍了常规和深度学习的NLOS成像技术的全面概述。此外，我们还调查了新的拟议的NLOS场景，并讨论了现有技术的挑战和前景。这样的调查可以帮助读者概述不同类型的NLOS成像，从而加速了在角落周围看到的发展。

translated by 谷歌翻译

A High Resolution Multi-exposure Stereoscopic Image & Video Database of Natural Scenes

Rohit Choudhary , Mansi Sharma , Aditya Wadaskar

分类：计算机视觉

2022-06-22

近年来，Imbersive显示器（例如VR耳机，AR眼镜，多视图显示器，自由点电视）已成为一种新的展示技术，与传统显示相比，提供了更好的视觉体验和观众的参与度。随着3D视频和展示技术的发展，高动态范围（HDR）摄像机和显示器的消费市场迅速增长。缺乏适当的实验数据是3D HDR视频技术领域的主要研究工作的关键障碍。同样，足够的现实世界多曝光实验数据集的不可用是用于HDR成像研究的主要瓶颈，从而限制了观众的体验质量（QOE）。在本文中，我们介绍了在印度理工学院马德拉斯校园内捕获的多元化立体曝光数据集，该数据集是多元化的动植物的所在地。该数据集使用ZED立体相机捕获，并提供户外位置的复杂场景，例如花园，路边景观，节日场地，建筑物和室内地区，例如学术和居住区。提出的数据集可容纳宽深度范围，复杂的深度结构，使物体运动复杂化，照明变化，丰富的色彩动态，纹理差异，除了通过移动摄像机和背景运动引入的显着随机性。拟议的数据集可公开向研究界公开使用。此外，详细描述了捕获，对齐和校准多曝光立体视频和图像的过程。最后，我们讨论了有关HDR成像，深度估计，一致的音调映射和3D HDR编码的进度，挑战，潜在用例和未来研究机会。

translated by 谷歌翻译