智能论文笔记

Event Based, Near Eye Gaze Tracking Beyond 10,000Hz

Anastasios N. Angelopoulos , Julien N. P. Martel , Amit P. S. Kohli , Jorg Conradt , Gordon Wetzstein

分类：计算机视觉

2020-04-07

现代目光跟踪系统中的相机具有基本的带宽和功率限制，实际上将数据采集速度限制为300 Hz。这会阻碍使用移动眼镜手术器的使用，例如低潜伏期预测性渲染，或者在野外使用头部安装的设备来快速而微妙的眼动运动，例如微扫视。在这里，我们提出了一个基于混合框架的近眼凝视跟踪系统，可提供超过10,000 Hz的更新速率，其准确性与在相同条件下评估时相匹配的高端台式机商业跟踪器。我们的系统建立在新兴事件摄像机的基础上，该摄像头同时获得定期采样框架和自适应采样事件。我们开发了一种在线2D学生拟合方法，该方法每一个或几个事件都会更新参数模型。此外，我们提出了一个多项式回归器，用于实时估算参数学生模型的凝视点。使用第一个基于事件的凝视数据集，可在https://github.com/aangelopoulos/event_based_gaze_tracking上获得，我们证明我们的系统可实现0.45度 - 1.75度的准确度，用于从45度到98度的视野。借助这项技术，我们希望能够为虚拟和增强现实提供新一代的超低延迟凝视呈现和展示技术。

translated by 谷歌翻译

Multi-Event-Camera Depth Estimation and Outlier Rejection by Refocused Events Fusion

Suman Ghosh , Guillermo Gallego

分类：计算机视觉 | 机器人

2022-07-21

事件摄像机是由生物启发的传感器，比传统摄像机具有优势。它们不同步，用微秒的分辨率对场景进行采样，并产生亮度变化。这种非常规的输出引发了新型的计算机视觉方法，以释放相机的潜力。我们解决了SLAM的基于事件的立体3D重建问题。大多数基于事件的立体声方法都试图利用相机跨相机的高时间分辨率和事件同时性，以建立匹配和估计深度。相比之下，我们研究了如何通过融合有效的单眼方法来融合差异空间图像（DSIS）来估计深度。我们开发融合理论，并将其应用于设计产生最先进结果的多相机3D重建算法，正如我们通过与四种基线方法进行比较并在各种可用数据集上进行测试的确认。

translated by 谷歌翻译

Automatic Gaze Analysis: A Survey of Deep Learning based Approaches

Shreya Ghosh , Abhinav Dhall , Munawar Hayat , Jarrod Knibbe , Qiang Ji

分类：计算机视觉

2021-08-12

眼目光分析是计算机视觉和人类计算机相互作用领域的重要研究问题。即使在过去十年中取得了显着进展，由于眼睛外观，眼头相互作用，遮挡，图像质量和照明条件的独特性，自动凝视分析仍然具有挑战性。有几个开放的问题，包括在没有先验知识的情况下，在不受限制的环境中解释凝视方向的重要提示以及如何实时编码它们。我们回顾了一系列目光分析任务和应用程序的进展，以阐明这些基本问题，确定凝视分析中的有效方法并提供可能的未来方向。我们根据其优势和报告的评估指标分析了最近的凝视估计和分割方法，尤其是在无监督和弱监督的领域中。我们的分析表明，强大而通用的凝视分析方法的开发仍然需要解决现实世界中的挑战，例如不受限制的设置和学习，并减少了监督。最后，我们讨论了设计现实的目光分析系统的未来研究方向，该系统可以传播到其他领域，包括计算机视觉，增强现实（AR），虚拟现实（VR）和人类计算机交互（HCI）。项目页面：https：//github.com/i-am-shreya/eyegazesurvey} {https://github.com/i-am-shreya/eyegazesurvey

translated by 谷歌翻译

Neuromorphic Visual Odometry with Resonator Networks

Alpha Renner , Lazar Supic , Andreea Danielescu , Giacomo Indiveri , E. Paxon Frady , Friedrich T. Sommer , Yulia Sandamirskaya

分类：机器人 | 人工智能 | 计算机视觉 | 神经与进化计算

2022-09-05

自主代理需要自定位才能在未知环境中导航。他们可以使用视觉进程（VO）来估计自我运动并使用视觉传感器定位自己。作为惯性传感器或滑板作为轮编码器，这种运动估算策略不会因漂移而受到损害。但是，带有常规摄像机的VO在计算上是要求的，它限制了其在严格的低延迟， - 内存和 - 能量要求的系统中的应用。使用基于事件的相机和神经形态计算硬件为VO问题提供了有希望的低功率解决方案。但是，VO的常规算法不容易转换为神经形态硬件。在这项工作中，我们提出了一种完全由适合神经形态实现的神经元构件构建的VO算法。构建块是代表向量符号体系结构（VSA）计算框架中向量的神经元组，该框架是作为编程神经形态硬件的抽象层提出的。我们提出的VO网络生成并存储了对展示的视觉环境的工作记忆。它更新了此工作内存，同时估计相机的位置和方向的变化。我们证明了如何将VSA作为神经形态机器人技术的计算范式借用。此外，我们的结果代表了使用神经形态计算硬件进行快速和效率的VO以及同时定位和映射（SLAM）的相关任务的重要步骤。我们通过机器人任务和基于事件的数据集对实验进行了实验验证这种方法，并证明了最先进的性能。

translated by 谷歌翻译

Under the Sand: Navigation and Localization of a Micro Aerial Vehicle for Landmine Detection with Ground Penetrating Synthetic Aperture Radar

Rik Bähnemann , Nicholas Lawrance , Lucas Streichenberg , Jen Jen Chung , Michael Pantic , Alexander Grathwohl , Christian Waldschmidt , Roland Siegwart

分类：机器人

2021-06-18

安装在微空中车辆（MAV）上的地面穿透雷达是有助于协助人道主义陆地间隙的工具。然而，合成孔径雷达图像的质量取决于雷达天线的准确和精确运动估计以及与MAV产生信息性的观点。本文介绍了一个完整的自动空气缩进的合成孔径雷达（GPSAR）系统。该系统由空间校准和时间上同步的工业级传感器套件组成，使得在地面上方，雷达成像和光学成像。自定义任务规划框架允许在地上控制地上的Stripmap和圆形（GPSAR）轨迹的生成和自动执行，以及空中成像调查飞行。基于因子图基于Dual接收机实时运动（RTK）全局导航卫星系统（GNSS）和惯性测量单元（IMU）的测量值，以获得精确，高速平台位置和方向。地面真理实验表明，传感器时机为0.8美元，正如0.1美元的那样，定位率为1 kHz。与具有不确定标题初始化的单个位置因子相比，双位置因子配方可提高高达40％，批量定位精度高达59％。我们的现场试验验证了本地化准确性和精度，使得能够相干雷达测量和检测在沙子中埋入的雷达目标。这验证了作为鸟瞰着地图检测系统的潜力。

translated by 谷歌翻译

Deep Sea Bubble Stream Characterization Using Wide-Baseline Stereo Photogrammetry

Mengkun She , Yifan Song , Tim Weiß , Jens Greinert , Kevin Köser

分类：计算机视觉

2021-12-14

可靠地定量自然和人为气体释放（例如，从海底进入海洋的自然和人为气体释放（例如，Co $ _2 $，甲烷），最终是大气，是一个具有挑战性的任务。虽然船舶的回声探测器允许在水中检测水中的自由气，但是即使从较大的距离中，精确量化需要诸如未获得的升高速度和气泡尺寸分布的参数。光学方法的意义上是互补的，即它们可以提供从近距离的单个气泡或气泡流的高时和空间分辨率。在这一贡献中，我们介绍了一种完整的仪器和评估方法，用于光学气泡流特征。专用仪器采用高速深海立体声摄像机系统，可在部署在渗透网站以进行以后的自动分析时录制泡泡图像的Tbleabytes。对于几分钟的短序列可以获得泡特性，然后将仪器迁移到其他位置，或者以自主间隔模式迁移到几天内，以捕获由于电流和压力变化和潮汐循环引起的变化。除了报告泡沫特征的步骤旁边，我们仔细评估了可达准确性并提出了一种新颖的校准程序，因为由于缺乏点对应，仅使用气泡的剪影。该系统已成功运营，在太平洋高达1000万水深，以评估甲烷通量。除了样品结果外，我们还会报告在开发期间汲取的故障案例和经验教训。

translated by 谷歌翻译

UAVs Beneath the Surface: Cooperative Autonomy for Subterranean Search and Rescue in DARPA SubT

Matej Petrlik , Pavel Petracek , Vit Kratky , Tomas Musil , Yurii Stasinchuk , Matous Vrba , Tomas Baca , Daniel Hert , Martin Pecka , Tomas Svoboda

分类：机器人 | 人工智能

2022-06-16

本文提出了一种新颖的方法，用于在具有复杂拓扑结构的地下领域的搜索和救援行动中自动合作。作为CTU-Cras-Norlab团队的一部分，拟议的系统在DARPA SubT决赛的虚拟轨道中排名第二。与专门为虚拟轨道开发的获奖解决方案相反，该建议的解决方案也被证明是在现实世界竞争极为严峻和狭窄的环境中飞行的机上实体无人机的强大系统。提出的方法可以使无缝模拟转移的无人机团队完全自主和分散的部署，并证明了其优于不同环境可飞行空间的移动UGV团队的优势。该论文的主要贡献存在于映射和导航管道中。映射方法采用新颖的地图表示形式 - 用于有效的风险意识长距离计划，面向覆盖范围和压缩的拓扑范围的LTVMAP领域，以允许在低频道通信下进行多机器人合作。这些表示形式与新的方法一起在导航中使用，以在一般的3D环境中可见性受限的知情搜索，而对环境结构没有任何假设，同时将深度探索与传感器覆盖的剥削保持平衡。所提出的解决方案还包括一条视觉感知管道，用于在没有专用GPU的情况下在5 Hz处进行四个RGB流中感兴趣的对象的板上检测和定位。除了参与DARPA SubT外，在定性和定量评估的各种环境中，在不同的环境中进行了广泛的实验验证，UAV系统的性能得到了支持。

translated by 谷歌翻译

Towards Automating Retinoscopy for Refractive Error Diagnosis

Aditya Aggarwal , Siddhartha Gairola , Uddeshya Upadhyay , Akshay P Vasishta , Diwakar Rao , Aditya Goyal , Kaushik Murali , Nipun Kwatra , Mohit Jain

分类：计算机视觉

2022-08-10

折射率是最常见的眼睛障碍，是可更正视觉障碍的关键原因，造成了美国近80％的视觉障碍。可以使用多种方法诊断折射误差，包括主观折射，视网膜镜检查和自动磨蚀器。尽管主观折射是黄金标准，但它需要患者的合作，因此不适合婴儿，幼儿和发育迟缓的成年人。视网膜镜检查是一种客观折射方法，不需要患者的任何输入。但是，视网膜镜检查需要镜头套件和训练有素的检查员，这限制了其用于大规模筛查的使用。在这项工作中，我们通过将智能手机连接到视网膜镜和录制视网膜镜视频与患者戴着定制的纸框架来自动化自动化。我们开发了一个视频处理管道，该管道将视网膜视频视为输入，并根据我们提出的视网膜镜检查数学模型的扩展来估算净屈光度错误。我们的系统减轻了对镜头套件的需求，可以由未经培训的检查员进行。在一项185只眼睛的临床试验中，我们的灵敏度为91.0％，特异性为74.0％。此外，与主观折射测量相比，我们方法的平均绝对误差为0.75 $ \ pm $ 0.67D。我们的结果表明，我们的方法有可能用作现实世界中医疗设置中的基于视网膜镜检查的折射率筛选工具。

translated by 谷歌翻译

STTAR: Surgical Tool Tracking using off-the-shelf Augmented Reality Head-Mounted Displays

Alejandro Martin-Gomez , Haowei Li , Tianyu Song , Sheng Yang , Guangzhi Wang , Hui Ding , Nassir Navab , Zhe Zhao , Mehran Armand

分类：机器人

2022-08-17

使用增强现实（AR）用于导航目的，这表明在手术手术过程中协助医生有益。这些应用通常需要知道外科手术工具和患者的姿势，以提供外科医生在任务执行过程中可以使用的视觉信息。现有的医学级跟踪系统使用放置在手术室内的红外摄像头（OR）来识别感兴趣的对象附加并计算其姿势的复古反射标记。一些市售的AR头式显示器（HMD）使用类似的摄像头进行自定位，手动跟踪和估算对象的深度。这项工作提出了一个使用AR HMD的内置摄像机来准确跟踪复古反射标记的框架，例如在手术过程中使用的标记，而无需集成任何其他组件。该框架还能够同时跟踪多个工具。我们的结果表明，横向翻译的准确度为0.09 +-0.06毫米，可以实现标记的跟踪和检测，纵向翻译的0.42 +-0.32 mm，绕垂直轴旋转的0.80 +-0.39 ver。此外，为了展示所提出的框架的相关性，我们在手术程序的背景下评估了系统的性能。该用例旨在在骨科过程中复制K-Wire插入的场景。为了进行评估，为两名外科医生和一名生物医学研究人员提供了视觉导航，每次都进行了21次注射。该用例的结果提供了与基于AR的导航程序报告的相当精度。

translated by 谷歌翻译

Camera Measurement of Physiological Vital Signs

Daniel McDuff

分类：计算机视觉 | 机器学习

2021-11-22

对医疗保健监控的远程工具的需求从未如此明显。摄像机测量生命体征利用成像装置通过分析人体的图像来计算生理变化。建立光学，机器学习，计算机视觉和医学的进步这些技术以来的数码相机的发明以来已经显着进展。本文介绍了对生理生命体征的相机测量综合调查，描述了它们可以测量的重要标志和实现所做的计算技术。我涵盖了临床和非临床应用以及这些应用需要克服的挑战，以便从概念上推进。最后，我描述了对研究社区可用的当前资源（数据集和代码），并提供了一个全面的网页（https://cameravitals.github.io/），其中包含这些资源的链接以及其中引用的所有文件的分类列表文章。

translated by 谷歌翻译

An Event-based Algorithm for Simultaneous 6-DOF Camera Pose Tracking and Mapping

Masoud Dayani Najafabadi , Mohammad Reza Ahmadzadeh

分类：计算机视觉

2023-01-02

Compared to regular cameras, Dynamic Vision Sensors or Event Cameras can output compact visual data based on a change in the intensity in each pixel location asynchronously. In this paper, we study the application of current image-based SLAM techniques to these novel sensors. To this end, the information in adaptively selected event windows is processed to form motion-compensated images. These images are then used to reconstruct the scene and estimate the 6-DOF pose of the camera. We also propose an inertial version of the event-only pipeline to assess its capabilities. We compare the results of different configurations of the proposed algorithm against the ground truth for sequences of two publicly available event datasets. We also compare the results of the proposed event-inertial pipeline with the state-of-the-art and show it can produce comparable or more accurate results provided the map estimate is reliable.

translated by 谷歌翻译

High-temporal-resolution event-based vehicle detection and tracking

Zaid El-Shair , Samir Rawashdeh

分类：计算机视觉

2022-12-29

Event-based vision has been rapidly growing in recent years justified by the unique characteristics it presents such as its high temporal resolutions (~1us), high dynamic range (>120dB), and output latency of only a few microseconds. This work further explores a hybrid, multi-modal, approach for object detection and tracking that leverages state-of-the-art frame-based detectors complemented by hand-crafted event-based methods to improve the overall tracking performance with minimal computational overhead. The methods presented include event-based bounding box (BB) refinement that improves the precision of the resulting BBs, as well as a continuous event-based object detection method, to recover missed detections and generate inter-frame detections that enable a high-temporal-resolution tracking output. The advantages of these methods are quantitatively verified by an ablation study using the higher order tracking accuracy (HOTA) metric. Results show significant performance gains resembled by an improvement in the HOTA from 56.6%, using only frames, to 64.1% and 64.9%, for the event and edge-based mask configurations combined with the two methods proposed, at the baseline framerate of 24Hz. Likewise, incorporating these methods with the same configurations has improved HOTA from 52.5% to 63.1%, and from 51.3% to 60.2% at the high-temporal-resolution tracking rate of 384Hz. Finally, a validation experiment is conducted to analyze the real-world single-object tracking performance using high-speed LiDAR. Empirical evidence shows that our approaches provide significant advantages compared to using frame-based object detectors at the baseline framerate of 24Hz and higher tracking rates of up to 500Hz.

translated by 谷歌翻译

Bio-inspired Polarization Event Camera

Germain Haessig , Damien Joubert , Justin Haque , Yingkai Chen , Moritz Milde , Tobi Delbruck , Viktor Gruev

分类：计算机视觉

2021-12-02

气孔（螳螂虾）视觉系统最近提供了一种用于设计范式转换极化和多光谱成像传感器的蓝图，使解决方案能够挑战医疗和遥感问题。然而，这些生物透视传感器缺乏气孔视觉系统的高动态范围（HDR）和异步偏振视觉功能，将时间分辨率限制为\〜12 ms和动态范围到\〜72 dB。在这里，我们提出了一种新的Stomatopod-Inspireation相机，其模仿持续和瞬态的生物视觉途径，以节省超出最大奈奎斯特帧速率的功率和样本数据。该生物启发传感器同时捕获同步强度帧和异步偏振亮度改变信息与百万倍的照明范围内的子毫秒延迟。我们的PDAVIS摄像机由346x260像素组成，组织在2×2宏像素中，该型滤光器有4个线性偏振滤波器偏移45度。使用基于低成本和延迟事件的算法和更准确但深度神经网络的更准确而是重建极化信息。我们的传感器用于图像在快速循环载荷下观察牛筋膜中单胶原纤维的单胶原纤维的动态性能

translated by 谷歌翻译

Parallel tracking and mapping for small AR workspaces

分类：

This paper presents a method of estimating camera pose in an unknown scene. While this has previously been attempted by adapting SLAM algorithms developed for robotic exploration, we propose a system specifically designed to track a hand-held camera in a small AR workspace. We propose to split tracking and mapping into two separate tasks, processed in parallel threads on a dual-core computer: one thread deals with the task of robustly tracking erratic hand-held motion, while the other produces a 3D map of point features from previously observed video frames. This allows the use of computationally expensive batch optimisation techniques not usually associated with real-time operation: The result is a system that produces detailed maps with thousands of landmarks which can be tracked at frame-rate, with an accuracy and robustness rivalling that of state-of-the-art model-based systems.

translated by 谷歌翻译

Team CERBERUS Wins the DARPA Subterranean Challenge: Technical Overview and Lessons Learned

Marco Tranzatto , Mihir Dharmadhikari , Lukas Bernreiter , Marco Camurri , Shehryar Khattak , Frank Mascarich , Patrick Pfreundschuh , David Wisth , Samuel Zimmermann , Mihir Kulkarni

分类：机器人

2022-07-11

本文介绍了Cerberus机器人系统系统，该系统赢得了DARPA Subterranean挑战最终活动。出席机器人自主权。由于其几何复杂性，降解的感知条件以及缺乏GPS支持，严峻的导航条件和拒绝通信，地下设置使自动操作变得特别要求。为了应对这一挑战，我们开发了Cerberus系统，该系统利用了腿部和飞行机器人的协同作用，再加上可靠的控制，尤其是为了克服危险的地形，多模式和多机器人感知，以在传感器退化，以及在传感器退化的条件下进行映射以及映射通过统一的探索路径计划和本地运动计划，反映机器人特定限制的弹性自主权。 Cerberus基于其探索各种地下环境及其高级指挥和控制的能力，表现出有效的探索，对感兴趣的对象的可靠检测以及准确的映射。在本文中，我们报告了DARPA地下挑战赛的初步奔跑和最终奖项的结果，并讨论了为社区带来利益的教训所面临的亮点和挑战。

translated by 谷歌翻译

3D Labeling Tool

John Rachwan , Charbel Zalaket

分类：计算机视觉 | 人工智能

2022-07-23

培训和测试监督对象检测模型需要大量带有地面真相标签的图像。标签定义图像中的对象类及其位置，形状以及可能的其他信息，例如姿势。即使存在人力，标签过程也非常耗时。我们引入了一个新的标签工具，用于2D图像以及3D三角网格：3D标记工具（3DLT）。这是一个独立的，功能丰富和跨平台软件，不需要安装，并且可以在Windows，MacOS和基于Linux的发行版上运行。我们不再像当前工具那样在每个图像上分别标记相同的对象，而是使用深度信息从上述图像重建三角形网格，并仅在上述网格上标记一次对象。我们使用注册来简化3D标记，离群值检测来改进2D边界框的计算和表面重建，以将标记可能性扩展到大点云。我们的工具经过最先进的方法测试，并且在保持准确性和易用性的同时，它极大地超过了它们。

translated by 谷歌翻译

Neural Camera Models

Igor Vasiljevic

分类：计算机视觉

2022-08-27

现代计算机视觉已超越了互联网照片集的领域，并进入了物理世界，通过非结构化的环境引导配备摄像头的机器人和自动驾驶汽车。为了使这些体现的代理与现实世界对象相互作用，相机越来越多地用作深度传感器，重建了各种下游推理任务的环境。机器学习辅助的深度感知或深度估计会预测图像中每个像素的距离。尽管已经在深入估算中取得了令人印象深刻的进步，但仍然存在重大挑战：（1）地面真相深度标签很难大规模收集，（2）通常认为相机信息是已知的，但通常是不可靠的，并且（3）限制性摄像机假设很常见，即使在实践中使用了各种各样的相机类型和镜头。在本论文中，我们专注于放松这些假设，并描述将相机变成真正通用深度传感器的最终目标的贡献。

translated by 谷歌翻译

Kinectfusion: Real-time dense surface mapping and tracking

分类：

Figure 1: Example output from our system, generated in real-time with a handheld Kinect depth camera and no other sensing infrastructure. Normal maps (colour) and Phong-shaded renderings (greyscale) from our dense reconstruction system are shown. On the left for comparison is an example of the live, incomplete, and noisy data from the Kinect sensor (used as input to our system).

translated by 谷歌翻译

Real-Time Optical Flow for Vehicular Perception with Low- and High-Resolution Event Cameras

Vincent Brebion , Julien Moreau , Franck Davoine

分类：计算机视觉

2021-12-20

事件摄像机捕获观察到的场景中的照明的变化，而不是累积光以创建图像。因此，它们允许在高速运动和复杂的照明条件下的应用，其中传统的框架传感器显示它们的模糊和过度或未出现的像素的限制。由于这些独特的属性，它们表示现在是与其相关的应用的高度有吸引力的传感器。在这些神经形式相机的普及升高之后，已经研究了基于事件的光流（EBOF）。然而，最近的高清神经晶体传感器的到来挑战现有方法，因为事件像素阵列的分辨率增加和更高的吞吐量。作为这些点的答案，我们提出了一种用于实时计算光流的优化框架，以及低分辨率的事件摄像机。我们以“逆指数距离表面”的形式为稀疏事件流制定了一种新的密集表示。它用作临时框架，专为使用证明，最先进的基于框架的光流量计算方法而设计。我们评估我们在低分辨率和高分辨率驾驶序列上的方法，并表明它通常比当前现有技术更好地实现更好的结果，同时也达到更高的帧速率，250Hz在346 x 260像素和77Hz在1280 x 720像素。

translated by 谷歌翻译

SL Sensor: An Open-Source, ROS-Based, Real-Time Structured Light Sensor for High Accuracy Construction Robotic Applications

Teng Foong Lam , Hermann Blum , Roland Siegwart , Abel Gawel

分类：机器人

2022-01-22

许多施工机器人任务（例如自动水泥抛光或机器人石膏喷涂）需要高精度3D表面信息。但是，目前在市场上发现的消费级深度摄像头还不够准确，对于需要毫米（mm）级别准确性的这些任务。本文介绍了SL传感器，SL传感器是一种结构化的光传感溶液，能够通过利用相移初量法（PSP）编码技术来生产5 Hz的高保真点云。将SL传感器与两个商用深度摄像机进行了比较 - Azure Kinect和Realsense L515。实验表明，SL传感器以室内表面重建应用的精度和精度超过了两个设备。此外，为了证明SL传感器成为机器人应用的结构化光传感研究平台的能力，开发了运动补偿策略，该策略允许SL传感器在传统PSP方法仅在传感器静态时工作时在线性运动过程中运行。现场实验表明，SL传感器能够生成喷雾灰泥表面的高度详细的重建。机器人操作系统（ROS）的软件和SL传感器的示例硬件构建是开源的，其目的是使结构化的光传感更容易被施工机器人社区访问。所有文档和代码均可在https://github.com/ethz-asl/sl_sensor/上获得。

translated by 谷歌翻译