智能论文笔记

Image To Tree with Recursive Prompting

James Batten , Matthew Sinclair , Ben Glocker , Michiel Schaap

分类：计算机视觉 | 机器学习

2023-01-01

Extracting complex structures from grid-based data is a common key step in automated medical image analysis. The conventional solution to recovering tree-structured geometries typically involves computing the minimal cost path through intermediate representations derived from segmentation masks. However, this methodology has significant limitations in the context of projective imaging of tree-structured 3D anatomical data such as coronary arteries, since there are often overlapping branches in the 2D projection. In this work, we propose a novel approach to predicting tree connectivity structure which reformulates the task as an optimization problem over individual steps of a recursive process. We design and train a two-stage model which leverages the UNet and Transformer architectures and introduces an image-based prompting technique. Our proposed method achieves compelling results on a pair of synthetic datasets, and outperforms a shortest-path baseline.

translated by 谷歌翻译

NeuralVDB: High-resolution Sparse Volume Representation using Hierarchical Neural Networks

Doyub Kim , Minjae Lee , Ken Museth

分类：机器学习 | 计算机视觉

2022-08-08

我们介绍了NeuralVDB，它通过利用机器学习的最新进步来提高现有的行业标准，以有效地存储稀疏体积数据，表示VDB。我们的新型混合数据结构可以通过数量级来减少VDB体积的内存足迹，同时保持其灵活性，并且只会产生一个小（用户控制的）压缩误差。具体而言，NeuralVDB用多个层次神经网络替换了浅和宽VDB树结构的下节点，这些神经网络分别通过神经分类器和回归器分别编码拓扑和价值信息。这种方法已证明可以最大化压缩比，同时保持高级VDB数据结构提供的空间适应性。对于稀疏的签名距离字段和密度量，我们已经观察到从已经压缩的VDB输入中的$ 10 \ times $ $ $ \ $ 100 \ $ 100 \ $ 100 \ $ 100 \ $ 100的压缩比，几乎没有可视化伪像。我们还展示了其在动画稀疏体积上的应用如何加速训练并产生时间连贯的神经网络。

translated by 谷歌翻译

Human Treelike Tubular Structure Segmentation: A Comprehensive Review and Future Perspectives

Hao Li , Zeyu Tang , Yang Nan , Guang Yang

分类：计算机视觉 | 机器学习

2022-07-12

人类生理学中的各种结构遵循特异性形态，通常在非常细的尺度上表达复杂性。这种结构的例子是胸前气道，视网膜血管和肝血管。可以观察到可以观察到可以观察到可以观察到可以观察到空间排列的磁共振成像（MRI），计算机断层扫描（CT），光学相干断层扫描（OCT）等医学成像模式（MRI），计算机断层扫描（CT），可以观察到空间排列的大量2D和3D图像的集合。这些结构在医学成像中的分割非常重要，因为对结构的分析提供了对疾病诊断，治疗计划和预后的见解。放射科医生手动标记广泛的数据通常是耗时且容易出错的。结果，在过去的二十年中，自动化或半自动化的计算模型已成为医学成像的流行研究领域，迄今为止，许多计算模型已经开发出来。在这项调查中，我们旨在对当前公开可用的数据集，细分算法和评估指标进行全面审查。此外，讨论了当前的挑战和未来的研究方向。

translated by 谷歌翻译

Translating a Visual LEGO Manual to a Machine-Executable Plan

Ruocheng Wang , Yunzhi Zhang , Jiayuan Mao , Chin-Yi Cheng , Jiajun Wu

分类：计算机视觉 | 人工智能

2022-07-25

我们研究了将人类设计师创建的基于图像的，逐步组装手册转换为机器可解剖说明的问题。我们将此问题提出为顺序预测任务：在每个步骤中，我们的模型都读取手册，将要添加到当前形状中的组件定位，并注入其3D姿势。此任务构成了在手动图像和实际3D对象之间建立2D-3D对应关系的挑战，以及对看不见的3D对象的3D姿势估计，因为要在步骤中添加的新组件可以是从前一个步骤中构建的对象。为了应对这两个挑战，我们提出了一个基于学习的新型框架，即手动到执行计划网络（MEPNET），该网络（MEPNET）从一系列手动图像中重建了组装步骤。关键思想是将神经2D关键点检测模块和2D-3D投影算法进行高精度预测和强有力的概括为看不见的组件。 MEPNET在三个新收集的乐高手册数据集和Minecraft House数据集上优于现有方法。

translated by 谷歌翻译

Generalizable Patch-Based Neural Rendering

Mohammed Suhail , Carlos Esteves , Leonid Sigal , Ameesh Makadia

分类：计算机视觉

2022-07-21

自从神经辐射场（NERF）出现以来，神经渲染引起了极大的关注，并且已经大大推动了新型视图合成的最新作品。最近的重点是在模型上过度适合单个场景，以及学习模型的一些尝试，这些模型可以综合看不见的场景的新型视图，主要包括将深度卷积特征与类似NERF的模型组合在一起。我们提出了一个不同的范式，不需要深层特征，也不需要类似NERF的体积渲染。我们的方法能够直接从现场采样的贴片集中直接预测目标射线的颜色。我们首先利用表现几何形状沿着每个参考视图的异性线提取斑块。每个贴片线性地投影到1D特征向量和一系列变压器处理集合中。对于位置编码，我们像在光场表示中一样对射线进行参数化，并且至关重要的差异是坐标是相对于目标射线的规范化的，这使我们的方法与参考帧无关并改善了概括。我们表明，即使接受比先前的工作要少得多的数据训练，我们的方法在新颖的综合综合方面都超出了最新的视图综合。

translated by 谷歌翻译

Multi-initialization Optimization Network for Accurate 3D Human Pose and Shape Estimation

Zhiwei Liu , Xiangyu Zhu , Lu Yang , Xiang Yan , Ming Tang , Zhen Lei , Guibo Zhu , Xuetao Feng , Yan Wang , Jinqiao Wang

分类：计算机视觉

2021-12-24

3D从单眼RGB图像中的人类姿势和形状恢复是一个具有挑战性的任务。基于现有的基于学习的方法高度依赖于弱监管信号，例如， 2D和3D联合位置，由于缺乏野外配对的3D监督。然而，考虑到这些弱监管标签中存在的2D-3D模糊，网络在用此类标签培训时容易在本地最佳状态下卡。在本文中，我们通过优化多个初始化来减少势措施。具体而言，我们提出了一个名为多初始化优化网络（MION）的三级框架。在第一阶段，我们策略性地选择与输入样本的2D关键点兼容的不同粗略的3D重建候选。每个粗略重建可以被视为初始化导致一个优化分支。在第二阶段，我们设计网格精制变压器（MRT）以分别通过自我关注机制来优化每个粗略重建结果。最后，提出了一种一致性估计网络（CEN）来通过评估RGB图像中的视觉证据与给定的3D重建匹配，以通过评估来查找来自候选的最佳结果。实验表明，我们的多初始化优化网络优于多个公共基准上的现有3D网格的方法。

translated by 谷歌翻译

Gaussian map predictions for 3D surface feature localisation and counting

Justin Le Louëdec , Grzegorz Cielniak

分类：计算机视觉 | 机器学习

2021-12-07

在本文中，我们建议采用高斯地图表示来估计3D表面特征的精确位置和计数，基于在存在局部干扰的情况下挣扎的密度估计来解决最先进方法的限制。高斯地图表示可能的对象位置，可以直接从keypoint注释生成避免费力且昂贵的每像素注释。我们将该方法应用于可以投射到2D形状表示的3D球面类对象，该模拟能够通过神经网络GNet的有效处理，改进的UNET架构，这产生了表面特征的可能位置及其精确计数。我们证明了这种技术对数替代的果实质量措施计算了这种技术的实际用途。培训拟议系统的结果从公共可公共数据集培训了几百次3D扫描草莓的3D扫描展示了系统的准确性和精度，这优于本申请的最先进的基于密度的方法。

translated by 谷歌翻译

Neural Geometric Level of Detail: Real-time Rendering with Implicit 3D Shapes

Towaki Takikawa , Joey Litalien , Kangxue Yin , Karsten Kreis , Charles Loop , Derek Nowrouzezahrai , Alec Jacobson , Morgan McGuire , Sanja Fidler

分类：

2021-01-26

Neural signed distance functions (SDFs) are emerging as an effective representation for 3D shapes. State-of-theart methods typically encode the SDF with a large, fixedsize neural network to approximate complex shapes with implicit surfaces. Rendering with these large networks is, however, computationally expensive since it requires many forward passes through the network for every pixel, making these representations impractical for real-time graphics. We introduce an efficient neural representation that, for the first time, enables real-time rendering of high-fidelity neural SDFs, while achieving state-of-the-art geometry reconstruction quality. We represent implicit surfaces using an octree-based feature volume which adaptively fits shapes with multiple discrete levels of detail (LODs), and enables continuous LOD with SDF interpolation. We further develop an efficient algorithm to directly render our novel neural SDF representation in real-time by querying only the necessary LODs with sparse octree traversal. We show that our representation is 2-3 orders of magnitude more efficient in terms of rendering speed compared to previous works. Furthermore, it produces state-of-the-art reconstruction quality for complex shapes under both 3D geometric and 2D image-space metrics.

translated by 谷歌翻译

NeSF: Neural Semantic Fields for Generalizable Semantic Segmentation of 3D Scenes

Suhani Vora , Noha Radwan , Klaus Greff , Henning Meyer , Kyle Genova , Mehdi S. M. Sajjadi , Etienne Pot , Andrea Tagliasacchi , Daniel Duckworth

分类：计算机视觉 | 机器人

2021-11-25

我们呈现NESF，一种用于单独从构成的RGB图像中生成3D语义场的方法。代替经典的3D表示，我们的方法在最近的基础上建立了隐式神经场景表示的工作，其中3D结构被点亮功能捕获。我们利用这种方法来恢复3D密度领域，我们然后在其中培训由构成的2D语义地图监督的3D语义分段模型。尽管仅在2D信号上培训，我们的方法能够从新颖的相机姿势生成3D一致的语义地图，并且可以在任意3D点查询。值得注意的是，NESF与产生密度场的任何方法兼容，并且随着密度场的质量改善，其精度可提高。我们的实证分析在复杂的实际呈现的合成场景中向竞争性2D和3D语义分割基线表现出可比的质量。我们的方法是第一个提供真正密集的3D场景分段，需要仅需要2D监督培训，并且不需要任何关于新颖场景的推论的语义输入。我们鼓励读者访问项目网站。

translated by 谷歌翻译

Structure and position-aware graph neural network for airway labeling

Weiyi Xie , Colin Jacobs , Jean-Paul Charbonnier , Bram van Ginneken

分类：计算机视觉

2022-01-12

我们提出了一种基于图的基于图的方法，用于标记给定的气道树分割的解剖学分支。该方法在气道树图中制定了气道标记作为分支分类问题，其中使用卷积神经网络（CNN）提取分支特征，并使用图形神经网络富集。我们的图形神经网络是通过从其本地邻居的每个节点聚合信息来实现的结构感知，并通过编码图中的节点位置来定位。我们在来自慢性阻塞性肺病（COPD）的各种严重阶段的受试者的220个气道树上评估了该方法。结果表明，我们的方法是计算上高效的，并且显着提高了分支分类性能而不是基线方法。与标准CNN方法获得的83.83 \％相比，我们的方法的总体平均精度达到91.18 \％。我们在https://github.com/diagnijmegen/spgnn发布了我们的源代码。该算法还在HTTPS://grand-Challenge.org/algorithms/airway-anatomical-labeling/上公开使用。

translated by 谷歌翻译

A lightweight Transformer-based model for fish landmark detection

Alzayat Saleh , David Jones , Dean Jerry , Mostafa Rahimi Azghadi

分类：计算机视觉

2022-09-13

当有足够的训练数据时，在某些视力任务中，基于变压器的模型（例如Vision Transformer（VIT））可以超越跨趋化神经网络（CNN）。然而，（CNN）对视力任务（即翻译均衡和局部性）具有强大而有用的归纳偏见。在这项工作中，我们开发了一种新颖的模型架构，我们称之为移动鱼类地标检测网络（MFLD-NET）。我们已经使用基于VIT的卷积操作（即斑块嵌入，多层感知器）制作了该模型。 MFLD-NET可以在轻巧的同时获得竞争性或更好的结果，同时轻巧，因此适用于嵌入式和移动设备。此外，我们表明MFLD-NET可以在PAR上获得关键点（地标）估计精度，甚至比FISH图像数据集上的某些最先进的（CNN）更好。此外，与VIT不同，MFLD-NET不需要预训练的模型，并且在小型数据集中训练时可以很好地概括。我们提供定量和定性的结果，以证明该模型的概括能力。这项工作将为未来开发移动但高效的鱼类监测系统和设备的努力奠定基础。

translated by 谷歌翻译

VPFusion: Joint 3D Volume and Pixel-Aligned Feature Fusion for Single and Multi-view 3D Reconstruction

Jisan Mahmud , Jan-Michael Frahm

分类：计算机视觉

2022-03-14

我们引入了统一的单一和多视图神经隐式3D重建框架VPFusion。 VPFusion使用-3D功能卷获得高质量的重建，以捕获3D结构感知的上下文和像素对齐的图像特征，以捕获精细的本地细节。现有方法使用RNN，功能池或注意力在每个视图中独立计算以进行多视图融合。 RNN遭受长期记忆丧失和置换差异的困扰，而特征池或独立计算的注意力会导致每种视图中的表示形式在最后的合并步骤之前都不知道其他视图。相比之下，我们通过建立基于变压器的成对视图关联来显示改进的多视图融合。特别是，我们提出了一种新颖的交错3D推理和成对视图的关联结构，以跨不同视图的特征体积融合。使用此结构感知和多视图感知功能量，与现有方法相比，我们显示出改进的3D重建性能。 VPFusion还通过合并与像素一致的本地图像功能来进一步提高重建质量，以捕获细节。我们验证了VPFusion在Shapenet和ModelNet数据集上的有效性，在该数据集中，我们在该数据集中胜过或执行最先进的单个和多视图3D形状重建方法。

translated by 谷歌翻译

Comprehensive Review of Deep Learning-Based 3D Point Cloud Completion Processing and Analysis

Ben Fei , Weidong Yang , Wenming Chen , Zhijun Li , Yikang Li , Tao Ma , Xing Hu , Lipeng Ma

分类：计算机视觉

2022-03-07

Point cloud completion is a generation and estimation issue derived from the partial point clouds, which plays a vital role in the applications in 3D computer vision. The progress of deep learning (DL) has impressively improved the capability and robustness of point cloud completion. However, the quality of completed point clouds is still needed to be further enhanced to meet the practical utilization. Therefore, this work aims to conduct a comprehensive survey on various methods, including point-based, convolution-based, graph-based, and generative model-based approaches, etc. And this survey summarizes the comparisons among these methods to provoke further research insights. Besides, this review sums up the commonly used datasets and illustrates the applications of point cloud completion. Eventually, we also discussed possible research trends in this promptly expanding field.

translated by 谷歌翻译

Coarse-to-fine Animal Pose and Shape Estimation

Chen Li , Gim Hee Lee

分类：计算机视觉 | 机器学习

2021-11-16

大多数现有的动物姿势和形状估计方法用参数模型重建动物网格。这是因为Smal模型的低维姿势和形状参数使得深网络更容易学习高维动物网。然而，Smal模型从具有限制和形状变化的玩具动物的扫描学习，因此可能无法良好地代表高度不同的真实动物。这可能导致估计网格的差，例如2D证据的差。 2d关键点或剪影。为了缓解此问题，我们提出了一种从单个图像重建3D动物网格的粗细方法。粗略估计阶段首先估计Smal模型的姿势，形状和翻译参数。然后将估计的网格用作图表卷积网络（GCN）的起点，以预测细化阶段的每顶顶点变形。基于SMAL和基于顶点的表示的这种组合来自参数和非参数表示。我们将网眼细化GCN（MRGCN）设计为具有分层特征表示的编码器解码器结构，以克服传统GCN的有限接收领域。此外，我们观察到，现有动物网格重建工作所使用的全局图像特征无法捕获用于网格细化的详细形状信息。因此，我们引入了本地特征提取器来检索顶点级别功能，并将其与全局功能一起用作MRGCN的输入。我们在Stanfordextra DataSet上测试我们的方法，实现最先进的结果。此外，我们在动物姿势和BADJA数据集中测试我们方法的泛化能力。我们的代码可在项目网站上获得。

translated by 谷歌翻译

ROAD: Learning an Implicit Recursive Octree Auto-Decoder to Efficiently Encode 3D Shapes

Sergey Zakharov , Rares Ambrus , Katherine Liu , Adrien Gaidon

分类：计算机视觉 | 机器人

2022-12-12

Compact and accurate representations of 3D shapes are central to many perception and robotics tasks. State-of-the-art learning-based methods can reconstruct single objects but scale poorly to large datasets. We present a novel recursive implicit representation to efficiently and accurately encode large datasets of complex 3D shapes by recursively traversing an implicit octree in latent space. Our implicit Recursive Octree Auto-Decoder (ROAD) learns a hierarchically structured latent space enabling state-of-the-art reconstruction results at a compression ratio above 99%. We also propose an efficient curriculum learning scheme that naturally exploits the coarse-to-fine properties of the underlying octree spatial representation. We explore the scaling law relating latent space dimension, dataset size, and reconstruction accuracy, showing that increasing the latent space dimension is enough to scale to large shape datasets. Finally, we show that our learned latent space encodes a coarse-to-fine hierarchical structure yielding reusable latents across different levels of details, and we provide qualitative evidence of generalization to novel shapes outside the training set.

translated by 谷歌翻译

Scene Representation Transformer: Geometry-Free Novel View Synthesis Through Set-Latent Scene Representations

Mehdi S. M. Sajjadi , Henning Meyer , Etienne Pot , Urs Bergmann , Klaus Greff , Noha Radwan , Suhani Vora , Mario Lucic , Daniel Duckworth , Alexey Dosovitskiy

分类：计算机视觉 | 人工智能 | 机器学习 | 机器人

2021-11-25

计算机愿景中的经典问题是推断从几个可用于以交互式速率渲染新颖视图的图像的3D场景表示。以前的工作侧重于重建预定定义的3D表示，例如，纹理网格或隐式表示，例如隐式表示。辐射字段，并且通常需要输入图像，具有精确的相机姿势和每个新颖场景的长处理时间。在这项工作中，我们提出了场景表示变换器（SRT），一种方法，该方法处理新的区域的构成或未铺设的RGB图像，Infers Infers“设置 - 潜在场景表示”，并合成新颖的视图，全部在一个前馈中经过。为了计算场景表示，我们提出了视觉变压器的概括到图像组，实现全局信息集成，从而实现3D推理。一个有效的解码器变压器通过参加场景表示来参加光场以呈现新颖的视图。通过最大限度地减少新型视图重建错误，学习是通过最终到底的。我们表明，此方法在PSNR和Synthetic DataSets上的速度方面优于最近的基线，包括为纸张创建的新数据集。此外，我们展示了使用街景图像支持现实世界户外环境的交互式可视化和语义分割。

translated by 谷歌翻译

Automated Precision Localization of Peripherally Inserted Central Catheter Tip through Model-Agnostic Multi-Stage Networks

Subin Park , Yoon Ki Cha , Soyoung Park , Kyung-Su Kim , Myung Jin Chung

分类：计算机视觉

2022-06-14

外围插入的中央导管（PICC）由于其长期的血管内渗透感具有低感染率，因此已被广泛用作代表性的中央静脉线（CVC）之一。但是，PICC的尖端错位频率很高，增加了刺穿，栓塞和心律不齐等并发症的风险。为了自动，精确地检测到它，使用最新的深度学习（DL）技术进行了各种尝试。但是，即使采用了这些方法，实际上仍然很难确定尖端位置，因为多个片段现象（MFP）发生在预测和提取PICC线之前预测尖端之前所需的PICC线的过程。这项研究旨在开发一种通常应用于现有模型的系统，并通过删除模型输出的MF来更准确地恢复PICC线路，从而精确地定位了检测其处置的实际尖端位置。为此，我们提出了一个基于多阶段DL的框架后处理，以后处理现有技术的PICC线提取结果。根据是否将MFCN应用于五个常规模型，将每个均方根误差（RMSE）和MFP发病率比较性能。在内部验证中，当将MFCN应用于现有单个模型时，MFP平均提高了45％。 RMSE从平均26.85mm（17.16至35.80mm）到9.72mm（9.37至10.98mm）的平均增长了63％以上。在外部验证中，当应用MFCN时，MFP的发病率平均下降32％，RMSE平均下降了65 \％。因此，通过应用提出的MFCN，我们观察到与现有模型相比，PICC尖端位置的显着/一致检测性能提高。

translated by 谷歌翻译

Few-Shot Keypoint Detection as Task Adaptation via Latent Embeddings

Mel Vecerik , Jackie Kay , Raia Hadsell , Lourdes Agapito , Jon Scholz

分类：机器人 | 计算机视觉

2021-12-09

密集对象跟踪，能够通过像素级精度本地化特定的对象点，是一个重要的计算机视觉任务，具有多种机器人的下游应用程序。现有方法在单个前向通行证中计算密集的键盘嵌入，这意味着模型培训以一次性跟踪所有内容，或者将它们的全部容量分配给稀疏预定义的点，交易一般性以获得准确性。在本文中，我们基于观察到给定时间的相关点数通常相对较少，例如，探索中间地面。掌握目标对象的点。我们的主要贡献是一种新颖的架构，灵感来自少量任务适应，这允许一个稀疏样式的网络在嵌入点嵌入的关键点嵌入时的条件。我们的中央发现是，这种方法提供了密集嵌入模型的一般性，同时提供准确性更加接近稀疏关键点方法。我们呈现了说明此容量与准确性权衡的结果，并使用真正的机器人挑选任务展示将转移到新对象实例（在课程中）的能力。

translated by 谷歌翻译

Enhance Connectivity of Promising Regions for Sampling-based Path Planning

Han Ma , Chenming Li , Jianbang Liu , Jiankun Wang , Max Q. -H. Meng

分类：机器人

2021-12-15

基于采样的路径规划算法通常实现均匀的采样方法来搜索状态空间。然而，统一的采样可能导致许多情况下不必要的探索，例如具有几个死角的环境。我们以前的工作建议使用有希望的区域来指导采样过程来解决问题。然而，预测的有希望区域通常是断开连接，这意味着它们无法连接到开始和目标状态，导致缺乏概率完整性。这项工作侧重于提高预测有前途地区的连通性。我们所提出的方法在x和y方向上回归边缘的连接概率。此外，它可以计算丢失中有希望的边缘的重量，以引导神经网络更加关注有前景区域的连通性。我们进行一系列仿真实验，结果表明，有前途地区的连接性显着提高。此外，我们分析了连接基于采样的路径规划算法的影响，并得出结论，连接在维护算法性能方面发挥着重要作用。

translated by 谷歌翻译

Fully Automated Tree Topology Estimation and Artery-Vein Classification

Aashis Khanal , Saeid Motevali , Rolando Estrada

分类：计算机视觉

2022-02-04

我们提出了一种基于图形的全自动，基于图的技术，用于提取视网膜血管拓扑（即不同的容器之间如何相互连接）给定一个彩色底面图像。确定这种连通性非常具有挑战性，因为船只在2D图像中相互交叉，掩盖了它们的真实路径。我们通过使用它来实现视网膜动脉静脉分类的可比最新结果来定量验证我们的提取方法的实用性。我们提出的方法的作用如下：我们使用先前开发的最新分割方法首先将视网膜血管分割。然后，我们估算从提取的血管中估算一个初始图，并将最可能的血流分配给每个边缘。然后，我们使用少数高级操作（HLOS）来修复图中的错误。这些HLO包括分离相邻的节点，转移边缘的端点，并逆转分支的估计血流方向。我们使用新颖的成本函数来找到给定图的最佳HLO操作集。最后，我们表明我们的提取的血管结构是正确的，可以通过沿分支的传播动脉/静脉标记来正确。正如我们的实验所表明的那样，我们基于拓扑的动脉素标签在三个数据集上实现了最新的结果：驱动器，整个范围和Inspire。我们还进行了几项消融研究，以分别验证我们提出的方法的分割和AV标记步骤的重要性。这些消融研究进一步证实，我们的图形提取管道正确地模拟了潜在的血管解剖结构。

translated by 谷歌翻译