智能论文笔记

Deep learning at the edge enables real-time streaming ptychographic imaging

Anakha V Babu , Tao Zhou , Saugat Kandel , Tekin Bicer , Zhengchun Liu , William Judge , Daniel J. Ching , Yi Jiang , Sinisa Veseli , Steven Henke

分类：机器学习

2022-09-20

相干显微镜技术提供了跨科学和技术领域的材料的无与伦比的多尺度视图，从结构材料到量子设备，从综合电路到生物细胞。在构造更明亮的来源和高速探测器的驱动下，连贯的X射线显微镜方法（如Ptychography）有望彻底改变纳米级材料的特征。但是，相关的数据和计算需求显着增加意味着，常规方法不再足以从高速相干成像实验实时恢复样品图像。在这里，我们演示了一个工作流程，该工作流利用边缘的人工智能和高性能计算，以实现直接从检测器直接从检测器流出的X射线ptychography数据实时反演。拟议的AI支持的工作流程消除了传统的Ptychography施加的采样约束，从而使用比传统方法所需的数据较少的数据级允许低剂量成像。

translated by 谷歌翻译

Automatically Annotating Indoor Images with CAD Models via RGB-D Scans

Stefan Ainetter , Sinisa Stekovic , Friedrich Fraundorfer , Vincent Lepetit

分类：计算机视觉

2022-12-22

We present an automatic method for annotating images of indoor scenes with the CAD models of the objects by relying on RGB-D scans. Through a visual evaluation by 3D experts, we show that our method retrieves annotations that are at least as accurate as manual annotations, and can thus be used as ground truth without the burden of manually annotating 3D data. We do this using an analysis-by-synthesis approach, which compares renderings of the CAD models with the captured scene. We introduce a 'cloning procedure' that identifies objects that have the same geometry, to annotate these objects with the same CAD models. This allows us to obtain complete annotations for the ScanNet dataset and the recent ARKitScenes dataset.

translated by 谷歌翻译

MonteBoxFinder: Detecting and Filtering Primitives to Fit a Noisy Point Cloud

Michaël Ramamonjisoa , Sinisa Stekovic , Vincent Lepetit

分类：计算机视觉

2022-07-28

我们提出了MonteboxFinder，该方法给定嘈杂的输入点云将立方体适合输入场景。我们的主要贡献是一种离散的优化算法，从一组最初检测到的立方体，它能够有效地从嘈杂的盒子中过滤好盒子。受到MCT在理解问题的最新应用的启发，我们开发了一种随机算法，该算法是通过设计更有效的。确实，适合立方排列的质量对于将立方体添加到场景的顺序中是不变的。我们为我们的问题开发了几个搜索基准，并在扫描仪数据集上证明了我们的方法更有效和精确。最后，我们坚信我们的核心算法非常笼统，并且可以扩展到3D场景理解中的许多其他问题。

translated by 谷歌翻译

MCTS with Refinement for Proposals Selection Games in Scene Understanding

Sinisa Stekovic , Mahdi Rad , Alireza Moradi , Friedrich Fraundorfer , Vincent Lepetit

分类：计算机视觉 | 人工智能

2022-07-07

我们提出了一种适用于许多场景中的新方法，理解了适应Monte Carlo Tree Search（MCTS）算法的问题，该算法最初旨在学习玩高州复杂性的游戏。从生成的建议库中，我们的方法共同选择并优化了最小化目标项的建议。在我们的第一个从点云中进行平面图重建的应用程序中，我们的方法通过优化将深度网络预测的适应性组合到房间形状上的目标函数，选择并改进了以2D多边形为模型的房间建议。我们还引入了一种新型的可区分方法来渲染这些建议的多边形形状。我们对最近且具有挑战性的结构3D和Floor SP数据集的评估对最先进的表现有了显着改进，而没有对平面图配置施加硬性约束也没有假设。在我们的第二个应用程序中，我们扩展了从颜色图像重建一般3D房间布局并获得准确的房间布局的方法。我们还表明，可以轻松扩展我们的可区分渲染器，以渲染3D平面多边形和多边形嵌入。我们的方法在MatterPort3D-Layout数据集上显示了高性能，而无需在房间布局配置上引入硬性约束。

translated by 谷歌翻译

CX-ToM: Counterfactual Explanations with Theory-of-Mind for Enhancing Human Trust in Image Recognition Models

Arjun R. Akula , Keze Wang , Changsong Liu , Sari Saba-Sadiya , Hongjing Lu , Sinisa Todorovic , Joyce Chai , Song-Chun Zhu

分类：人工智能 | 计算机视觉 | 机器学习

2021-09-03

我们提出了CX-TOM，简短于与理论的理论，一种新的可解释的AI（XAI）框架，用于解释深度卷积神经网络（CNN）制定的决定。与生成解释的XAI中的当前方法形成对比，我们将说明作为迭代通信过程，即对话框，机器和人类用户之间。更具体地说，我们的CX-TOM框架通过调解机器和人类用户的思想之间的差异，在对话中生成解释顺序。为此，我们使用思想理论（汤姆），帮助我们明确地建模人类的意图，通过人类的推断，通过机器推断出人类的思想。此外，大多数最先进的XAI框架提供了基于注意的（或热图）的解释。在我们的工作中，我们表明，这些注意力的解释不足以增加人类信任在潜在的CNN模型中。在CX-TOM中，我们使用命名为您定义的故障行的反事实解释：给定CNN分类模型M预测C_PRED的CNN分类模型M的输入图像I，错误线识别最小的语义级别特征（例如，斑马上的条纹，狗的耳朵），称为可解释的概念，需要从I添加或删除，以便将m的分类类别改变为另一个指定的c_alt。我们认为，由于CX-TOM解释的迭代，概念和反事本质，我们的框架对于专家和非专家用户来说是实用的，更加自然，以了解复杂的深度学习模式的内部运作。广泛的定量和定性实验验证了我们的假设，展示了我们的CX-TOM显着优于最先进的可解释的AI模型。

translated by 谷歌翻译