智能论文笔记

3D Scene Understanding at Urban Intersection using Stereo Vision and Digital Map

Prarthana Bhattacharyya , Yanlei Gu , Jiali Bao , Xu Liu , Shunsuke Kamijo

分类：计算机视觉

2021-12-10

城市十字路口的驾驶行为非常复杂。因此，对于自治车辆来说至关重要，以全面了解具有挑战性的城市交通场景，以便导航交叉点和防止事故。在本文中，我们介绍了基于立体声的视觉和3D数字地图的空间和3D数字地图，并在城市交叉路口中分析了交通状况。立体视觉用于检测，分类和跟踪障碍物，而3D数字地图用于改善自我定位并在道路布局信息方面提供上下文。提出了一种概率，呈现这些几何，语义，动态和上下文提示的概率方法。我们定性地和定量评估我们在东京市峡谷中收集的实际交通数据的提出的技术，以证明该系统在提供对交通环境的全面认识方面的效果。

translated by 谷歌翻译

Robust Hyperspectral Image Fusion with Simultaneous Guide Image Denoising via Constrained Convex Optimization

Saori Takeyama , Shunsuke Ono

分类：计算机视觉

2022-09-24

本文提出了一种基于凸优化的新型高空间分辨率高光谱（HR-HS）图像估计方法。该方法假定空间分辨率HS（LR-HS）图像和指南图像作为观测值，其中两个观察结果都被噪声污染。我们的方法同时估算了HR-HS图像和无噪声指南图像，因此该方法即使被大噪声污染了指南图像中的空间信息也可以利用空间信息。提出的估计问题通过正则化采用混合空间 - 光谱总变化，并评估HR-HS和指南图像之间的边缘相似性，以有效地在指南图像中对HR-HS图像和空间细节信息有效地使用APRIORI知识。为了有效地解决该问题，我们采用了一种原始的二重分裂方法。实验证明了我们的方法的性能以及对几种现有方法的优势。

translated by 谷歌翻译

DM$^2$S$^2$: Deep Multi-Modal Sequence Sets with Hierarchical Modality Attention

Shunsuke Kitada , Yuki Iwazaki , Riku Togashi , Hitoshi Iyatomi

分类：人工智能 | 自然语言处理 | 计算机视觉 | 机器学习

2022-09-07

在各种Web应用程序（例如数字广告和电子商务）中使用多模式数据的兴趣越来越大。从多模式数据中提取重要信息的典型方法取决于结合了来自多个编码器的特征表示的中型架构。但是，随着模态数量的增加，中融合模型结构的几个潜在问题会出现，例如串联多模式特征和缺失模态的维度增加。为了解决这些问题，我们提出了一个新概念，该概念将多模式输入视为一组序列，即深度多模式序列集（DM $^2 $ S $^2 $）。我们的设置感知概念由三个组成部分组成，这些组件捕获了多种模式之间的关系：（a）基于BERT的编码器来处理序列中元素间和内级内和内级的编码器，（b）模式内的残留物（Intramra）（Intramra））捕获元素在模态中的重要性，以及（c）模式间残留的关注（Intermra），以进一步增强具有模态水平粒度的元素的重要性。我们的概念表现出与以前的设置感知模型相当或更好的性能。此外，我们证明了学识渊博的Intermra和Intramra权重的可视化可以提供对预测结果的解释。

translated by 谷歌翻译

Expressions Causing Differences in Emotion Recognition in Social Networking Service Documents

Tsubasa Nakagawa , Shunsuke Kitada , Hitoshi Iyatomi

分类：自然语言处理 | 人工智能 | 机器学习

2022-08-30

通常很难从网上交换的文本中正确推断作家的情绪，而作家和读者之间的认可差异可能会出现问题。在本文中，我们提出了一个新的框架，用于检测句子，以在作者和读者之间在情感识别上产生差异，并检测引起这种差异的表达方式。所提出的框架由基于变压器（BERT）的检测器的双向编码器表示，该表示器检测句子，导致情绪识别差异，并分析获得在此类句子中特征性出现的表达式。该探测器基于由作者和社交网络服务（SNS）文档的三个读者注释的日本SNS文档数据集，并以AUC = 0.772检测到“隐藏的天角句子”；这些句子引起了人们对愤怒的认识的差异。由于SNS文档包含许多句子，这些句子的含义很难通过分析该检测器检测到的句子来解释，因此我们获得了几种表达式，这些表达式在隐藏的角度句子中出现。被发现的句子和表情并不能明确传达愤怒，很难推断作家的愤怒，但是如果指出了隐性的愤怒，就有可能猜测作者为什么生气。在实际使用中，该框架很可能有能力根据误解来缓解问题。

translated by 谷歌翻译

Neural Strands: Learning Hair Geometry and Appearance from Multi-View Images

Radu Alexandru Rosu , Shunsuke Saito , Ziyan Wang , Chenglei Wu , Sven Behnke , Giljoo Nam

分类：计算机视觉

2022-07-28

我们提出了神经链，这是一个新颖的学习框架，用于对多视图图像输入进行准确的头发几何形状和外观进行建模。从任何观点都具有高保真视图依赖性效果，可以实时渲染学习的头发模型。我们的模型可实现直观的形状和风格控制，与体积同行不同。为了实现这些特性，我们提出了一种基于神经头皮纹理的新型头发表示，该神经头皮纹理编码每个Texel位置的单个链的几何形状和外观。此外，我们基于学习的头发链的栅格化引入了一个新型的神经渲染框架。我们的神经渲染是链的和抗氧化的，使渲染视图一致且逼真。将外观与多视图几何事先结合在一起，我们首次启用了外观的联合学习和从多视图设置的显式头发几何形状。我们证明了我们的方法在各种发型的忠诚度和效率方面的功效。

translated by 谷歌翻译

Graph Spatio-Spectral Total Variation Model for Hyperspectral Image Denoising

Shingo Takemoto , Kazuki Naganuma , Shunsuke Ono

分类：计算机视觉

2022-07-22

空间谱总变化（SSTV）模型已被广泛用作高光谱图像（HSI）的有效正规化，用于各种应用，例如混合噪声去除。但是，由于SSTV统一地计算局部空间差异，因此很难消除噪声，同时保留具有细边和纹理的复杂空间结构，尤其是在高噪声强度的情况下。为了解决这个问题，我们提出了一种称为Graph-SSTV（GSSTV）的新电视型正则化，该图从噪声HSIS明确反映了目标HSI的空间结构，并结合了基于此图的加权空间差异操作员。此外，我们将混合噪声删除问题作为涉及GSSTV的凸优化问题，并基于原始的双重分裂方法开发有效的算法来解决此问题。最后，我们通过消除混合噪声的实验与现有的HSI正则化模型相比，证明了GSSTV的有效性。源代码将在https://www.mdi.c.titech.ac.ac.jp/publications/gsstv上找到。

translated by 谷歌翻译

Drivable Volumetric Avatars using Texel-Aligned Features

Edoardo Remelli , Timur Bagautdinov , Shunsuke Saito , Tomas Simon , Chenglei Wu , Shih-En Wei , Kaiwen Guo , Zhe Cao , Fabian Prada , Jason Saragih

分类：计算机视觉

2022-07-20

逼真的触觉需要高保真的身体建模和忠实的驾驶才能使动态合成的外观与现实无法区分。在这项工作中，我们提出了一个端到端框架，该框架解决了建模和推动真实人的全身化身方面的两个核心挑战。一个挑战是驾驶头像，同时忠实地遵守细节和动态，而这些细节和动态无法被全球低维参数化（例如身体姿势）所捕捉。我们的方法支持驾驶穿着皱纹和运动的衣服化身，而真正的驾驶表演者展出了训练语料库。与现有的全局状态表示或非参数屏幕空间方法不同，我们介绍了Texel对准功能 - 一种本地化表示，可以利用基于骨架的参数模型的结构先验和同时观察到的稀疏图像信号。另一个挑战是建模临时连贯的衣服头像，通常需要精确的表面跟踪。为了避免这种情况，我们通过将体积原语的混合物扩展到清晰的物体，提出了一种新型的体积化头像表示。通过明确合并表达，我们的方法自然而然地概括了看不见的姿势。我们还介绍了局部视点条件，从而导致了依赖视图的外观的概括。拟议的体积表示不需要高质量的网格跟踪作为先决条件，并且与基于网格的对应物相比，具有显着的质量改进。在我们的实验中，我们仔细研究了我们的设计选择，并证明了方法的功效，超过了最新方法在挑战驾驶方案方面的最新方法。

translated by 谷歌翻译

Goal-Aware RSS for Complex Scenarios via Program Logic

Ichiro Hasuo , Clovis Eberhart , James Haydon , Jérémy Dubut , Rose Bohrer , Tsutomu Kobayashi , Sasinee Pruekprasert , Xiao-Yi Zhang , Erik André Pallas , Akihisa Yamada

分类：机器人

2022-07-06

我们引入了责任感敏感安全性（RSS）的目标延长，这是一种基于规则的自动驾驶系统安全保证（ADS）的方法。制定RSS规则保证目标实现 - 除了原始RSS中的避免碰撞外，还需要进行长时间的操纵序列的复杂计划。为了应对复杂性，我们基于程序逻辑引入了一个构图推理框架，其中可以系统地为较小的子赛车制定RSS规则，并将它们组合起来以获取用于较大场景的RSS规则。作为框架的基础，我们介绍了一个程序逻辑DFHL，可满足连续的动态和安全条件。我们的框架介绍了基于DFHL的工作流程，用于导出目标感知RSS规则；我们也讨论其软件支持。我们在安全体系结构中使用RSS规则进行了实验评估。它的结果表明，目标感知RSS确实有效地实现了避免碰撞和目标实现目标。

translated by 谷歌翻译

Dressing Avatars: Deep Photorealistic Appearance for Physically Simulated Clothing

Donglai Xiang , Timur Bagautdinov , Tuur Stuyck , Fabian Prada , Javier Romero , Weipeng Xu , Shunsuke Saito , Jingfan Guo , Breannan Smith , Takaaki Shiratori

分类：计算机视觉

2022-06-30

尽管最近在开发动画全身化身方面取得了进展，但服装的现实建模（人类自我表达的核心方面之一）仍然是一个开放的挑战。最先进的物理模拟方法可以以交互速度产生现实行为的服装几何形状。但是，建模光真逼真的外观通常需要基于物理的渲染，这对于交互式应用来说太昂贵了。另一方面，数据驱动的深度外观模型能够有效地产生逼真的外观，但在合成高度动态服装的几何形状和处理具有挑战性的身体套构型方面挣扎。为此，我们通过对服装的明确建模介绍了姿势驱动的化身，这些化身表现出逼真的服装动力学和从现实世界数据中学到的逼真的外观。关键的想法是引入一个在显式几何形状之上运行的神经服装外观模型：在火车时，我们使用高保真跟踪，而在动画时期，我们依靠物理模拟的几何形状。我们的关键贡献是一个具有物理启发的外观网络，能够生成具有视图依赖性和动态阴影效果的影像逼真的外观，即使对于看不见的身体透明构型也是如此。我们对我们的模型进行了彻底的评估，并在几种受试者和不同类型的衣服上展示了不同的动画结果。与以前关于影迷全身化身的工作不同，我们的方法甚至可以为宽松的衣服产生更丰富的动力和更现实的变形。我们还证明，我们的配方自然允许服装与不同人的头像一起使用，同时保持完全动画，因此首次可以采用新颖的衣服来实现逼真的化身。

translated by 谷歌翻译

KeypointNeRF: Generalizing Image-based Volumetric Avatars using Relative Spatial Encoding of Keypoints

Marko Mihajlovic , Aayush Bansal , Michael Zollhoefer , Siyu Tang , Shunsuke Saito

分类：计算机视觉

2022-05-10

基于图像的体积人类使用像素对齐的特征有望泛化，从而看不见姿势和身份。先前的工作利用全局空间编码和多视图几何一致性来减少空间歧义。但是，全球编码通常会过度适应培训数据的分布，并且很难从稀疏视图中学习多视图一致的重建。在这项工作中，我们研究了现有空间编码的常见问题，并提出了一种简单而高效的方法，可以从稀疏视图中对高保真体积的人类进行建模。关键思想之一是通过稀疏3D关键点编码相对空间3D信息。这种方法对观点和跨数据库域间隙的稀疏性很强。我们的方法的表现优于头部重建的最先进方法。关于人体的重建是看不见的受试者，我们还实现了与使用参数人体模型和时间特征聚集的先前工作相当的性能。 Our experiments show that a majority of errors in prior work stem from an inappropriate choice of spatial encoding and thus we suggest a new direction for high-fidelity image-based human modeling. https://markomih.github.io/keypointnerf

translated by 谷歌翻译