智能论文笔记

该方法不仅挑战了到目前为止在同一趋势的早期实验中使用的一些基本数学技术，而且还为有趣的结果引入了新的范围和新的视野。在该项目中已经优化了物理控制谱图，以及探索它如何处理手头的问题的强烈要求。通过该项目在光线下提出的主要贡献和发展涉及使用更好的数学技术和特定于问题的机器学习方法。在项目中使用频率掩蔽和随机频率时间拉伸等音频数据集的简易数据分析和数据增强，因此在本文中解释。在使用的方法中，还尝试和探索了音频转换原理，实际上，所获得的见解是建设性地使用的项目的后期阶段。使用深度学习原则肯定是其中之一。此外，在本文中，已经提出了潜在的范围和即将到来的时间隧道隧道。虽然所获得的大部分结果是目前的域名，但它们肯定有效地在不同背景的各种不同域中生产新的解决方案。

translated by 谷歌翻译

模拟逼真的传感器是自主系统数据生成的挑战，通常涉及精心手工的传感器设计，场景属性和物理建模。为了减轻这一点，我们引入了一条管道，用于对逼真的激光雷达传感器进行数据驱动的模拟。我们提出了一个模型，该模型可以在RGB图像和相应的LIDAR功能（例如Raydrop或每点强度）之间直接从真实数据集中进行映射。我们表明，我们的模型可以学会编码逼真的效果，例如透明表面上的掉落点或反射材料上的高强度回报。当应用于现成的模拟器软件提供的天真播放点云时，我们的模型通过根据场景的外观预测强度和删除点来增强数据，以匹配真实的激光雷达传感器。我们使用我们的技术来学习两个不同的LIDAR传感器的模型，并使用它们相应地改善模拟的LiDAR数据。通过车辆细分的示例任务，我们表明通过我们的技术增强模拟点云可以改善下游任务性能。

translated by 谷歌翻译

部分微分方程（PDE）参见在科学和工程中的广泛使用，以将物理过程的模拟描述为标量和向量场随着时间的推移相互作用和协调。由于其标准解决方案方法的计算昂贵性质，神经PDE代理已成为加速这些模拟的积极研究主题。但是，当前的方法并未明确考虑不同字段及其内部组件之间的关系，这些关系通常是相关的。查看此类相关场的时间演变通过多活动场的镜头，使我们能够克服这些局限性。多胎场由标量，矢量以及高阶组成部分组成，例如双分数和三分分射线。 Clifford代数可以描述它们的代数特性，例如乘法，加法和其他算术操作。据我们所知，本文介绍了此类多人表示的首次使用以及Clifford的卷积和Clifford Fourier在深度学习的背景下的转换。由此产生的Clifford神经层普遍适用，并将在流体动力学，天气预报和一般物理系统的建模领域中直接使用。我们通过经验评估克利福德神经层的好处，通过在二维Navier-Stokes和天气建模任务以及三维Maxwell方程式上取代其Clifford对应物中常见的神经PDE代理中的卷积和傅立叶操作。克利福德神经层始终提高测试神经PDE代理的概括能力。

translated by 谷歌翻译

Co-segmentation Inspired Attention Module for Video-based Computer Vision Tasks

Arulkumar Subramaniam , Jayesh Vaidya , Muhammed Abdul Majeed Ameen , Athira Nambiar , Anurag Mittal

分类：计算机视觉

2021-11-14

计算机视觉任务可以从估计突出物区域和这些对象区域之间的相互作用中受益。识别对象区域涉及利用预借鉴模型来执行对象检测，对象分割和/或对象姿势估计。但是，由于以下原因，在实践中不可行：1）预用模型的训练数据集的对象类别可能不会涵盖一般计算机视觉任务的所有对象类别，2）佩戴型模型训练数据集之间的域间隙并且目标任务的数据集可能会影响性能，3）预磨模模型中存在的偏差和方差可能泄漏到导致无意中偏置的目标模型的目标任务中。为了克服这些缺点，我们建议利用一系列视频帧捕获一组公共对象和它们之间的相互作用的公共基本原理，因此视频帧特征之间的共分割的概念可以用自动的能力装配模型专注于突出区域，以最终的方式提高潜在的任务的性能。在这方面，我们提出了一种称为“共分割激活模块”（COSAM）的通用模块，其可以被插入任何CNN，以促进基于CNN的任何CNN的概念在一系列视频帧特征中的关注。我们在三个基于视频的任务中展示Cosam的应用即1）基于视频的人Re-ID，2）视频字幕分类，并证明COSAM能够在视频帧中捕获突出区域，从而引导对于显着的性能改进以及可解释的关注图。

translated by 谷歌翻译