智能论文笔记

Multimeasurement Generative Models

Saeed Saremi , Rupesh Kumar Srivastava

分类： (统计)机器学习 | 机器学习

2021-12-18

我们正式地用密度$ p_x $中的未知分发问题映射了从$ \ mathbb {r} ^ d $上学习和采样$ p_ \ mathbf {y} $ in $ \ mathbb {r} ^ {使用固定因子内核将$ P_X $获得的MD} $获取：$ p_ \ mathbf {y} $被称为m密度和因子内核作为多索静音噪声模型（MNM）。 m-litess比$ p_x $更顺畅，更容易学习和示例，但对于大量的$ m $来说，由于估计$ x $来估计$ \ mathbf {y} = \ mathbf {y $使用贝叶斯估算器$ \ widehat {x}（\ mathbf {y}）= \ mathbb {e} [x \ vert \ mathbf {y} = \ mathbf {y}。为了制定问题，我们从无通知$ P_ \ MATHBF {Y} $以封闭式表达以封闭式表示的泊松和高斯MNMS获得$ \ widehat {x}（\ mathbf {y}）$。这导致了用于学习参数能量和得分功能的简单最小二乘目标。我们展示了各种兴趣的参数化方案，包括研究高斯M密度直接导致多营养的自动化器 - 这是在文献中的去噪自动化器和经验贝叶斯之间进行的第一个理论连接。来自$ P_X $的示例由步行跳转采样（Saremi＆Hyvarinen，2019）通过欠款Langevin MCMC（Walk）从$ P_ \ Mathbf {Y} $和Multimeasurement Bayes估算$ x $（跳转）。我们研究Mnist，CiFar-10和FFHQ-256数据集上的置换不变高斯M密度，并证明了该框架的有效性，以实现高尺寸的快速混合稳定的马尔可夫链。

translated by 谷歌翻译

LSTM: A Search Space Odyssey

Klaus Greff , Rupesh Kumar Srivastava , Jan Koutník , Bas R. Steunebrink , Jürgen Schmidhuber

分类：

2015-03-13

Several variants of the Long Short-Term Memory (LSTM) architecture for recurrent neural networks have been proposed since its inception in 1995. In recent years, these networks have become the state-of-the-art models for a variety of machine learning problems. This has led to a renewed interest in understanding the role and utility of various computational components of typical LSTM variants. In this paper, we present the first large-scale analysis of eight LSTM variants on three representative tasks: speech recognition, handwriting recognition, and polyphonic music modeling. The hyperparameters of all LSTM variants for each task were optimized separately using random search, and their importance was assessed using the powerful fANOVA framework. In total, we summarize the results of 5400 experimental runs (≈ 15 years of CPU time), which makes our study the largest of its kind on LSTM networks. Our results show that none of the variants can improve upon the standard LSTM architecture significantly, and demonstrate the forget gate and the output activation function to be its most critical components. We further observe that the studied hyperparameters are virtually independent and derive guidelines for their efficient adjustment.

translated by 谷歌翻译

UAV-based Visual Remote Sensing for Automated Building Inspection

Kushagra Srivastava , Dhruv Patel , Aditya Kumar Jha , Mohhit Kumar Jha , Jaskirat Singh , Ravi Kiran Sarvadevabhatla , Pradeep Kumar Ramancharla , Harikumar Kandath , K. Madhava Krishna

分类：计算机视觉 | 机器人

2022-09-27

与计算机视觉合并的基于无人机的遥感系统（UAV）遥感系统具有协助建筑物建设和灾难管理的潜力，例如地震期间的损害评估。可以通过检查来评估建筑物到地震的脆弱性，该检查考虑到相关组件的预期损害进展以及组件对结构系统性能的贡献。这些检查中的大多数是手动进行的，导致高利用人力，时间和成本。本文提出了一种通过基于无人机的图像数据收集和用于后处理的软件库来自动化这些检查的方法，该方法有助于估算地震结构参数。这里考虑的关键参数是相邻建筑物，建筑计划形状，建筑计划区域，屋顶上的对象和屋顶布局之间的距离。通过使用距离测量传感器以及通过Google Earth获得的数据进行的现场测量，可以验证所提出的方法在估计上述参数估算上述参数方面的准确性。可以从https://uvrsabi.github.io/访问其他详细信息和代码。

translated by 谷歌翻译

Video Capsule Endoscopy Classification using Focal Modulation Guided Convolutional Neural Network

Abhishek Srivastava , Nikhil Kumar Tomar , Ulas Bagci , Debesh Jha

分类：计算机视觉

2022-06-16

视频胶囊内窥镜检查是计算机视觉和医学的热门话题。深度学习会对视频胶囊内窥镜技术的未来产生积极影响。它可以提高异常检测率，减少医生的筛查时间并有助于实际临床分析。视频胶囊内窥镜检查的CADX分类系统已显示出进一步改进的巨大希望。例如，检测癌性息肉和出血会导致快速的医疗反应并提高患者的存活率。为此，自动化的CADX系统必须具有较高的吞吐量和不错的精度。在本文中，我们提出了焦距，这是一个与轻量级卷积层集成的焦点调制网络，用于分类小肠解剖学地标和腔内发现。 FocalConvnet利用焦点调制以实现全球环境，并允许在整个正向通行证中进行全局本地空间相互作用。此外，具有固有的感应/学习偏置和提取分层特征的能力的卷积块使我们的焦点concalconvnet能够获得高吞吐量的有利结果。我们将焦点vnet与Kvasir-Capsule上的其他SOTA进行比较，Kvasir-Capsule是一个具有44,228帧的大型VCE数据集，具有13类不同的异常。我们提出的方法分别超过了其他SOTA方法论，加权F1得分，回忆和MCC}分别超过了其他SOTA方法。此外，我们报告了在实时临床环境中建立焦距的148.02图像/秒速率的最高吞吐量。建议的focalConvnet的代码可在https://github.com/noviceman-prog/focalconvnet上获得。

translated by 谷歌翻译

Automatic Polyp Segmentation with Multiple Kernel Dilated Convolution Network

Nikhil Kumar Tomar , Abhishek Srivastava , Ulas Bagci , Debesh Jha

分类：计算机视觉

2022-06-13

通过结肠镜检查检测和去除癌前息肉是预防全球结直肠癌的主要技术。然而，内镜医生的结直肠息肉率差异很大。众所周知，计算机辅助诊断（CAD）系统可以帮助内窥镜检测结肠息肉并最大程度地减少内镜医生之间的变化。在这项研究中，我们介绍了一种新颖的深度学习体系结构，称为{\ textbf {mkdcnet}}，以自动息肉分割鲁棒性，以鲁棒性数据分布的重大变化。 MKDCNET只是一个编码器decoder神经网络，它使用预先训练的\ textIt {resnet50}作为编码器和小说\ textit {多个内核扩张卷积（MKDC）}块，可以扩展更多的观点，以了解更多强大的和异性的表示形式。对四个公开息肉数据集和细胞核数据集进行的广泛实验表明，当在从不同分布中对未见息肉数据进行测试时，在对同一数据集进行训练和测试时，所提出的MKDCNET在同一数据集进行训练和测试时，超出了最先进的方法。取得丰富的结果，我们证明了拟议的建筑的鲁棒性。从效率的角度来看，我们的算法可以在RTX 3090 GPU上以每秒（$ \ of45 $）帧进行处理。 MKDCNET可能是建造临床结肠镜检查实时系统的强大基准。建议的MKDCNET的代码可在\ url {https://github.com/nikhilroxtomar/mkdcnet}上获得。

translated by 谷歌翻译

Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models

Aarohi Srivastava , Abhinav Rastogi , Abhishek Rao , Abu Awal Md Shoeb , Abubakar Abid , Adam Fisch , Adam R. Brown , Adam Santoro , Aditya Gupta , Adrià Garriga-Alonso

分类：自然语言处理 | 人工智能 | 机器学习 | (统计)机器学习

2022-06-09

语言模型既展示了定量的改进，又展示了新的定性功能，随着规模的增加。尽管它们具有潜在的变革性影响，但这些新能力的特征却很差。为了为未来的研究提供信息，为破坏性的新模型能力做准备，并改善社会有害的效果，至关重要的是，我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战，我们介绍了超越模仿游戏基准（Big Bench）。 Big Bench目前由204个任务组成，由132家机构的442位作者贡献。任务主题是多样的，从语言学，儿童发展，数学，常识性推理，生物学，物理学，社会偏见，软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号，Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为，跨越了数百万到数十亿个参数。此外，一个人类专家评估者团队执行了所有任务，以提供强大的基准。研究结果包括：模型性能和校准都随规模改善，但绝对的术语（以及与评估者的性能相比）；在模型类中的性能非常相似，尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分，而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标；社交偏见通常会随着含糊不清的环境而随着规模而增加，但这可以通过提示来改善。

translated by 谷歌翻译

NL-Augmenter: A Framework for Task-Sensitive Natural Language Augmentation

Kaustubh D. Dhole , Varun Gangal , Sebastian Gehrmann , Aadesh Gupta , Zhenhao Li , Saad Mahamood , Abinaya Mahendiran , Simon Mille , Ashish Srivastava , Samson Tan

分类：自然语言处理 | 人工智能 | 机器学习

2021-12-06

数据增强是自然语言处理（NLP）模型的鲁棒性评估的重要组成部分，以及增强他们培训的数据的多样性。在本文中，我们呈现NL-Cogmenter，这是一种新的参与式Python的自然语言增强框架，它支持创建两个转换（对数据的修改）和过滤器（根据特定功能的数据拆分）。我们描述了框架和初始的117个变换和23个过滤器，用于各种自然语言任务。我们通过使用其几个转换来分析流行自然语言模型的鲁棒性来证明NL-Upmenter的功效。基础架构，Datacards和稳健性分析结果在NL-Augmenter存储库上公开可用（\ url {https://github.com/gem-benchmark/nl-augmenter}）。

translated by 谷歌翻译

Beyond Mono to Binaural: Generating Binaural Audio from Mono Audio with Depth and Cross Modal Attention

Kranti Kumar Parida , Siddharth Srivastava , Gaurav Sharma

分类：计算机视觉

2021-11-15

双耳音频为听众提供了沉浸式体验，可以增强增强和虚拟现实。然而，录制双耳音频需要专门设置，具有左耳和右耳的麦克风的假人头部。这种录制设置难以构建和设置，因此单声道音频已成为公共设备中的首选选择。为了获得与双耳音频相同的影响，最近的努力已经针对从场景的视觉输入上升降单声道音频到双耳音频。这种方法没有使用一个重要的提示来任务：不同声音产生对象来自麦克风的距离。在这项工作中，我们认为场景的深度映射可以作为诱导场景中不同对象的距离信息的代理，用于音频双耳的任务。我们提出了一种新颖的编码器解码器架构，具有分层关注机制来共同编码图像，深度和音频特征。我们在最先进的变压器网络上设计网络，用于图像和深度表示。我们凭经验展示了所提出的方法对于两个具有挑战性的公共数据集公平游戏和音乐 - 立体声舒适地表现出最先进的方法。我们还展示了定性结果，该方法能够专注于任务所需的正确信息。项目详细信息可用于\ url {https://krantiparida.github.io/projects/bomobinaural.html}

translated by 谷歌翻译

Conformer-Based Self-Supervised Learning for Non-Speech Audio Tasks

Sangeeta Srivastava , Yun Wang , Andros Tjandra , Anurag Kumar , Chunxi Liu , Kritika Singh , Yatharth Saraf

分类：机器学习

2021-10-14

从未标记数据的代表学习一直是对人工智能研究的重大兴趣。虽然自我监督的言语代表学习在语音研究界受欢迎，但很少有效地对非语音音频任务进行了全面分析了音频表示学习。在本文中，我们提出了一种自我监督的音频表示学习方法，并将其应用于各种下游非语音音频任务。我们将众所周知的Wav2Vec 2.0框架结合起来，这在用于语音任务的自我监督学习中取得了成功，具有参数效率的构装体系结构。我们的自我监督的预培训可以减少三分之二的标记数据的需求。在Audioset基准测试中，我们达到平均平均精度（地图）得分为0.415，这是通过仅限音频自我监督的学习在此数据集上的新型最先进的。我们的微调符合子也超越了在几个下游任务上以监督方式预先培训的先前系统的性能。我们进一步讨论了预先培训和微调的重要设计考虑因素。

translated by 谷歌翻译

e-Inu: Simulating A Quadruped Robot With Emotional Sentience

Abhiruph Chakravarty , Jatin Karthik Tripathy , Sibi Chakkaravarthy S , Aswani Kumar Cherukuri , S. Anitha , Firuz Kamalov , Annapurna Jonnalagadda

分类：机器人 | 机器学习

2023-01-03

Quadruped robots are currently used in industrial robotics as mechanical aid to automate several routine tasks. However, presently, the usage of such a robot in a domestic setting is still very much a part of the research. This paper discusses the understanding and virtual simulation of such a robot capable of detecting and understanding human emotions, generating its gait, and responding via sounds and expression on a screen. To this end, we use a combination of reinforcement learning and software engineering concepts to simulate a quadruped robot that can understand emotions, navigate through various terrains and detect sound sources, and respond to emotions using audio-visual feedback. This paper aims to establish the framework of simulating a quadruped robot that is emotionally intelligent and can primarily respond to audio-visual stimuli using motor or audio response. The emotion detection from the speech was not as performant as ERANNs or Zeta Policy learning, still managing an accuracy of 63.5%. The video emotion detection system produced results that are almost at par with the state of the art, with an accuracy of 99.66%. Due to its "on-policy" learning process, the PPO algorithm was extremely rapid to learn, allowing the simulated dog to demonstrate a remarkably seamless gait across the different cadences and variations. This enabled the quadruped robot to respond to generated stimuli, allowing us to conclude that it functions as predicted and satisfies the aim of this work.

translated by 谷歌翻译