智能论文笔记

SAVCHOI: Detecting Suspicious Activities using Dense Video Captioning with Human Object Interactions

Ansh Mittal , Shuvam Ghosal , Rishibha Bansal , Dat Ngyuyen

分类：计算机视觉 | 人工智能

2022-07-24

在监视视频中检测可疑活动一直是一个长期存在的问题，这可能会导致犯罪的困难。作者提出了一种新颖的方法，用于检测和总结监视视频中正在进行的可疑活动。他们还为UCF-Crime视频数据集创建了地面真相摘要。此外，作者测试了现有的最新算法，以对该数据集的一个子集进行密集的视频字幕，并通过利用视觉功能的人类对象交互模型来为该任务提出模型。他们观察到，这种用于密集字幕的表述可以通过显着的余地实现了早期方法的巨大收益。作者还对数据集和模型进行了消融分析，并报告了他们的发现。

translated by 谷歌翻译

The Infinitesimal Jackknife and Combinations of Models

Indrayudh Ghosal , Yunzhe Zhou , Giles Hooker

分类： (统计)机器学习 | 机器学习

2022-08-31

无穷小夹刀是一种估计参数模型方差的通用方法，最近也用于某些集合方法。在本文中，我们扩展了无穷小折刀，以估计任意两种模型之间的协方差。这可用于量化模型组合的不确定性，或构建测试统计信息，以比较使用相同训练数据集拟合的模型的不同模型或组合。本文中的具体示例使用了随机森林和M估计剂等模型的增强组合。我们还研究了其在XGBOOST模型的神经网络和集合上的应用。我们通过广泛的模拟及其在北京住房数据中的应用来说明差异估计的疗效，并证明了无穷小折刀协方差估算的理论一致性。

translated by 谷歌翻译

Addressing Class Imbalance in Semi-supervised Image Segmentation: A Study on Cardiac MRI

Hritam Basak , Sagnik Ghosal , Ram Sarkar

分类：计算机视觉

2022-08-31

由于数据不平衡和有限，半监督的医学图像分割方法通常无法为某些特定的尾部类别产生卓越的性能。对这些特定课程的培训不足可能会引入更多的噪音，从而影响整体学习。为了减轻这一缺点并确定表现不佳的课程，我们建议保持一个信心阵列，以记录培训期间的班级表现。提出了这些置信分数的模糊融合，以适应每个样本中的个人置信度指标，而不是传统的合奏方法，其中为所有测试案例分配了一组预定义的固定权重。此外，我们引入了一种强大的班级抽样方法和动态稳定，以获得更好的训练策略。我们提出的方法考虑了所有表现不佳的班级，并具有动态权重，并试图在训练过程中消除大多数噪音。通过对两个心脏MRI数据集进行评估，ACDC和MMWHS，我们提出的方法显示出有效性和概括性，并且优于文献中发现的几种最先进的方法。

translated by 谷歌翻译

Generating Intermediate Steps for NLI with Next-Step Supervision

Deepanway Ghosal , Somak Aditya , Monojit Choudhury

分类：自然语言处理 | 人工智能

2022-08-31

自然语言推理（NLI）任务通常需要通过多个步骤进行推理才能得出结论。尽管产生此类中间步骤的必要性（而不是摘要说明）获得了大众支持，但尚不清楚如何在不完全端到端的监督以及如何进一步利用此类步骤的情况下生成此类步骤。在这项工作中，我们训练一个序列到序列模型，仅生成下一步给定NLI前提和假设对（以及先前的步骤）；然后通过外部知识和符号搜索来增强它，以仅在下一步监督下生成中间步骤。我们通过自动化和人类验证显示了此类生成的步骤的正确性。此外，我们表明，这种生成的步骤可以通过多个公共NLI数据集使用简单的数据增强策略来帮助提高端到端的NLI任务性能。

translated by 谷歌翻译

HTML版本

The Effect of Modeling Human Rationality Level on Learning Rewards from Multiple Feedback Types

Gaurav R. Ghosal , Matthew Zurek , Daniel S. Brown , Anca D. Dragan

分类：机器学习 | 人工智能

2022-08-23

当从人类行为中推断出奖励功能（无论是演示，比较，物理校正或电子停靠点）时，它已证明对人类进行建模作为做出嘈杂的理性选择，并具有“合理性系数”，以捕获多少噪声或熵我们希望看到人类的行为。无论人类反馈的类型或质量如何，许多现有作品都选择修复此系数。但是，在某些情况下，进行演示可能要比回答比较查询要困难得多。在这种情况下，我们应该期望在示范中看到比比较中更多的噪音或次级临时性，并且应该相应地解释反馈。在这项工作中，我们提倡，将每种反馈类型的实际数据中的理性系数扎根，而不是假设默认值，对奖励学习具有重大的积极影响。我们在模拟反馈以及用户研究的实验中测试了这一点。我们发现，从单一反馈类型中学习时，高估人类理性可能会对奖励准确性和遗憾产生可怕的影响。此外，我们发现合理性层面会影响每种反馈类型的信息性：令人惊讶的是，示威并不总是最有用的信息 - 当人类的行为非常卑鄙时，即使在合理性水平相同的情况下，比较实际上就变得更加有用。。此外，当机器人确定要要求的反馈类型时，它可以通过准确建模每种类型的理性水平来获得很大的优势。最终，我们的结果强调了关注假定理性级别的重要性，不仅是在从单个反馈类型中学习时，尤其是当代理商从多种反馈类型中学习时，尤其是在学习时。

translated by 谷歌翻译

Jointformer: Single-Frame Lifting Transformer with Error Prediction and Refinement for 3D Human Pose Estimation

Sebastian Lutz , Richard Blythman , Koustav Ghosal , Matthew Moynihan , Ciaran Simms , Aljosa Smolic

分类：计算机视觉

2022-08-07

单眼3D人姿势估计技术有可能大大增加人类运动数据的可用性。单位图2D-3D提升使用图卷积网络（GCN）的表现最佳模型，通常需要一些手动输入来定义不同的身体关节之间的关系。我们提出了一种基于变压器的新型方法，该方法使用更广泛的自我发场机制来学习代表关节的代币序列。我们发现，使用中间监督以及堆叠编码器福利性能之间的剩余连接。我们还建议，将错误预测作为多任务学习框架的一部分，可以通过允许网络弥补其置信度来改善性能。我们进行广泛的消融研究，以表明我们的每项贡献都会提高性能。此外，我们表明我们的方法的表现超过了最新的单帧3D人类姿势估计的最新技术状态。我们的代码和训练有素的模型可在GitHub上公开提供。

translated by 谷歌翻译

Image Aesthetics Assessment Using Graph Attention Network

Koustav Ghosal , Aljosa Smolic

分类：计算机视觉

2022-06-26

Aspect ratio and spatial layout are two of the principal factors influencing the aesthetic value of a photograph. However, incorporating these into the traditional convolutionbased frameworks for the task of image aesthetics assessment is problematic. The aspect ratio of the photographs gets distorted while they are resized/cropped to a fixed dimension to facilitate training batch sampling. On the other hand, the convolutional filters process information locally and are limited in their ability to model the global spatial layout of a photograph. In this work, we present a two-stage framework based on graph neural networks and address both these problems jointly. First, we propose a feature-graph representation in which the input image is modelled as a graph, maintaining its original aspect ratio and resolution. Second, we propose a graph neural network architecture that takes this feature-graph and captures the semantic relationship between different regions of the input image using visual attention. Our experiments show that the proposed framework advances the state-of-the-art results in aesthetic score regression on the Aesthetic Visual Analysis (AVA) benchmark. Our code is publicly available for comparisons and further explorations. 1

translated by 谷歌翻译

Testing the Generalization of Neural Language Models for COVID-19 Misinformation Detection

Jan Philip Wahle , Nischal Ashok , Terry Ruas , Norman Meuschke , Tirthankar Ghosal , Bela Gipp

分类：自然语言处理 | 人工智能 | 机器学习

2021-11-15

潜在的生命危及危及生命的错误信息急剧上升是Covid-19大流行的副产品。计算支持，以识别关于该主题的大规模数据内的虚假信息至关重要，以防止伤害。研究人员提出了许多用于标记与Covid-19相关的在线错误信息的方法。但是，这些方法主要针对特定的内容类型（例如，新闻）或平台（例如，Twitter）。概括的方法的能力在很大程度上尚不清楚。我们在五十个COVID-19错误信息数据集中评估基于15个变压器的模型，包括社交媒体帖子，新闻文章和科学论文来填补这一差距。我们向Covid-19数据量身定制的标记和模型不提供普通目的的数据的显着优势。我们的研究为检测Covid-19错误信息的模型提供了逼真的评估。我们预计评估广泛的数据集和模型将使未来的开发错误信息检测系统进行未来的研究。

translated by 谷歌翻译

IQ-Learn: Inverse soft-Q Learning for Imitation

Divyansh Garg , Shuvam Chakraborty , Chris Cundy , Jiaming Song , Stefano Ermon

分类：机器学习 | 人工智能

2021-06-23

在许多顺序决策问题（例如，机器人控制，游戏播放，顺序预测），人类或专家数据可用包含有关任务的有用信息。然而，来自少量专家数据的模仿学习（IL）可能在具有复杂动态的高维环境中具有挑战性。行为克隆是一种简单的方法，由于其简单的实现和稳定的收敛而被广泛使用，但不利用涉及环境动态的任何信息。由于对奖励和政策近似器或偏差，高方差梯度估计器，难以在实践中难以在实践中努力训练的许多现有方法。我们介绍了一种用于动态感知IL的方法，它通过学习单个Q函数来避免对抗训练，隐含地代表奖励和策略。在标准基准测试中，隐式学习的奖励显示与地面真实奖励的高正面相关性，说明我们的方法也可以用于逆钢筋学习（IRL）。我们的方法，逆软Q学习（IQ-Learn）获得了最先进的结果，在离线和在线模仿学习设置中，显着优于现有的现有方法，这些方法都在所需的环境交互和高维空间中的可扩展性中，通常超过3倍。

translated by 谷歌翻译

Efficient Conditional Pre-training for Transfer Learning

Shuvam Chakraborty , Burak Uzkent , Kumar Ayush , Kumar Tanmay , Evan Sheehan , Stefano Ermon

分类：计算机视觉

2020-11-20

几乎所有用于计算机视觉任务的最先进的神经网络都受到（1）在目标数据集上的大规模数据集和（2）FINETUNING上的预培训（1）预培训。该策略有助于减少对目标数据集的依赖，并提高目标任务的收敛速率和泛化。虽然对大型数据集进行预训练非常有用，但其最重要的缺点是高培训成本。要解决此问题，我们提出了有效的过滤方法，以从训练前的数据集中选择相关子集。此外，我们发现，在训练前的图像分辨率降低图像分辨率在成本和性能之间提供了很大的权衡。我们通过在无监督和监督设置中的想象中进行预测，并在各种目标数据集和任务集合中进行预测，通过预先培训来验证我们的技术。我们提出的方法大大降低了预训练成本并提供了强大的性能提升。最后，我们通过在我们的子集上调整可用模型来提高标准ImageNet预培训1-3％，并在从更大的规模数据集中过滤的数据集上进行预训练。

translated by 谷歌翻译