智能论文笔记

What do you MEME? Generating Explanations for Visual Semantic Role Labelling in Memes

Shivam Sharma , Siddhant Agarwal , Tharun Suresh , Preslav Nakov , Md. Shad Akhtar , Tanmoy Charkraborty

分类：自然语言处理

2022-12-01

Memes are powerful means for effective communication on social media. Their effortless amalgamation of viral visuals and compelling messages can have far-reaching implications with proper marketing. Previous research on memes has primarily focused on characterizing their affective spectrum and detecting whether the meme's message insinuates any intended harm, such as hate, offense, racism, etc. However, memes often use abstraction, which can be elusive. Here, we introduce a novel task - EXCLAIM, generating explanations for visual semantic role labeling in memes. To this end, we curate ExHVV, a novel dataset that offers natural language explanations of connotative roles for three types of entities - heroes, villains, and victims, encompassing 4,680 entities present in 3K memes. We also benchmark ExHVV with several strong unimodal and multimodal baselines. Moreover, we posit LUMEN, a novel multimodal, multi-task learning framework that endeavors to address EXCLAIM optimally by jointly learning to predict the correct semantic roles and correspondingly to generate suitable natural language explanations. LUMEN distinctly outperforms the best baseline across 18 standard natural language generation evaluation metrics. Our systematic evaluation and analyses demonstrate that characteristic multimodal cues required for adjudicating semantic roles are also helpful for generating suitable explanations.

translated by 谷歌翻译

Domain-aware Self-supervised Pre-training for Label-Efficient Meme Analysis

Shivam Sharma , Mohd Khizir Siddiqui , Md. Shad Akhtar , Tanmoy Chakraborty

分类：自然语言处理 | 人工智能

2022-09-29

现有的自我监督学习策略被限制在有限的目标或主要针对单峰应用程序的通用下游任务。对于复杂性和域亲和力（例如模因分析）而言，这对命令性的多模式应用有了孤立的进展。在这里，我们介绍了两种自我监督的预训练方法，即ext-pie-net和mm-simclr（i）在预训练期间使用现成的多模式仇恨语音数据，并且（ii）执行自我 - 通过合并多个专业借口任务，有效地迎合模因分析所需的复杂多模式表示学习，从而有效地迎合了学习。我们实验不同的自我实验策略，包括可以帮助学习丰富的跨模式表示并使用流行的线性探测来评估可恨模因任务的潜在变体。拟议的解决方案通过标签有效的培训与完全监督的基线竞争，同时在梅诺特挑战的所有三个任务上明显优于他们，分别为0.18％，23.64％和0.93％的绩效增长。此外，我们通过在Harmeme任务上报告竞争性能来证明所提出的解决方案的普遍性。最后，我们通过分析特定于任务的学习，使用更少的标记培训样本来建立学习表现的质量，并争辩说，自主策略和手头下游任务的复杂性是相关的。我们的努力强调了更好的多模式自学方法的要求，涉及有效的微调和可推广性能的专业借口任务。

translated by 谷歌翻译

Proactively Reducing the Hate Intensity of Online Posts via Hate Speech Normalization

Sarah Masud , Manjot Bedi , Mohammad Aflah Khan , Md Shad Akhtar , Tanmoy Chakraborty

分类：自然语言处理

2022-06-08

在线仇恨言论已成为小时的需求。但是，由于几种地缘政治和文化原因，对此类活动的禁令是不可行的。为了减少问题的严重性，在本文中，我们介绍了一项新颖的任务，仇恨言语归一化，旨在削弱在线帖子表现出的仇恨强度。仇恨言语归一化的意图不是支持仇恨，而是为用户提供对非讨厌的垫脚石，同时为在线平台提供更多时间来监视用户行为的任何改进。为此，我们手动策划了平行语料库 - 仇恨文本及其标准化的同行（标准化文本较不憎恨，更良性）。我们介绍了NACL，这是一个简单而有效的仇恨言语归一化模型，该模型在三个阶段运行 - 首先，它测量了原始样本的仇恨强度；其次，它标识了其中的仇恨跨度；最后，它通过解释仇恨跨度来降低仇恨强度。我们进行了广泛的实验，以通过三向评估（内在，外部和人类研究）来衡量NaCl的功效。我们观察到，NaCl优于六个基准-NACL的强度预测得分为0.1365 RMSE，在SPAN识别中获得0.622 F1分数，而82.27 BLEU和80.05的差异和80.05的困惑为归一化文本生成。我们进一步显示了NACL在其他平台上的普遍性（Reddit，Facebook，GAB）。将NaCl的交互式原型放在一起进行用户研究。此外，该工具正在WIPRO AI的真实环境中部署，这是其在线平台上处理有害内容的任务的一部分。

translated by 谷歌翻译

Counseling Summarization using Mental Health Knowledge Guided Utterance Filtering

Aseem Srivastava , Tharun Suresh , Sarah Peregrine , Lord , Md. Shad Akhtar , Tanmoy Chakraborty

分类：自然语言处理

2022-06-08

心理治疗干预技术是治疗师和患者之间的多方面对话。与一般的临床讨论不同，心理治疗的核心成分（即症状）很难区分，因此成为以后要总结的复杂问题。结构化的咨询对话可能包含有关症状，心理健康问题病史或发现患者行为的讨论。它还可能包含与临床摘要无关的讨论填充单词。我们将结构化心理治疗的这些要素称为咨询组成部分。在本文中，目的是心理健康咨询的摘要，以基于领域知识并帮助临床医生快速收集意义。在注释咨询组件的12.9k话语和每次对话的参考摘要之后，我们创建了一个新的数据集。此外，我们建议消费是一种新颖的咨询组件指导摘要模型。消费经历三个独立模块。首先，为了评估抑郁症状的存在，它使用患者健康问卷（PHQ-9）过滤了话语，而第二和第三模块旨在对咨询组件进行分类。最后，我们提出了针对特定问题的心理健康信息捕获（MHIC）评估指标，用于咨询摘要。我们的比较研究表明，我们改善了性能并产生凝聚力，语义和连贯的摘要。我们全面分析了生成的摘要，以研究心理治疗元素的捕获。摘要的人类和临床评估表明，消费会产生质量摘要。此外，心理健康专家验证了消费的临床可接受性。最后，我们讨论了现实世界中心理健康咨询摘要的独特性，并在Mathic.ai的支持下显示了其在线应用程序上的部署的证据

translated by 谷歌翻译

Nice perfume. How long did you marinate in it? Multimodal Sarcasm Explanation

Poorav Desai , Tanmoy Chakraborty , Md Shad Akhtar

分类：自然语言处理

2021-12-09

讽刺是一种越来越普遍的语言现象，并且由于其主观性，缺乏背景和深刻的意见而令人挑战。在多模式设置中，讽刺通过文本和视觉实体之间的不协调传达。虽然最近接近讽刺作为分类问题，但目前尚不清楚为什么在线帖子被识别为讽刺。如果没有正确的解释，最终用户可能无法察觉潜在的讽刺意义。在本文中，我们提出了一种新的问题 - 多式联运讽刺解释（Muse） - 鉴于包含图像和标题的多模式讽刺柱，我们旨在产生自然语言解释，以揭示预期的讽刺。为此，我们开发更多，一个新的数据集，具有3510个讽刺的多模式帖子的解释。每个解释都是一种描述隐藏的讽刺的自然语言（英语）句子。我们通过采用基于多模式变换器的架构来基准更多。它包含了变压器编码器中的跨模型注意，它出席了两个模式之间的区别。随后，将基于BART的自动回归解码器用作发电机。经验结果表明，在五项评估指标上展示了各种基线（用于缪斯采用）的结果。我们还对预测进行人类评估，并获得0.4的FARISS Kappa得分，作为25个评估员之间的公平协议。

translated by 谷歌翻译

Speaker and Time-aware Joint Contextual Learning for Dialogue-act Classification in Counselling Conversations

Ganeshan Malhotra , Abdul Waheed , Aseem Srivastava , Md Shad Akhtar , Tanmoy Chakraborty

分类：自然语言处理

2021-11-12

Covid-19大流行的发作使风险的心理健康带来了。社会咨询在这种环境中取得了显着意义。与一般面向目标的对话不同，患者和治疗师之间的对话是相当明暗的，尽管谈话的目标非常明显。在这种情况下，了解患者的目的在提供治疗会话中提供有效咨询方面是必要的，同样适用于对话系统。在这项工作中，我们前进是一个小小的一步，在开发精神健康咨询的自动对话系统中。我们开发一个名为HOPE的新型数据集，为咨询谈话中的对话行为分类提供平台。我们确定此类对话的要求，并提出了12个域特定的对话法（DAC）标签。我们收集12.9k的话语从youtube上公开的咨询会话视频，用DAC标签提取他们的成绩单，清洁并注释它们。此外，我们提出了一种基于变压器的架构的Sparta，具有新颖的扬声器和时间感知的语境学习，用于对话行动分类。我们的评价显示了若干基线的令人信服的表现，实现了最先进的希望。我们还通过对Sparta进行广泛的实证和定性分析来补充我们的实验。

translated by 谷歌翻译

Discovering Emotion and Reasoning its Flip in Multi-Party Conversations using Masked Memory Network and Transformer

Shivani Kumar , Anubhav Shrimal , Md Shad Akhtar , Tanmoy Chakraborty

分类：自然语言处理

2021-03-23

在多方对话中有效地发现发言者的情绪状态是设计人类类似的会话代理商的重要性。在谈话期间，扬声器的认知状态通常由于某些过去的话语而改变，这可能导致他们的情绪状态的翻转。因此，在对话期间发现扬声器情感翻转背后的原因（触发）对于解释个人话语的情感标签至关重要。在本文中，除了解决对话中的情感认可的任务（ERC），我们介绍了一种新的任务 - 情感 - 翻转推理（EFR），旨在识别过去的话语，这引发了一个人的情绪状态以在一定时间翻转。我们提出了一个掩蔽的存储器网络来解决前者和基于变换器的网络的后一种任务。为此，我们考虑融合的基准情感识别数据集，用于ERC任务的多方对话，并使用EFR的新地基标签增强它。与五个最先进的模型进行了广泛的比较，表明我们对两个任务的模型的表现。我们进一步提出了轶事证据和定性和定量误差分析，以支持与基线相比模型的优势。

translated by 谷歌翻译

Novel Deep Learning Architecture for Heart Disease Prediction using Convolutional Neural Network

Shadab Hussain , Dr. Santosh Kumar Nanda , Susmith Barigidad , Shadab Akhtar , Md Suaib , Niranjan K. Ray

分类：机器学习

2021-05-22

医疗保健是人类生活中最重要的方面之一。众所周知，心脏病是最致命的疾病之一，这些疾病是阻碍了世界各地许多人的生命。必须提前检测心脏病，因此可以防止丧生生命。用于医学诊断的大规模数据的可用性有助于开发复杂的机器学习和基于深度学习的模型，用于自动化早期诊断心脏病。古典方法在没有概括到训练集中没有看到的新数据的概括。这在训练和测试精度方面的差距是巨大的差距。本文提出了一种新的深度学习架构，使用1D卷积神经网络进行健康和非健康人员之间的分类，以克服古典方法的局限性。各种临床参数用于评估有助于早期诊断的患者的风险概况。使用各种技术来避免在所提出的网络中过度装备。该网络在数据集中实现了超过97％的训练精度和96％的测试准确性。使用各种性能参数的其他分类算法详细比较了模型的准确性，这些算法证明了所提出的架构的有效性。

translated by 谷歌翻译

Towards Improving Calibration in Object Detection Under Domain Shift

Muhammad Akhtar Munir , Muhammad Haris Khan , M. Saquib Sarfraz , Mohsen Ali

分类：计算机视觉

2022-09-15

在安全至关重要的应用中，深度神经网络的使用越来越多，就需要训练有素的模型。当前大多数校准技术解决了分类问题，同时着重于改善对内域预测的校准。在许多决策系统中占据相似的空间和重要性的视觉对象探测器的校准几乎没有关注。在本文中，我们研究了当前对象检测模型的校准，尤其是在域移位下。为此，我们首先引入了插件的火车时间校准损失以进行对象检测。它可以用作辅助损失函数，以改善检测器的校准。其次，我们设计了一种新的不确定性量化机制来进行对象检测，该机制可以隐式校准常用的基于自我训练的域自适应检测器。我们在研究中包括单阶段和两阶段对象探测器。我们证明，我们的损失改善了具有明显边缘的内域和室外检测的校准。最后，我们展示了我们技术在校准不同域移动方案中的域自适应对象探测器方面的实用性。

translated by 谷歌翻译

Vision Transformers for Action Recognition: A Survey

Anwaar Ulhaq , Naveed Akhtar , Ganna Pogrebna , Ajmal Mian

分类：计算机视觉 | 人工智能

2022-09-13

视觉变压器正在成为解决计算机视觉问题的强大工具。最近的技术还证明了超出图像域之外的变压器来解决许多与视频相关的任务的功效。其中，由于其广泛的应用，人类的行动识别是从研究界受到特别关注。本文提供了对动作识别的视觉变压器技术的首次全面调查。我们朝着这个方向分析并总结了现有文献和新兴文献，同时突出了适应变形金刚以进行动作识别的流行趋势。由于其专业应用，我们将这些方法统称为``动作变压器''。我们的文献综述根据其架构，方式和预期目标为动作变压器提供了适当的分类法。在动作变压器的背景下，我们探讨了编码时空数据，降低维度降低，框架贴片和时空立方体构造以及各种表示方法的技术。我们还研究了变压器层中时空注意的优化，以处理更长的序列，通常通过减少单个注意操作中的令牌数量。此外，我们还研究了不同的网络学习策略，例如自我监督和零局学习，以及它们对基于变压器的行动识别的相关损失。这项调查还总结了在具有动作变压器重要基准的评估度量评分方面取得的进步。最后，它提供了有关该研究方向的挑战，前景和未来途径的讨论。

translated by 谷歌翻译