通过融合单个模式(例如文本,图像或音频)来创建有意义的表示形式是多模式学习的核心概念。尽管已经证明了几种用于构建多模式表示的技术,但尚未进行比较。因此,在给定情况下,可以预期哪种技术可以产生最佳结果,以及在选择这种技术时应考虑哪些因素。本文探讨了构建多模式数据表示的最常见技术 - 晚期融合,早期融合和草图,并在分类任务中进行比较。实验是在三个数据集上进行的:Amazon评论,Movielens25M和Movielens1M数据集。通常,我们的结果证实,多模式表示能够在亚马逊评论上将单峰模型的性能从0.919的精度提高到0.969,而Movielens25m上的AUC的表现为0.907至0.918。但是,两个Movielens数据集的实验表明有意义的输入数据对给定任务的重要性。在本文中,我们表明,构建多模式表示技术的选择对于获得最高模型的性能至关重要,这与适当的模式组合有关。这种选择依赖于:每种形态对分析的机器学习(ML)问题的影响; ML任务的类型;训练和预测阶段时的内存约束。
translated by 谷歌翻译
我们考虑使用自动监督学习系统的数据表,不仅包含数字/分类列,而且还包含一个或多个文本字段。在这里,我们组装了18个多模式数据表,每个数据表都包含一些文本字段并源于真正的业务应用程序。我们的公开的基准使研究人员能够通过数字,分类和文本功能全面评估自己的监督学习方法。为了确保在所有18个数据集上执行良好的任何单一建模策略将作为多式化文本/表格自动机的实用基础,我们的基准中的不同数据集在:样本大小,问题类型(分类和回归任务组合),功能数量(数据集之间的文本列的数量范围为1到28),以及预测信号如何在文本与数字/分类特征(以及预测相互作用)之间分解。在此基准测试中,我们评估各种直接的流水线来模拟这些数据,包括标准的两阶段方法,其中NLP用于团体化文本,然后可以应用表格数据的自动机。与人类数据科学团队相比,在我们的基准测试(堆叠与各种树模型的堆栈组合多峰变压器的堆栈)的全自动方法也可以在两个机器预测竞赛中符合原始文本/表格数据和第二次在卡格的Mercari价格建议挑战中的地方(2380支球队)。
translated by 谷歌翻译
社交媒体网络已成为人们生活的重要方面,它是其思想,观点和情感的平台。因此,自动化情绪分析(SA)对于以其他信息来源无法识别人们的感受至关重要。对这些感觉的分析揭示了各种应用,包括品牌评估,YouTube电影评论和医疗保健应用。随着社交媒体的不断发展,人们以不同形式发布大量信息,包括文本,照片,音频和视频。因此,传统的SA算法已变得有限,因为它们不考虑其他方式的表现力。通过包括来自各种物质来源的此类特征,这些多模式数据流提供了新的机会,以优化基于文本的SA之外的预期结果。我们的研究重点是多模式SA的最前沿领域,该领域研究了社交媒体网络上发布的视觉和文本数据。许多人更有可能利用这些信息在这些平台上表达自己。为了作为这个快速增长的领域的学者资源,我们介绍了文本和视觉SA的全面概述,包括数据预处理,功能提取技术,情感基准数据集以及适合每个字段的多重分类方法的疗效。我们还简要介绍了最常用的数据融合策略,并提供了有关Visual Textual SA的现有研究的摘要。最后,我们重点介绍了最重大的挑战,并调查了一些重要的情感应用程序。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
在媒体流媒体的普及之后,许多视频流服务是不断购买新的视频内容来挖掘它们的潜在利润。因此,必须处理新添加的内容,以便建议给合适的用户。在本文中,我们通过探索各种深度学习功能提供视频建议的潜力来解决新的项目冷启动问题。调查的深度学习功能包括从视频内容中捕获视觉外观,音频和运动信息的功能。我们还探讨了不同的融合方法来评估这些功能模式如何组合以完全利用它们捕获的互补信息。关于电影建议的真实视频数据集的实验表明,深度学习功能优于手工制作的功能。特别是,使用深度学习音频功能和以自行信型的深度学习功能生成的建议优于MFCC和最先进的IDT功能。此外,与手工制作特征和文本元数据的各种深度学习特征的组合产生了显着的建议改善,而不是仅相结合的前者。
translated by 谷歌翻译
Our experience of the world is multimodal -we see objects, hear sounds, feel texture, smell odors, and taste flavors. Modality refers to the way in which something happens or is experienced and a research problem is characterized as multimodal when it includes multiple such modalities. In order for Artificial Intelligence to make progress in understanding the world around us, it needs to be able to interpret such multimodal signals together. Multimodal machine learning aims to build models that can process and relate information from multiple modalities. It is a vibrant multi-disciplinary field of increasing importance and with extraordinary potential. Instead of focusing on specific multimodal applications, this paper surveys the recent advances in multimodal machine learning itself and presents them in a common taxonomy. We go beyond the typical early and late fusion categorization and identify broader challenges that are faced by multimodal machine learning, namely: representation, translation, alignment, fusion, and co-learning. This new taxonomy will enable researchers to better understand the state of the field and identify directions for future research.
translated by 谷歌翻译
Numerous machine learning (ML) and deep learning (DL)-based approaches have been proposed to utilize textual data from social media for anti-social behavior analysis like cyberbullying, fake news detection, and identification of hate speech mainly for highly-resourced languages such as English. However, despite having a lot of diversity and millions of native speakers, some languages like Bengali are under-resourced, which is due to a lack of computational resources for natural language processing (NLP). Similar to other languages, Bengali social media contents also include images along with texts (e.g., multimodal memes are posted by embedding short texts into images on Facebook). Therefore, only the textual data is not enough to judge them since images might give extra context to make a proper judgement. This paper is about hate speech detection from multimodal Bengali memes and texts. We prepared the only multimodal hate speech dataset for-a-kind of problem for Bengali, which we use to train state-of-the-art neural architectures (e.g., Bi-LSTM/Conv-LSTM with word embeddings, ConvNets + pre-trained language models, e.g., monolingual Bangla BERT, multilingual BERT-cased/uncased, and XLM-RoBERTa) to jointly analyze textual and visual information for hate speech detection. Conv-LSTM and XLM-RoBERTa models performed best for texts, yielding F1 scores of 0.78 and 0.82, respectively. As of memes, ResNet-152 and DenseNet-161 models yield F1 scores of 0.78 and 0.79, respectively. As for multimodal fusion, XLM-RoBERTa + DenseNet-161 performed the best, yielding an F1 score of 0.83. Our study suggests that text modality is most useful for hate speech detection, while memes are moderately useful.
translated by 谷歌翻译
本文提出了一个多模式的情感识别系统,即视觉口语文本添加剂网(Vista Net),以将包含图像,语音和文本的多模式输入反映的情绪分类为离散类。还开发了一种新的可解释性技术,即K平均添加剂解释(KAAP),以确定重要的视觉,口语和文本特征,从而预测特定的情感类别。 Vista Net使用早期和晚期融合的混合体从图像,语音和文本方式融合信息。它会自动调整其中间输出的权重,同时在不干预的情况下计算加权平均值。 KAAP技术计算每种方式和相应特征在预测特定情绪类别的贡献。为了减轻带有离散情绪类别标记的多模式情感数据集的不足,我们构建了一个大规模的IIT-R MMEMOREC数据集,该数据集由现实生活中的图像,相应的语音和文本和情感标签(“愤怒,'快乐,''happy,''快乐,'' “恨,”和“悲伤”。)。 Vista Net在考虑图像,语音和文本方式上导致了95.99%的情绪识别精度,这比考虑任何一种或两种方式的输入的表现要好。
translated by 谷歌翻译
本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片(Sota)。它填补了空白,因为现有的调查文章在其范围内或被约会。我们包括两个重要方面,目前正在挖掘和建模社交媒体的重要性:动态和网络。社会动态对于了解影响影响或疾病的传播,友谊的形成,友谊的形成等,另一方面,可以捕获各种复杂关系,提供额外的洞察力和识别否则将不会被注意的重要模式。
translated by 谷歌翻译
即使机器学习算法已经在数据科学中发挥了重要作用,但许多当前方法对输入数据提出了不现实的假设。由于不兼容的数据格式,或数据集中的异质,分层或完全缺少的数据片段,因此很难应用此类方法。作为解决方案,我们提出了一个用于样本表示,模型定义和培训的多功能,统一的框架,称为“ Hmill”。我们深入审查框架构建和扩展的机器学习的多个范围范式。从理论上讲,为HMILL的关键组件的设计合理,我们将通用近似定理的扩展显示到框架中实现的模型所实现的所有功能的集合。本文还包含有关我们实施中技术和绩效改进的详细讨论,该讨论将在MIT许可下发布供下载。该框架的主要资产是其灵活性,它可以通过相同的工具对不同的现实世界数据源进行建模。除了单独观察到每个对象的一组属性的标准设置外,我们解释了如何在框架中实现表示整个对象系统的图表中的消息推断。为了支持我们的主张,我们使用框架解决了网络安全域的三个不同问题。第一种用例涉及来自原始网络观察结果的IoT设备识别。在第二个问题中,我们研究了如何使用以有向图表示的操作系统的快照可以对恶意二进制文件进行分类。最后提供的示例是通过网络中实体之间建模域黑名单扩展的任务。在所有三个问题中,基于建议的框架的解决方案可实现与专业方法相当的性能。
translated by 谷歌翻译
推荐系统是机器学习系统的子类,它们采用复杂的信息过滤策略来减少搜索时间,并向任何特定用户建议最相关的项目。混合建议系统以不同的方式结合了多种建议策略,以从其互补的优势中受益。一些混合推荐系统已经结合了协作过滤和基于内容的方法来构建更强大的系统。在本文中,我们提出了一个混合推荐系统,该系统将基于最小二乘(ALS)的交替正方(ALS)的协作过滤与深度学习结合在一起,以增强建议性能,并克服与协作过滤方法相关的限制,尤其是关于其冷启动问题。本质上,我们使用ALS(协作过滤)的输出来影响深度神经网络(DNN)的建议,该建议结合了大数据处理框架中的特征,上下文,结构和顺序信息。我们已经进行了几项实验,以测试拟议混合体架构向潜在客户推荐智能手机的功效,并将其性能与其他开源推荐人进行比较。结果表明,所提出的系统的表现优于几个现有的混合推荐系统。
translated by 谷歌翻译
在各种Web应用程序(例如数字广告和电子商务)中使用多模式数据的兴趣越来越大。从多模式数据中提取重要信息的典型方法取决于结合了来自多个编码器的特征表示的中型架构。但是,随着模态数量的增加,中融合模型结构的几个潜在问题会出现,例如串联多模式特征和缺失模态的维度增加。为了解决这些问题,我们提出了一个新概念,该概念将多模式输入视为一组序列,即深度多模式序列集(DM $^2 $ S $^2 $)。我们的设置感知概念由三个组成部分组成,这些组件捕获了多种模式之间的关系:(a)基于BERT的编码器来处理序列中元素间和内级内和内级的编码器,(b)模式内的残留物(Intramra)(Intramra) )捕获元素在模态中的重要性,以及(c)模式间残留的关注(Intermra),以进一步增强具有模态水平粒度的元素的重要性。我们的概念表现出与以前的设置感知模型相当或更好的性能。此外,我们证明了学识渊博的Intermra和Intramra权重的可视化可以提供对预测结果的解释。
translated by 谷歌翻译
已显示来自各种来源的多模式信息的集成可以提高机器学习模型的性能,因此近年来受到了越来越多的关注。通常,这样的模型使用深度模式特异性网络来获得单峰特征,这些特征合并以获得“晚融合”表示。但是,这些设计承担了各自单峰管道中信息损失的风险。另一方面,结合早期特征的“早期融合”方法遭受了与特征异质性和高样本复杂性相关的问题。在这项工作中,我们提出了一种迭代表示的改进方法,称为渐进式融合,该方法减轻了晚期融合表示的问题。我们的模型不足的技术引入了向后连接,使后期融合的表示形式可用于早期层,从而提高了这些阶段的表示表现力,同时保留了晚期融合设计的优势。我们在任务上测试渐进式融合,包括情感检测,多媒体分析以及与不同模型的时间序列融合,以证明其多功能性。我们表明,我们的方法始终提高性能,例如,在多模式时间序列预测中,MSE降低了5%,鲁棒性提高了40%。
translated by 谷歌翻译
仇恨言论是一种在线骚扰的形式,涉及使用滥用语言,并且在社交媒体帖子中通常可以看到。这种骚扰主要集中在诸如宗教,性别,种族等的特定群体特征上,如今它既有社会和经济后果。文本文章中对滥用语言的自动检测一直是一项艰巨的任务,但最近它从科学界获得了很多兴趣。本文解决了在社交媒体中辨别仇恨内容的重要问题。我们在这项工作中提出的模型是基于LSTM神经网络体系结构的现有方法的扩展,我们在短文中适当地增强和微调以检测某些形式的仇恨语言,例如种族主义或性别歧视。最重要的增强是转换为由复发性神经网络(RNN)分类器组成的两阶段方案。将第一阶段的所有一Vs式分类器(OVR)分类器的输出组合在一起,并用于训练第二阶段分类器,最终决定了骚扰的类型。我们的研究包括对在16K推文的公共语料库中评估的第二阶段提出的几种替代方法的性能比较,然后对另一个数据集进行了概括研究。报道的结果表明,与当前的最新技术相比,在仇恨言论检测任务中,所提出的方案的分类质量出色。
translated by 谷歌翻译
人类通过不同的渠道表达感受或情绪。以语言为例,它在不同的视觉声学上下文下需要不同的情绪。为了精确了解人类意图,并减少歧义和讽刺引起的误解,我们应该考虑多式联路信号,包括文本,视觉和声学信号。至关重要的挑战是融合不同的特征模式以进行情绪分析。为了有效地融合不同的方式携带的信息,更好地预测情绪,我们设计了一种基于新的多主题的融合网络,这是由任何两个对方式之间的相互作用不同的观察来启发,它们是不同的,并且它们不同样有助于最终的情绪预测。通过分配具有合理关注和利用残余结构的声学 - 视觉,声学 - 文本和视觉文本特征,我们参加了重要的特征。我们对四个公共多模式数据集进行了广泛的实验,包括中文和三种英文中的一个。结果表明,我们的方法优于现有的方法,并可以解释双模相互作用在多种模式中的贡献。
translated by 谷歌翻译
双相情感障碍是一种心理健康障碍,导致情绪波动,从令人沮丧到狂热。双相障碍的诊断通常是根据患者访谈进行的,并从患者的护理人员获得的报告。随后,诊断取决于专家的经验,并且可以与其他精神障碍的疾病混淆。双极性障碍诊断中的自动化过程可以帮助提供定量指标,并让患者的更容易观察较长的时间。此外,在Covid-19大流行期间,对遥控和诊断的需求变得尤为重要。在本论文中,我们根据声学,语言和视觉方式的患者录制来创建一种多模态决策系统。该系统培养在双极障碍语料库上。进行综合分析单峰和多模式系统,以及各种融合技术。除了使用单向特征处理整个患者会话外,还研究了剪辑的任务级调查。在多模式融合系统中使用声学,语言和视觉特征,我们实现了64.8%的未加权平均召回得分,这提高了在该数据集上实现的最先进的性能。
translated by 谷歌翻译
物联网中的智能汽车,智能手机和其他设备(物联网)通常具有多个传感器,会产生多模式数据。联合学习支持从不同设备收集大量多模式数据,而无需共享原始数据。转移学习方法有助于将知识从某些设备传输到其他设备。联合转移学习方法受益于联合学习和转移学习。这个新提出的联合转移学习框架旨在将数据岛与隐私保护联系起来。我们的构建基于联合学习和转移学习。与以前的联合转移学习相比,每个用户应具有相同模式的数据(所有单峰或全模式),我们的新框架更为通用,它允许使用用户数据的混合分布。核心策略是为我们的两种用户使用两种不同但固有连接的培训方法。仅对单峰数据(类型1)的用户采用监督学习,而自我监督的学习则用于使用多模式数据(类型2)的用户,以适用于每种模式的功能及其之间的连接。类型2的这种联系知识将在培训的后期阶段有助于1键入1。新框架中的培训可以分为三个步骤。在第一步中,将具有相同模式的数据的用户分组在一起。例如,仅具有声音信号的用户在第一组中,只有图像的用户在第二组中,并且具有多模式数据的用户在第三组中,依此类推。在第二步中,在小组内执行联合学习,在该小组中,根据小组的性质,使用监督的学习和自学学习。大多数转移学习发生在第三步中,从前步骤获得的网络中的相关部分是汇总的(联合)。
translated by 谷歌翻译
背景:电子健康记录(EHRS)包含丰富的患者健康历史信息,这通常包括结构化和非结构化数据。已经有许多研究专注于从结构化数据中蒸馏有价值的信息,例如疾病代码,实验室测试结果和治疗方法。但是,依托结构化数据可能不足反映患者的综合信息,此类数据可能偶尔含有错误的记录。目的:随着机器学习(ML)和深度学习(DL)技术的最近进步,越来越多的研究通过纳入非结构化的自由文本数据,寻求获得更准确的结果。本文评论了使用多模式数据的研究,即结构化和非结构化数据的组合,从EHRS作为传统ML或DL模型的输入来解决目标任务。材料和方法:我们在电气和电子工程师(IEEE)数字图书馆(IEEE)数字图书馆,PubMed和Compution Machion(ACM)数字文章中搜索了与基于ML的多模式EHR研究相关的制品。结果与讨论:最后94项包括研究,我们专注于如何使用常规ML和DL技术合并和互动的数据来自不同方式的数据,以及如何在与EHR相关的任务中应用这些算法。此外,我们研究了这些融合方法的优点和局限,并表明了基于ML的多模式EHR研究的未来方向。
translated by 谷歌翻译
在这项工作中,我们审查并评估了一个具有公开可用和广泛使用的数据集的深度学习知识追踪(DLKT)模型,以及学习编程的新型学生数据集。评估的DLKT模型已重新实现,用于评估先前报告的结果的可重复性和可复制性。我们测试在与模型的主要架构上独立于模型的比较模型中找到的不同输入和输出层变化,以及在某些研究中隐含地和明确地使用的不同最大尝试计数选项。几个指标用于反映评估知识追踪模型的质量。评估的知识追踪模型包括Vanilla-DKT,两个长短期内存深度知识跟踪(LSTM-DKT)变体,两个动态键值存储器网络(DKVMN)变体,以及自我细致的知识跟踪(SAKT)。我们评估Logistic回归,贝叶斯知识跟踪(BKT)和简单的非学习模型作为基准。我们的结果表明,DLKT模型一般优于非DLKT模型,DLKT模型之间的相对差异是微妙的,并且在数据集之间经常变化。我们的研究结果还表明,通常的纯模型,例如平均预测,比更复杂的知识追踪模型更好地表现出更好的性能,尤其是在准确性方面。此外,我们的公制和封路数据分析显示,用于选择最佳模型的度量标准对模型的性能有明显的影响,并且该度量选择可以影响模型排名。我们还研究了输入和输出层变化的影响,过滤出长期尝试序列,以及随机性和硬件等非模型属性。最后,我们讨论模型性能可重量和相关问题。我们的模型实现,评估代码和数据作为本工作的一部分发布。
translated by 谷歌翻译
人格计算和情感计算最近在许多研究领域获得了兴趣。任务的数据集通常具有视频,音频,语言和生物信号等多种方式。在本文中,我们提出了一种灵活的型号,用于利用所有可用数据的任务。该任务涉及复杂的关系,并避免使用大型模型进行视频处理,我们提出了使用行为编码,该行为编码具有对模型的最小变化的性能提升性能。近期使用变压器的横向感到流行,并且用于融合不同的方式。由于可能存在长期关系,因此不希望将输入破坏到块中,因此所提出的模型将整个输入处理在一起。我们的实验表明了上述每个贡献的重要性
translated by 谷歌翻译