数值方法中随机算法的强大功能导致了快速解决方案,它使用奇异值分解(SVD)作为核心例程。但是,考虑到现代的大数据量和SVD的适度运行时间,大多数实际算法需要某种形式的运行SVD时的近似,例如,这样的分析。虽然这些近似方法满足了许多理论上的保证,但我们在现实世界的大规模数据集上提供了第一个算法实现forsketch-and-SVD问题。我们对这些算法进行了全面的实证评估,并提供了如何确保准确部署到真实数据的指导。作为Sketched SVD的应用,我们提出了Sketched Leverage Score Ordering,这是一种在神经网络训练中确定数据排序的技术。 Ourtechnique基于使用随机预测的杠杆分数的分布式计算。这些计算出的杠杆分数提供了一种灵活且有效的方法来确定训练数据的最佳排序,而无需人工干预或注释。我们通过图像分类,语言情感分析和多模态情感分析的一系列实验提供实证结果。与标准随机投影算法相比,我们的方法更快,并且显示了收敛和结果的改进。
translated by 谷歌翻译
多模态情绪分析是研究由语言,视觉和声学模式表达的说话者情感的核心研究领域。多模态学习中的中心挑战涉及推断可以处理和关联来自这些模态的信息的联合表示。然而,现有工作通过要求所有模态作为输入来学习联合表示,因此,学习的表示可能对测试时的噪声缺失模态敏感。随着机器翻译中序列序列(Seq2Seq)模型的最近成功,有机会探索在测试时可能不需要所有输入模态的联合表示的新方法。在本文中,我们提出了一种通过在模态之间进行转换来学习联合表示的方法。我们的方法基于以下关键洞察:从源到目标模态的转换提供了仅使用源模态作为输入来学习联合表示的方法。我们使用循环一致性损失来增强模态转换,以确保我们的联合表示保留最大的信息。一旦我们的翻译模型使用配对的多模态数据进行训练,我们只需要在测试时从源模态获得最终情绪预测的数据。这确保了我们的模型在其他模态中保持强大的功能或缺少信息。我们使用耦合的翻译预测目标训练我们的模型,并在多模态情感分析数据集上实现最新的结果:CMU-MOSI,ICT-MMMO和YouTube。另外的实验表明,我们的模型学习越来越多的判别性联合表示,具有更多的输入模态,同时保持对丢失或扰动模态的鲁棒性。
translated by 谷歌翻译
Humans convey their intentions through the usage of both verbal and nonverbal behaviors during face-to-face communication. Speaker intentions often vary dynamically depending on different nonverbal contexts, such as vocal patterns and facial expressions. As a result, when modeling human language, it is essential to not only consider the literal meaning of the words but also the nonverbal contexts in which these words appear. To better model human language, we first model expressive nonverbal representations by analyzing the fine-grained visual and acoustic patterns that occur during word segments. In addition, we seek to capture the dynamic nature of nonverbal intents by shifting word representations based on the accompanying nonverbal behaviors. To this end, we propose the Recurrent Attended Variation Embedding Network (RAVEN) that models the fine-grained structure of nonverbal subword sequences and dynamically shifts word representations based on nonverbal cues. Our proposed model achieves competitive performance on two publicly available datasets for multimodal sentiment analysis and emotion recognition. We also visualize the shifted word representations in different nonverbal contexts and summarize common patterns regarding multimodal variations of word representations.
translated by 谷歌翻译
人类多模式语言的计算建模是跨越语言,视觉和声学模式的自然语言处理中的新兴研究领域。理解多模式语言不仅需要对每种模态中的交互进行建模(模内交互),而且更重要的是模态之间的相互作用(交叉模态交互)。在本文中,我们提出了循环多级融合网络(RMFN),它将融合问题分解为多个阶段,每个阶段都集中在多模态信号的子集上,以进行专门的,有效的融合。使用这种多阶段融合方法对交叉模态交互进行建模,该方法构建了前一阶段的中间表示。通过将我们提出的融合方法与递归神经网络的系统相结合来模拟时间和模内相互作用。 RMFN在三种公共数据集中对人类多模式语言进行建模时,展示了最先进的性能,涉及多模式情感分析,情感识别和表现特征识别。我们提供可视化来显示聚变的每个阶段聚焦在多模态信号的不同子集上,学习越来越多的多模态表示。
translated by 谷歌翻译
情感识别是人工智能与人类交流分析交叉的核心研究领域。这是一项重大的技术挑战,因为人类通过语言,视觉和声学模式的复杂特殊组合来展示自己的情感。与传统的多模态融合技术相比,我们从直接的人独立和相对的人依赖视角来处理情感识别。独立于人的视角遵循传统的情感识别方法,该方法直接从观察到的多模态特征中推断绝对情感标签。相对的人依赖性观点通过比较部分视频消息以相对方式来评估情绪识别,以确定情绪强度是否增加或减少。我们提出的模型通过将情绪识别任务划分为三个easiersubtasks来整合这些直接和相对预测的观点。第一个子任务涉及视频的两个短片段之间的相对情感强度的多模态本地排名。第二个子参数使用贝叶斯分析算法推断全局相对情绪等级的局部排名。第三个子任务包括来自观察到的多模态行为的直接预测和来自局部全局的最终情绪预测的相对情绪等级。我们的方法在视听情感识别基准测试中表现出色,并改进了多模式融合的其他算法。
translated by 谷歌翻译
多模式机器学习是跨越语言,视觉和声学模式的核心研究领域。多模式学习的核心挑战涉及学习表示,可以处理和关联来自多种模态的信息。在本文中,我们提出了两种使用序列到序列(Seq2Seq)方法进行联合多模态表示的无监督学习的方法:a \ textit {Seq2Seq模态翻译模型}和\ textit {Hierarchical Seq2Seq模态翻译模型}。我们还探讨了这些seq2seq模型的多模式输入和输出的多种不同变化。我们使用CMU-MOSI数据集进行多模态情感分析的实验表明,我们的方法学习的信息多模态表示优于基线并在多模态情感分析中实现改进的性能,特别是在我们的模型能够将F1得分提高12分的双峰情况下。我们还讨论了多模式Seq2Seq方法的futuredirections。
translated by 谷歌翻译
由于存在多个信息源,因此学习多模态数据的表示是一个基本上复杂的研究问题。为了解决多模态数据的复杂性,我们认为适当的代表性学习模型应该:1)根据数据变异的独立因素对表征进行因子分解,捕获2)判别和3)生成任务的重要特征,以及4)耦合特定模态和多模态信息。为了囊括所有这些性质,我们提出了多模态因子分解模型(MFM),它将多模态表示分解为两组独立因子:多模态判别因子和模态特定生成因子。多模态歧视因子在所有模态中共享,并包含判别任务(如预测情感)所需的联合多模态特征。特定于模态的生成因子对于每种模态都是唯一的,并且包含生成数据所需的信息。我们的实验结果表明,我们的模型能够学习有意义的多模态表示,并在五个多模态数据集上实现最先进或竞争性的表现。我们的模型还通过调节独立因子来展示灵活的生成能力。我们进一步解释分解表示以理解影响多模式学习的相互作用。
translated by 谷歌翻译
当从正面和未标记数据中学习时,强烈假设正面观察是从$ X $的条件随机抽样,条件是$ Y = 1 $,其中X代表特征,Y代表标签。大多数现有算法是最优的在假设下设计。然而,对于许多现实世界的应用,观察到的正例是依赖于条件概率$ P(Y = 1 | X)$并且应该有偏差地采样。在本文中,我们假设具有更高$ P(Y = 1 | X)$的正例更可能被标记并提出基于概率间隙的PU学习算法。具体来说,通过将未标记的数据视为有噪声的负样本,我们可以自动标记一组正面和负面示例,这些示例的标签与具有一致性保证的贝叶斯最优分类器指定的标签相同。重新标记的示例具有偏置域,其通过内核均值匹配技术来补救。所提出的算法是无模型的,因此没有任何参数可以调整。实验结果表明我们的方法在生成和现实数据集上都能很好地工作。
translated by 谷歌翻译
h i g h l i g h t s • We propose a new Mahalanobis distance-based least squares support vector machines (MD-BLSSVM) classifier, in which two Maha-lanobis distances are constructed according to the covariance matrices of two class data for PU learning. • Excellent kernel technique can be introduced to solve the linear non-separable problem in a reproducing kernel Hilbert space after making certain linear transformation ingeniously. • MD-BLSSVM not only possesses faster learning speed, but also obtains better generalization than BLSSVMs and other methods. a b s t r a c t In many domains, the presence of both positive and negative examples is not satisfied and only one class of examples is available. This special case of binary classification is called as PU (positive and unlabeled) learning in short. At present, many classification algorithms have been introduced for PU learning, such as BLSSVM, BSVM and so on. However, all of these classical approaches were measured by Euclidean distance, which did not take into account the correlative information of each class and the fluctuation of various attributions. In order to reflect this information, we propose a new Mahalanobis distance-based least squares support vector machines (MD-BLSSVM) classifier, in which two Mahalanobis distances are constructed according to the covariance matrices of two class data for optimizing the hyper-planes. Actually, MD-BLSSVM has a special case of BLSSVMs when the covariance matrices are degenerated to the identity matrix. The merits of MD-BLSSVM are (1) Mahalanobis distance of two classes can measure more suitable distance with certain weights on attributions; (2) Excellent kernel technique can be introduced in a reproducing kernel Hilbert space after making certain linear transformation ingeniously; (3) A solution is obtained simply by solving the system of linear equations. In all, MD-BLSSVM is appropriate to many real problems, especially for the case that the distribution and correlation of two classes of data are obviously different. The experimental results on several artificial and benchmark datasets indicate that MD-BLSSVM not only possess faster learning speed, but also obtains better generalization than BLSSVMs and other methods.
translated by 谷歌翻译
Motivated by applications in recommendation systems and bioinformatics, we consider the problem of completing a low rank, partially observed binary matrix with graph information. We show that the corresponding problem can be set up in a positive and unlabeled data learning (referred to as PU learning in literature) framework. We make connections to convex optimization and show that existing greedy methods can be used to solve the problem. Experiments on simulated data as well as gene-disease associations data from bioinformatics show that using graphs, and adapting matrix completion in the PU learning setting, yield advantages over the standard binary matrix completion.
translated by 谷歌翻译