Learning a generative model from partial data (data with missingness) is a challenging area of machine learning research. We study a specific implementation of the Auto-Encoding Variational Bayes (AEVB) algorithm, named in this paper as a Variational Auto-Decoder (VAD). VAD is a generic framework which uses Variational Bayes and Markov Chain Monte Carlo (MCMC) methods to learn a generative model from partial data. The main distinction between VAD and Varia-tional Auto-Encoder (VAE) is the encoder component , as VAD does not have one. Using a proposed efficient inference method from a multivari-ate Gaussian approximate posterior, VAD models allow inference to be performed via simple gradient ascent rather than MCMC sampling from a probabilistic decoder. This technique reduces the inference computational cost, allows for using more complex optimization techniques during latent space inference (which are shown to be crucial due to a high degree of freedom in the VAD latent space), and keeps the framework simple to implement. Through extensive experiments over several datasets and different missing ratios, we show that encoders cannot efficiently marginalize the input volatility caused by imputed missing values. We study multimodal datasets in this paper , which is a particular area of impact for VAD models.
translated by 谷歌翻译
数值方法中随机算法的强大功能导致了快速解决方案,它使用奇异值分解(SVD)作为核心例程。但是,考虑到现代的大数据量和SVD的适度运行时间,大多数实际算法需要某种形式的运行SVD时的近似,例如,这样的分析。虽然这些近似方法满足了许多理论上的保证,但我们在现实世界的大规模数据集上提供了第一个算法实现forsketch-and-SVD问题。我们对这些算法进行了全面的实证评估,并提供了如何确保准确部署到真实数据的指导。作为Sketched SVD的应用,我们提出了Sketched Leverage Score Ordering,这是一种在神经网络训练中确定数据排序的技术。 Ourtechnique基于使用随机预测的杠杆分数的分布式计算。这些计算出的杠杆分数提供了一种灵活且有效的方法来确定训练数据的最佳排序,而无需人工干预或注释。我们通过图像分类,语言情感分析和多模态情感分析的一系列实验提供实证结果。与标准随机投影算法相比,我们的方法更快,并且显示了收敛和结果的改进。
translated by 谷歌翻译
多模态情绪分析是研究由语言,视觉和声学模式表达的说话者情感的核心研究领域。多模态学习中的中心挑战涉及推断可以处理和关联来自这些模态的信息的联合表示。然而,现有工作通过要求所有模态作为输入来学习联合表示,因此,学习的表示可能对测试时的噪声缺失模态敏感。随着机器翻译中序列序列(Seq2Seq)模型的最近成功,有机会探索在测试时可能不需要所有输入模态的联合表示的新方法。在本文中,我们提出了一种通过在模态之间进行转换来学习联合表示的方法。我们的方法基于以下关键洞察:从源到目标模态的转换提供了仅使用源模态作为输入来学习联合表示的方法。我们使用循环一致性损失来增强模态转换,以确保我们的联合表示保留最大的信息。一旦我们的翻译模型使用配对的多模态数据进行训练,我们只需要在测试时从源模态获得最终情绪预测的数据。这确保了我们的模型在其他模态中保持强大的功能或缺少信息。我们使用耦合的翻译预测目标训练我们的模型,并在多模态情感分析数据集上实现最新的结果:CMU-MOSI,ICT-MMMO和YouTube。另外的实验表明,我们的模型学习越来越多的判别性联合表示,具有更多的输入模态,同时保持对丢失或扰动模态的鲁棒性。
translated by 谷歌翻译
Humans convey their intentions through the usage of both verbal and nonverbal behaviors during face-to-face communication. Speaker intentions often vary dynamically depending on different nonverbal contexts, such as vocal patterns and facial expressions. As a result, when modeling human language, it is essential to not only consider the literal meaning of the words but also the nonverbal contexts in which these words appear. To better model human language, we first model expressive nonverbal representations by analyzing the fine-grained visual and acoustic patterns that occur during word segments. In addition, we seek to capture the dynamic nature of nonverbal intents by shifting word representations based on the accompanying nonverbal behaviors. To this end, we propose the Recurrent Attended Variation Embedding Network (RAVEN) that models the fine-grained structure of nonverbal subword sequences and dynamically shifts word representations based on nonverbal cues. Our proposed model achieves competitive performance on two publicly available datasets for multimodal sentiment analysis and emotion recognition. We also visualize the shifted word representations in different nonverbal contexts and summarize common patterns regarding multimodal variations of word representations.
translated by 谷歌翻译
人类多模式语言的计算建模是跨越语言,视觉和声学模式的自然语言处理中的新兴研究领域。理解多模式语言不仅需要对每种模态中的交互进行建模(模内交互),而且更重要的是模态之间的相互作用(交叉模态交互)。在本文中,我们提出了循环多级融合网络(RMFN),它将融合问题分解为多个阶段,每个阶段都集中在多模态信号的子集上,以进行专门的,有效的融合。使用这种多阶段融合方法对交叉模态交互进行建模,该方法构建了前一阶段的中间表示。通过将我们提出的融合方法与递归神经网络的系统相结合来模拟时间和模内相互作用。 RMFN在三种公共数据集中对人类多模式语言进行建模时,展示了最先进的性能,涉及多模式情感分析,情感识别和表现特征识别。我们提供可视化来显示聚变的每个阶段聚焦在多模态信号的不同子集上,学习越来越多的多模态表示。
translated by 谷歌翻译
情感识别是人工智能与人类交流分析交叉的核心研究领域。这是一项重大的技术挑战,因为人类通过语言,视觉和声学模式的复杂特殊组合来展示自己的情感。与传统的多模态融合技术相比,我们从直接的人独立和相对的人依赖视角来处理情感识别。独立于人的视角遵循传统的情感识别方法,该方法直接从观察到的多模态特征中推断绝对情感标签。相对的人依赖性观点通过比较部分视频消息以相对方式来评估情绪识别,以确定情绪强度是否增加或减少。我们提出的模型通过将情绪识别任务划分为三个easiersubtasks来整合这些直接和相对预测的观点。第一个子任务涉及视频的两个短片段之间的相对情感强度的多模态本地排名。第二个子参数使用贝叶斯分析算法推断全局相对情绪等级的局部排名。第三个子任务包括来自观察到的多模态行为的直接预测和来自局部全局的最终情绪预测的相对情绪等级。我们的方法在视听情感识别基准测试中表现出色,并改进了多模式融合的其他算法。
translated by 谷歌翻译
多模式机器学习是跨越语言,视觉和声学模式的核心研究领域。多模式学习的核心挑战涉及学习表示,可以处理和关联来自多种模态的信息。在本文中,我们提出了两种使用序列到序列(Seq2Seq)方法进行联合多模态表示的无监督学习的方法:a \ textit {Seq2Seq模态翻译模型}和\ textit {Hierarchical Seq2Seq模态翻译模型}。我们还探讨了这些seq2seq模型的多模式输入和输出的多种不同变化。我们使用CMU-MOSI数据集进行多模态情感分析的实验表明,我们的方法学习的信息多模态表示优于基线并在多模态情感分析中实现改进的性能,特别是在我们的模型能够将F1得分提高12分的双峰情况下。我们还讨论了多模式Seq2Seq方法的futuredirections。
translated by 谷歌翻译
由于存在多个信息源,因此学习多模态数据的表示是一个基本上复杂的研究问题。为了解决多模态数据的复杂性,我们认为适当的代表性学习模型应该:1)根据数据变异的独立因素对表征进行因子分解,捕获2)判别和3)生成任务的重要特征,以及4)耦合特定模态和多模态信息。为了囊括所有这些性质,我们提出了多模态因子分解模型(MFM),它将多模态表示分解为两组独立因子:多模态判别因子和模态特定生成因子。多模态歧视因子在所有模态中共享,并包含判别任务(如预测情感)所需的联合多模态特征。特定于模态的生成因子对于每种模态都是唯一的,并且包含生成数据所需的信息。我们的实验结果表明,我们的模型能够学习有意义的多模态表示,并在五个多模态数据集上实现最先进或竞争性的表现。我们的模型还通过调节独立因子来展示灵活的生成能力。我们进一步解释分解表示以理解影响多模式学习的相互作用。
translated by 谷歌翻译
在本文中,我们提出了一个统一的框架,用于同时发现群集的数量,并使用子空间聚类将数据点分组到它们中。分布在高维空间中的真实数据可以被解耦为低维子空间的并集,这可以有益于各种应用。为了探索这种内在结构,现有技术的子空间聚类方法通常优化所有样本中的自我表示问题,以构建用于光谱聚类的成对关联图。然而,具有成对相似性的图形缺乏稳健性,尤其是对于位于两个子空间交叉点的样本。为了解决这个问题,我们设计了一个基于超相关的数据结构,称为\ textit {三联体关系},它揭示了三个样本之间的高度相关性和局部紧致性。三元组关系可以从自表示矩阵导出,并且可以用于将数据点分配给聚类。鼓励每个三元组中的三个样本高度相关并且被认为是元元素集群,其在分割两个密集分布的子空间时表现出比成对关系更强的鲁棒性。基于三重关系,我们提出了一种统一的优化方案来自动计算聚类分配。具体而言,我们通过同时最大化来自不同聚类的三元组的相似性同时最小化来自相同聚类的三元组的相关性来优化模型选择奖励和聚变奖励。所提出的算法还自动显示群集和融合群的数量,以避免过度分割。对合成数据集和现实数据集的广泛实验结果验证了所提方法的有效性和鲁棒性。
translated by 谷歌翻译
人员重新识别(ReID)旨在匹配部署在不同位置的多个非重叠摄像机的人。为了解决这个具有挑战性的问题,已经提出了许多度量学习方法,其中三元组丢失是最先进的技术之一。在这项工作中,我们探索正负对三胞胎之间的差距,并证明大保险是有益的。特别是,我们提出了一种新颖的多阶段训练策略,它可以学习增量三联体边缘并有效地改善三联体损失。利用多级特征图来使学习特征更具辨别力。此外,我们引入了全球硬性身份搜索方法,以便在生成培训批次时对硬性身份进行抽样。在Market-1501,CUHK03和DukeMTMCreID上进行的大量实验表明,这种方法可以提高性能,并且优于大多数现有的最先进的方法。
translated by 谷歌翻译