我们提出了一种新的广义零射算法,以识别来自手势的感知情绪。我们的任务是将手势映射到培训中未遇到的新颖情感类别。我们介绍了一个对抗的基于AutoEncoder的表示学习,将3D运动捕获的手势序列与使用Word2Vec嵌入的自然语言感知情绪术语的矢量化表示相关联。语言 - 语义嵌入提供了情感标签空间的表示,我们利用这种底层分布将手势序列映射到适当的分类情绪标签。我们使用具有已知情绪术语的手势组合培训我们的方法,并且没有用任何情绪注释的手势。我们在MPI情绪体表达式数据库(EBEDB)上评估我们的方法,并获得58.43 \%$的准确性。这提高了当前最先进的算法的性能,以便在绝对的25美元 - 27 \%$ 27 \%$ 27 \%。
translated by 谷歌翻译
广义零射击学习(GZSL)旨在培训一个模型,以在某些输出类别在监督学习过程中未知的情况下对数据样本进行分类。为了解决这一具有挑战性的任务,GZSL利用可见的(源)和看不见的(目标)类的语义信息来弥合所见类和看不见的类之间的差距。自引入以来,已经制定了许多GZSL模型。在这篇评论论文中,我们介绍了有关GZSL的全面评论。首先,我们提供了GZSL的概述,包括问题和挑战。然后,我们为GZSL方法介绍了分层分类,并讨论了每个类别中的代表性方法。此外,我们讨论了GZSL的可用基准数据集和应用程序,以及有关研究差距和未来研究方向的讨论。
translated by 谷歌翻译
步态情绪识别在智能系统中起着至关重要的作用。大多数现有方法通过随着时间的推移专注于当地行动来识别情绪。但是,他们忽略了时间域中不同情绪的有效距离是不同的,而且步行过程中的当地行动非常相似。因此,情绪应由全球状态而不是间接的本地行动代表。为了解决这些问题,这项工作通过构建动态的时间接受场并设计多尺度信息聚集以识别情绪,从而在这项工作中介绍了新型的多量表自适应图卷积网络(MSA-GCN)。在我们的模型中,自适应选择性时空图卷积旨在动态选择卷积内核,以获得不同情绪的软时空特征。此外,跨尺度映射融合机制(CSFM)旨在构建自适应邻接矩阵,以增强信息相互作用并降低冗余。与以前的最先进方法相比,所提出的方法在两个公共数据集上实现了最佳性能,将地图提高了2 \%。我们还进行了广泛的消融研究,以显示不同组件在我们的方法中的有效性。
translated by 谷歌翻译
人类影响识别是一个完善的研究领域,具有许多应用,例如心理护理,但现有方法认为所有兴趣情绪都是先验的作为注释培训例子。然而,通过新颖的心理学理论的人类情感谱的粒度和改进的上升和改善语境中的情绪增加给数据收集和标签工作带来了相当大的压力。在本文中,我们在语境中概念化了对情绪的一次性识别 - 一种新的问题,旨在识别来自单个支持样品的更精细粒子水平的人体影响。为了解决这项具有挑战性的任务,我们遵循深度度量学习范例,并引入多模态情绪嵌入方法,通过利用人类外观的互补信息和通过语义分割网络获得的语义场景上下文来最大限度地减少相同情绪嵌入的距离。我们上下文感知模型的所有流都使用加权三态丢失和加权交叉熵损失来共同优化。我们对适应我们单次识别问题的Demotic DataSet的分类和数值情感识别任务进行了彻底的实验,揭示了从单一示例中分类人类影响是一项艰巨的任务。尽管如此,我们模型的所有变体都明显优于随机基线,同时利用语义场景上下文一致地提高了学习的表示,在一次射击情感识别中设置最先进的结果。为了促进对人类影响国家的更普遍表示的研究,我们将在https://github.com/kpeng9510/affect-dml下公开向社区公开提供我们的基准和模型。
translated by 谷歌翻译
通过对齐跨模型自动化器的潜在空间来学习共同的潜在嵌入是广义零拍分类(GZSC)的有效策略。然而,由于缺乏细粒度的实例 - 明智的注释,它仍然很容易遭受域移位问题,用于多样化图像的视觉表示与固定属性的语义表示之间的差异。在本文中,我们通过学习对齐的跨模型表示(称为ACMR)来提出创新的AutoEncoder网络,用于GZSC。具体地,我们提出了一种新的视觉 - 语义对准(VSA)方法,以加强由学习分类器引导的潜在子空间上的交叉模态潜在特征的对准。此外,我们提出了一种新颖的信息增强模块(IEM),以减少潜在变量折叠的可能性同时鼓励潜在变量的判别能力。公开数据集的广泛实验证明了我们方法的最先进的性能。
translated by 谷歌翻译
“我们怎样才能通过简单地告诉他们,从动画电影剧本或移动机器人的3D角色我们希望他们做什么?” “我们如何非结构化和复杂的可以造一个句子,仍然从其生成合理的运动?”这些都是需要在长期得到回答,因为领域仍然处于起步阶段的问题。通过这些问题的启发,我们提出了产生成分操作的新技术,它可以处理复杂的输入句子。我们的产量是描绘在输入句子中的动作三维姿态序列。我们提出了一个分级二流顺序模型,探讨对应于给定的运动自然语言中的句子和三维姿态序列之间的精细联合级映射。我们学习运动的两个集管表示 - 每一个上半身下半身动作。我们的模型可以生成简短的句子描述单个动作以及长组成的句子描述多个连续叠加行动似是而非的姿势序列。我们评估的公开可用的KIT运动语言数据集含有与人类标注的句子3D姿势数据我们提出的模型。实验结果表明,我们的模型以50%的余量前进的状态的最先进的在客观评价基于文本的运动的合成。基于用户研究定性评价表明我们的合成运动被认为是最接近地面实况动作捕捉短期和组成句子。
translated by 谷歌翻译
在许多现实世界的医学图像分类设置中,我们无法访问所有可能的疾病类别的样本,而强大的系统有望在识别新型测试数据方面具有高性能。我们提出了一种通用的零射击学习(GZSL)方法,该方法使用自我监督学习(SSL)用于:1)选择不同疾病类别的锚定向量;2)训练功能生成器。我们的方法不需要类属性向量,这些向量可用于自然图像,但不适合医学图像。SSL确保锚向量代表每个类别。SSL还用于生成看不见类的合成特征。使用更简单的架构,我们的方法与基于SSL的最先进的GZSL方法匹配自然图像,并优于医学图像的所有方法。我们的方法足够适应于自然图像时可容纳类属性向量。
translated by 谷歌翻译
零射击动作识别是识别无视觉示例的识别性类别的任务,只有在没有看到看到的类别的seman-tic嵌入方式。问题可以看作是学习一个函数,该函数可以很好地讲述不见的阶级实例,而不会在类之间失去歧视。神经网络可以模拟视觉类别之间的复杂边界,从而将其作为监督模型的成功范围。但是,这些高度专业化的类边界可能不会从看不见的班级转移到看不见的类别。在本文中,我们提出了基于质心的表示,该表示将视觉和语义表示,同时考虑所有训练样本,通过这种方式,对看不见的课程的实例很好。我们使用强化学习对群集进行优化,这对我们的工作方法表明了至关重要的。我们称提出的甲壳类动物的命名为Claster,并观察到它在所有标准数据集中始终超过最先进的方法,包括UCF101,HMDB51和奥运会运动;在Thestandard Zero-shot评估和广义零射击学习中。此外,我们表明我们的模型在图像域也可以进行com的性能,在许多设置中表现出色。
translated by 谷歌翻译
人们对人类情感状态的稀疏代表性格式的需求日益增长,这些格式可以在有限的计算记忆资源的情况下使用。我们探讨了在潜在矢量空间中代表神经数据对情绪刺激的响应是否可以用于预测情绪状态,并生成参与者和/或情绪特定于情绪的合成EEG数据。我们提出了一个有条件的基于变异自动编码器的框架EEG2VEC,以从脑电图数据中学习生成歧视性表示。关于情感脑电图记录数据集的实验结果表明,我们的模型适用于无监督的脑电图建模,基于潜在表示的三个不同情绪类别(正,中性,负)的分类,可实现68.49%的稳健性能,并产生的合成eeg序列共同存在于真实的脑电图数据输入到特别重建低频信号组件。我们的工作推进了情感脑电图表示可以在例如生成人工(标签)训练数据或减轻手动功能提取的领域,并为记忆约束的边缘计算应用程序提供效率。
translated by 谷歌翻译
广义的零射击学习(GZSL)旨在通过将语义知识从看见的类别转移到看不见的阶级来识别所见类和看不见的类别的图像。这是一个有希望的解决方案,可以利用生成模型的优势,以根据从所见类中学到的知识来幻觉现实的看不见的样本。但是,由于产生的变化,大多数现有方法的合成样本可能从看不见的数据的实际分布中偏离。为了解决这个问题,我们提出了一个基于流动的生成框架,该框架由多种条件仿射耦合层组成,用于学习看不见的数据生成。具体而言,我们发现并解决了触发产生转移的三个潜在问题,即语义不一致,方差崩溃和结构障碍。首先,为了增强生成样品中语义信息的反射,我们将语义信息明确嵌入到每个条件仿射耦合层中的转换中。其次,为了恢复真正看不见的特征的固有差异,我们引入了一种边界样本挖掘策略,具有熵最大化,以发现语义原型的更困难的视觉变体,并在此调整分类器的决策边界。第三,提出了一种相对定位策略来修改属性嵌入,引导它们充分保留类间的几何结构,并进一步避免语义空间中的结构障碍。四个GZSL基准数据集的广泛实验结果表明,GSMFlow在GZSL上实现了最先进的性能。
translated by 谷歌翻译
广义零射门学习(GZSL)是有希望在许多实际场景前景具有挑战性的课题。使用门控机构,其判别从看出样品看不见的样品可以分解GZSL问题常规的零铅球学习(ZSL)问题和监督分类问题。然而,培养的栅极通常是由于具有挑战性在看不见的域中的数据缺乏。要解决这个问题,在本文中,我们提出了一种基于外的分布(OOD)分类器只使用看过样本训练分类看不见,看到域的边界。首先,我们学上的单位超球,其中的视觉特征和语义属性潜分布对准类明智地共享潜在空间。随后,我们发现边界和歧管每个类的中心。通过利用类中心和边界,看不见的样品可以从样品可见分开。在那之后,我们使用了两个专家来看到和看不见的样本分别进行分类。我们广泛验证我们的五个流行的基准数据集,包括AWA1,AWA2,CUB,FLO和SUN的做法。实验结果表明,我们对国家的最先进的方法,方法的优点。
translated by 谷歌翻译
零拍学习(ZSL)旨在识别培训时间没有可视化样本的类。要解决此问题,可以依赖每个类的语义描述。典型的ZSL模型学习所看到的类和相应的语义描述的视觉样本之间的映射,以便在测试时间的看不见的类上对此进行操作。最先进的方法依赖于从类的原型合成视觉特征的生成模型,从而可以以监督方式学习分类器。但是,这些方法通常偏向于所看到的类,其视觉实例是唯一可以与给定类原型匹配的类。我们提出了一种正规化方法,可以应用于任何条件生成的ZSL方法,只能利用语义类原型。它学会综合判断特征,以便在训练时间不可用的可能语义描述,即看不见的特征。在文献中常用的四个数据集中评估该方法,其在文献中通常用于感应和转换设置,结果对杠杆或上述现有方法的结果。
translated by 谷歌翻译
Annotating words in a historical document image archive for word image recognition purpose demands time and skilled human resource (like historians, paleographers). In a real-life scenario, obtaining sample images for all possible words is also not feasible. However, Zero-shot learning methods could aptly be used to recognize unseen/out-of-lexicon words in such historical document images. Based on previous state-of-the-art method for zero-shot word recognition Pho(SC)Net, we propose a hybrid model based on the CTC framework (Pho(SC)-CTC) that takes advantage of the rich features learned by Pho(SC)Net followed by a connectionist temporal classification (CTC) framework to perform the final classification. Encouraging results were obtained on two publicly available historical document datasets and one synthetic handwritten dataset, which justifies the efficacy of Pho(SC)-CTC and Pho(SC)Net.
translated by 谷歌翻译
零射击学习(ZSL)通过将语义知识转移到看不见者的语义知识来解决新的类识别问题。通过单独使用单向关注,现有的基于关注的模型在单个图像中努力学习劣势区域特征,这忽略了视觉特征的可转换性和辨别属性定位。在本文中,我们提出了一个跨属性引导的变换器网络,称为Transzero ++,以改进可视化功能,并学习精确的属性本地化,用于ZSL中的语义增强的可视嵌入表示。 Transzero ++由Attribute $ \ LightArrow $ Visual Transformer子网(AVT)和Visual $ \ LightArrow $属性变压器子网(增值税)组成。具体而言,AVT首先采用功能增强编码器来缓解交叉数据集问题,并通过减少区域特征之间的缠绕的相对几何关系来提高视觉特征的可转换性。然后,使用属性$ \ lightArrow $可视解码器来本地化与基于属性的可视特征表示的给定图像中的每个属性最相关的图像区域。类似地,VAT使用类似的功能增强编码器来改进视觉功能,这些功能进一步应用于Visual $ \ lightarrow $属性解码器,以学习基于Visual-基的属性功能。通过进一步引入语义协作损失,两个属性引导的变压器通过语义协作学习互相教导学习语义增强的视觉嵌入。广泛的实验表明,Transzero ++在三个挑战ZSL基准上实现了新的最先进的结果。该代码可用于:\ url {https://github.com/shiming-chen/transzero_pp}。
translated by 谷歌翻译
情绪识别涉及几个现实世界应用。随着可用方式的增加,对情绪的自动理解正在更准确地进行。多模式情感识别(MER)的成功主要依赖于监督的学习范式。但是,数据注释昂贵,耗时,并且由于情绪表达和感知取决于几个因素(例如,年龄,性别,文化),获得具有高可靠性的标签很难。由这些动机,我们专注于MER的无监督功能学习。我们考虑使用离散的情绪,并用作模式文本,音频和视觉。我们的方法是基于成对方式之间的对比损失,是MER文献中的第一次尝试。与现有的MER方法相比,我们的端到端特征学习方法具有几种差异(和优势):i)无监督,因此学习缺乏数据标记成本; ii)它不需要数据空间增强,模态对准,大量批量大小或时期; iii)它仅在推理时应用数据融合; iv)它不需要对情绪识别任务进行预训练的骨干。基准数据集上的实验表明,我们的方法优于MER中应用的几种基线方法和无监督的学习方法。特别是,它甚至超过了一些有监督的MER最先进的。
translated by 谷歌翻译
用行为方式对虚拟试剂进行建模是个性化人类代理相互作用的一个因素。我们提出了一种有效但有效的机器学习方法,以综合由韵律特征和文本以不同扬声器风格驱动的手势,包括在培训期间看不见的手势。我们的模型执行零镜头多模式样式转移,该样式由包含各种扬声器视频的PATS数据库的多模式数据驱动。我们认为风格在说话时是普遍的,它使交流行为表现出色,而语音内容则由多模式信号和文本携带。这种内容和样式的解开方案使我们能够直接推断出数据的样式嵌入,即使数据不属于培训阶段,而无需进行任何进一步的培训或微调。我们模型的第一个目标是根据两个音频和文本模式的内容生成源扬声器的手势。第二个目标是调节源扬声器预测目标扬声器的多模式行为样式的手势。第三个目标是允许在训练期间看不见的扬声器的零射击样式转移,而不会重新培训模型。我们的系统包括:(1)扬声器样式编码器网络,该网络学会从目标扬声器多模式数据中生成固定的尺寸扬声器嵌入样式,以及(2)序列综合网络的序列,该序列基于输入方式的内容合成手势源扬声器,并以扬声器风格的嵌入为条件。我们评估我们的模型可以综合源说话者的手势,并将目标扬声器样式变异性的知识转移到零拍摄设置中的手势生成任务中。我们将2D手势转换为3D姿势并产生3D动画。我们进行客观和主观评估以验证我们的方法并将其与基线进行比较。
translated by 谷歌翻译
已经普遍研究了具有精确唇部同步的语音驱动的3D面部动画。然而,在演讲中为整个面部的综合制造动作很少被探索。在这项工作中,我们介绍了一个联合音频文本模型,用于捕捉表达语音驱动的3D面部动画的上下文信息。收集现有数据集以覆盖尽可能多的不同音素而不是句子,从而限制了基于音频的模型的能力,以了解更多不同的上下文。为解决此问题,我们建议利用从强大的预先培训的语言模型中提取的上下文文本嵌入,该模型从大规模文本数据中学习了丰富的上下文表示。我们的假设是文本特征可以消除上面表达式的变化,这与音频没有强烈相关。与从文本中学习音素级别功能的先前方法相比,我们调查语音驱动3D面部动画的高级上下文文本特征。我们表明,组合的声学和文本方式可以在维持抖动同步的同时综合现实的面部表达式。我们进行定量和定性评估以及感知用户学习。结果展示了我们模型对现有最先进的方法的卓越表现。
translated by 谷歌翻译
我们解决了从文本描述中产生不同3D人类动作的问题。这项具有挑战性的任务需要两种方式的联合建模:从文本中理解和提取有用的人类以人为中心的信息,然后产生人类姿势的合理和现实序列。与大多数以前的工作相反,该作品着重于从文本描述中产生单一的,确定性的动作,我们设计了一种可以产生多种人类动作的变异方法。我们提出了Temos,这是一种具有人体运动数据的变异自动编码器(VAE)训练的文本生成模型,并结合了与VAE潜在空间兼容的文本编码器结合使用的文本编码器。我们显示Temos框架可以像先前的工作一样产生基于骨架的动画,以及更具表现力的SMPL身体运动。我们在套件运动语言基准上评估了我们的方法,尽管相对简单,但对艺术的状态表现出显着改善。代码和模型可在我们的网页上找到。
translated by 谷歌翻译
深度学习的最新发展之一是广义的零射击学习(GZSL),旨在识别所见类和看不见的类别的对象,而仅提供了来自可见类的标记示例。在过去的几年中,GZSL抓住了牵引力,并提出了几种模型来解决这个问题。尽管在计算机视觉和自然语言处理等领域进行了大量有关GZSL的研究,但尚未进行此类研究来处理时间序列数据。 GZSL用于应用程序,例如检测ECG和EEG数据的异常,并从传感器,光谱仪和其他设备数据中识别出看不见的类。在这方面,我们提出了一个时间序列-GZSL(LETS -GZSL)模型的潜在嵌入方式,该模型可以解决GZSL的问题用于时间序列分类(TSC)。我们利用基于嵌入式的方法并将其与属性向量相结合以预测最终类标签。我们报告了广泛流行的UCR档案数据集的结果。我们的框架能够在大多数数据集上实现至少55%的谐波平均值,除非看不见的类的数量大于3,否则数据量非常低(小于100个培训示例)。
translated by 谷歌翻译
视频中的动作通常涉及人类与物体的相互作用。动作标签通常由动词和名词的各种组合组成,但我们可能没有所有可能组合的培训数据。在本文中,我们旨在通过利用知识图的力量来提高组成动作识别模型在训练时间期间看不见的新型动词或新名词的概括能力。先前的工作利用了知识图中的动词 - 单词组成动作节点,因此比效率低下,因为相对于动词和名词的数量,组成动作节点的数量在四倍上增长。为了解决这个问题,我们提出了我们的方法:通过知识掩盖(黑暗)的解开行动识别,它利用了动作的固有组成。黑暗训练一个分解模型,首先提取动词和名词的解开特征表示,然后使用外部知识图中的关系预测分类权重。动词和名词之间的类型约束是从外部知识库中提取的,并在组成动作时最终应用。黑暗的对象和动词数量具有更好的可伸缩性,并在Charades数据集中实现了最新性能。我们进一步根据Epic-Kitchen数据集提出了一个新的基准分配,该数据集的类别和样本数量更大,并且该基准测试了各种模型。
translated by 谷歌翻译