基于云的软件具有许多优势。当服务分为许多独立组件时,它们更容易更新。同样,在高峰需求期间,扩展云服务(只需雇用更多CPU)就更容易。因此,许多组织正在将其整体企业应用程序分为基于云的微服务。最近,使用机器学习来简化此分区任务,已经进行了很多工作。尽管进行了很多研究,但不建议通常使用单个分区方法。更具体地说,这些先前的解决方案是“脆弱”。即,如果它们在一个数据集中的一种目标中效果很好,那么如果应用于许多数据集和多个目标,则可以是最佳选择。为了找到一种通常有用的分区方法,我们深入提出。该新算法通过(a)具有新颖的损失函数和(b)一些超参数优化的算法扩展了Co-GCN深度学习分区生成器。如我们的实验所示,在多个数据集和目标上,通常胜过先前的工作(包括Co-GCN等)。据我们所知,这是SE中这种稳定的超参数优化的第一份报告。为了帮助重复使用这项工作,可以在https://bit.ly/2whfflb上在线提供。
translated by 谷歌翻译
We present RAVEn, a self-supervised multi-modal approach to jointly learn visual and auditory speech representations. Our pre-training objective involves encoding masked inputs, and then predicting contextualised targets generated by slowly-evolving momentum encoders. Driven by the inherent differences between video and audio, our design is asymmetric w.r.t. the two modalities' pretext tasks: Whereas the auditory stream predicts both the visual and auditory targets, the visual one predicts only the auditory targets. We observe strong results in low- and high-resource labelled data settings when fine-tuning the visual and auditory encoders resulting from a single pre-training stage, in which the encoders are jointly trained. Notably, RAVEn surpasses all self-supervised methods on visual speech recognition (VSR) on LRS3, and combining RAVEn with self-training using only 30 hours of labelled data even outperforms a recent semi-supervised method trained on 90,000 hours of non-public data. At the same time, we achieve state-of-the-art results in the LRS3 low-resource setting for auditory speech recognition (as well as for VSR). Our findings point to the viability of learning powerful speech representations entirely from raw video and audio, i.e., without relying on handcrafted features. Code and models will be made public.
translated by 谷歌翻译
Due to its importance in facial behaviour analysis, facial action unit (AU) detection has attracted increasing attention from the research community. Leveraging the online knowledge distillation framework, we propose the ``FANTrans" method for AU detection. Our model consists of a hybrid network of convolution and transformer blocks to learn per-AU features and to model AU co-occurrences. The model uses a pre-trained face alignment network as the feature extractor. After further transformation by a small learnable add-on convolutional subnet, the per-AU features are fed into transformer blocks to enhance their representation. As multiple AUs often appear together, we propose a learnable attention drop mechanism in the transformer block to learn the correlation between the features for different AUs. We also design a classifier that predicts AU presence by considering all AUs' features, to explicitly capture label dependencies. Finally, we make the attempt of adapting online knowledge distillation in the training stage for this task, further improving the model's performance. Experiments on the BP4D and DISFA datasets demonstrating the effectiveness of proposed method.
translated by 谷歌翻译
Recognizing a word shortly after it is spoken is an important requirement for automatic speech recognition (ASR) systems in real-world scenarios. As a result, a large body of work on streaming audio-only ASR models has been presented in the literature. However, streaming audio-visual automatic speech recognition (AV-ASR) has received little attention in earlier works. In this work, we propose a streaming AV-ASR system based on a hybrid connectionist temporal classification (CTC)/attention neural network architecture. The audio and the visual encoder neural networks are both based on the conformer architecture, which is made streamable using chunk-wise self-attention (CSA) and causal convolution. Streaming recognition with a decoder neural network is realized by using the triggered attention technique, which performs time-synchronous decoding with joint CTC/attention scoring. For frame-level ASR criteria, such as CTC, a synchronized response from the audio and visual encoders is critical for a joint AV decision making process. In this work, we propose a novel alignment regularization technique that promotes synchronization of the audio and visual encoder, which in turn results in better word error rates (WERs) at all SNR levels for streaming and offline AV-ASR models. The proposed AV-ASR model achieves WERs of 2.0% and 2.6% on the Lip Reading Sentences 3 (LRS3) dataset in an offline and online setup, respectively, which both present state-of-the-art results when no external training data are used.
translated by 谷歌翻译
我们介绍了Sparrow,这是一个寻求信息的对话代理,与提示的语言模型基线相比,训练有素,更有帮助,正确和无害。我们使用从人类反馈中的强化学习来培训我们的模型,以帮助人类评估者判断代理人的行为。首先,为了使我们的代理人更有帮助和无害,我们将良好对话的要求分解为代理人应遵循的自然语言规则,并分别向评估者询问每个规则。我们证明,这种崩溃使我们能够收集对代理行为的更多针对性的人类判断,并允许更有效的规则条件奖励模型。其次,我们的代理商在收集对模型声明的偏好判决时提供了支持事实主张的来源的证据。对于事实问题,麻雀提供的证据支持了78%的时间。比基线比基线更享受麻雀,同时对人类的对抗性探测更具弹性,在探测时只有8%的时间违反了我们的规则。最后,我们进行了广泛的分析,表明尽管我们的模型学会遵守我们的规则,但它可以表现出分布偏见。
translated by 谷歌翻译
代理商必须连续监视其伴侣的情感状态,以了解和参与社交互动。但是,评估情感识别的方法不能说明在情感状态之间的阻塞或过渡期间可能发生的分类绩效的变化。本文解决了在婴儿机器人相互作用的背景下影响分类表现的时间模式,在这种情况下,婴儿的情感状态有助于他们参与治疗性腿部运动活动的能力。为了支持视频记录中面部遮挡的鲁棒性,我们训练了婴儿使用面部和身体功能的识别分类器。接下来,我们对表现最佳模型进行了深入的分析,以评估随着模型遇到丢失的数据和不断变化的婴儿影响,性能如何随时间变化。在高度信心提取功能的时间窗口期间,经过训练的面部功能的单峰模型与在面部和身体特征训练的多模式模型相同的最佳性能。但是,在整个数据集上评估时,多模型模型的表现优于单峰模型。此外,在预测情感状态过渡并在对同一情感状态进行多个预测后改善时,模型性能是最弱的。这些发现强调了将身体特征纳入婴儿的连续影响识别的好处。我们的工作强调了随着时间的流逝和在存在丢失的数据的存在时,评估模型性能变异性的重要性。
translated by 谷歌翻译
最近,在一系列独立作品中提出了几种培训策略和时间模型,用于隔离单词唇读。但是,尚未探索结合最佳策略和调查每个策略的影响的潜力。在本文中,我们系统地研究了最先进的数据增强方法,时间模型和其他培训策略的性能,例如自我验证和使用单词边界指标。我们的结果表明,时间掩盖(TM)是最重要的增强,其次是混合和密集连接的时间卷积网络(DC-TCN)是隔离单词唇读的最佳时间模型。使用自我验证和单词边界指标也是有益的,但程度较小。上述所有方法的组合导致分类精度为93.4%,这比LRW数据集的当前最新性能的绝对提高了4.6%。通过预先培训其他数据集,可以将性能进一步提高到94.1%。对各种培训策略的错误分析表明,绩效通过提高难以认可词的分类准确性来提高。
translated by 谷歌翻译
面向目标的对话系统最初是作为自然语言界面设计的,用于用户可能会询问域,插槽和值进一步描述的实体的固定数据集。随着我们朝着适应性的对话系统迈进,有关域,插槽和值的知识可能会发生变化,因此越来越需要大规模从原始对话或相关的非拨号数据中自动提取这些术语。在本文中,我们通过探索可以使系统能够以纯粹数据驱动的方式在对话中发现对话中的域,插槽和值的不同功能来迈出这个方向的重要一步。我们检查的功能来自单词嵌入,语言建模功能以及嵌入空间一词的拓扑特征。为了检查每个功能集的效用,我们基于广泛使用的多沃兹数据集训练种子模型。然后,我们将此模型应用于其他语料库,即模式引导的对话数据集。我们的方法的表现优于仅依赖单词嵌入的先前提出的方法。我们还证明,每个功能都负责发现各种内容。我们认为,我们的结果需要进一步研究本体诱导,并继续利用对话和自然语言处理研究的拓扑数据分析。
translated by 谷歌翻译
在我们的多元文化世界中,支持人类的情感意识AI系统需要能够感知各种文化情绪表达模式变化的影响的能力。这些模型必须在未经培训的文化背景下表现良好。情感计算中的一个标准假设是,在同一文化中受过训练和使用的识别模型(文化内部)的表现将比在一种文化中训练并用于不同文化(跨文化)的模型更好。我们测试了这一假设,并使用来自六种文化的现实世界二元相互作用的视频进行了对跨文化影响识别模型的首次系统研究。我们在时间因果发现下开发了一种基于注意力的特征选择方法,以识别可以在跨文化情感识别模型中利用的行为线索。在所有六种文化中,我们的发现表明,跨文化影响识别模型比内文化模型更有效或更有效。我们确定并为跨文化情感识别而做出有用的行为特征;在本研究的背景下,视觉方式的面部特征比音频方式更有用。我们的论文介绍了跨文化影响识别系统未来发展的概念和动机。
translated by 谷歌翻译
注意缺陷/多动症(ADHD)是一种神经发育障碍,高度流行,需要临床专家才能诊断。众所周知,个人的观察行为反映在眼睛运动中,直接与注意机制和高阶认知过程有关。因此,我们探讨了是否可以根据记录的眼动动作以及在免费观看任务中的视频刺激信息进行检测到多动症。为此,我们开发了一个基于端到端的深度学习序列模型%,该模型%使用眼动扫描路径,我们将其预先培训在相关任务上,该任务可获得更多数据。我们发现该方法实际上能够检测ADHD并胜过相关的基线。我们在消融研究中研究了输入特征的相关性。有趣的是,我们发现该模型的性能与视频内容密切相关,该视频为未来的实验设计提供了见解。
translated by 谷歌翻译