在线文本 - 跨类型,注册,领域和风格 - 充满了人类的刻板印象,以公开或微妙的方式表达。对这些文本进行过培训的词嵌入,使这些刻板印象永久化和放大,并将扩展偏差传播到使用单词嵌入作为特征的机器学习模型。在这项工作中,我们提出了一种方法,在种族和宗教等多类设置中对词嵌入进行去除,从二元性别等二元设置中扩展(Bolukbasi等,2016)的工作。接下来,我们提出了一种评估多类去除的新方法。我们证明了我们的多类偏置是稳健的,并且在标准NLP任务中保持了功效。
translated by 谷歌翻译
多模态情绪分析是研究由语言,视觉和声学模式表达的说话者情感的核心研究领域。多模态学习中的中心挑战涉及推断可以处理和关联来自这些模态的信息的联合表示。然而,现有工作通过要求所有模态作为输入来学习联合表示,因此,学习的表示可能对测试时的噪声缺失模态敏感。随着机器翻译中序列序列(Seq2Seq)模型的最近成功,有机会探索在测试时可能不需要所有输入模态的联合表示的新方法。在本文中,我们提出了一种通过在模态之间进行转换来学习联合表示的方法。我们的方法基于以下关键洞察:从源到目标模态的转换提供了仅使用源模态作为输入来学习联合表示的方法。我们使用循环一致性损失来增强模态转换,以确保我们的联合表示保留最大的信息。一旦我们的翻译模型使用配对的多模态数据进行训练,我们只需要在测试时从源模态获得最终情绪预测的数据。这确保了我们的模型在其他模态中保持强大的功能或缺少信息。我们使用耦合的翻译预测目标训练我们的模型,并在多模态情感分析数据集上实现最新的结果:CMU-MOSI,ICT-MMMO和YouTube。另外的实验表明,我们的模型学习越来越多的判别性联合表示,具有更多的输入模态,同时保持对丢失或扰动模态的鲁棒性。
translated by 谷歌翻译
多模式机器学习是跨越语言,视觉和声学模式的核心研究领域。多模式学习的核心挑战涉及学习表示,可以处理和关联来自多种模态的信息。在本文中,我们提出了两种使用序列到序列(Seq2Seq)方法进行联合多模态表示的无监督学习的方法:a \ textit {Seq2Seq模态翻译模型}和\ textit {Hierarchical Seq2Seq模态翻译模型}。我们还探讨了这些seq2seq模型的多模式输入和输出的多种不同变化。我们使用CMU-MOSI数据集进行多模态情感分析的实验表明,我们的方法学习的信息多模态表示优于基线并在多模态情感分析中实现改进的性能,特别是在我们的模型能够将F1得分提高12分的双峰情况下。我们还讨论了多模式Seq2Seq方法的futuredirections。
translated by 谷歌翻译
我们采用新颖的视角来看待数据不是作为概率分布而是作为当前。主要研究几何测量理论领域,$ k $ -currents是连续线性泛函,作用于紧凑支持的平滑微分形式,可以理解为定向$ k $ - 维数流形的广义注记。通过从分布($ 0 $ -currents)移动到$ k $ -currents,我们可以通过在每个采​​样点上附加一个$ k $的三维切平面来明确定位数据。基于作为电流之间的基本距离的平坦度量,我们推导出了平面GAN,这是一种在生成对抗网络的精神中的公式,但是一般化为$ k $ -currents。在我们的理论贡献中,我们证明参数化电流和参考电流之间的平衡度量在参数中是Lipschitzcontinuous。在实验中,我们证明了建议的shift $ k> 0 $导致可解释和解开的潜在表示与指定的定向切平面等效。
translated by 谷歌翻译
在从个人智能手机到边境安全的不同领域中,可靠地确定个人身份的需求至关重要;从自动驾驶汽车到电子投票;从追踪儿童便利到预防人口贩运;从犯罪现场调查到客户服务个性化。生物识别技术需要使用诸如面部,指纹和语音之类的生物属性来识别人,这种生物识别技术正在越来越多地用于几种此类应用中。虽然生物识别技术在过去十年中取得了快速发展,但仍有一些基本问题尚未得到令人满意的解决。在本文中,我们将讨论其中的一些问题,并列举该领域的一些激动人心的挑战。
translated by 谷歌翻译
引入内在奖励来模拟人类智能如何运作,这通常通过内在动机的游戏来评估,即没有外在奖励的游戏,但是用外在奖励进行评估。然而,在这种非常具有挑战性的内在动机游戏环境下,现有的内在奖励方法都不能达到人类水平的表现。在这项工作中,我们提出了一种新颖的狂妄自大驱动的内在奖励(大奖励),据我们所知,这是第一种在内在动机游戏中实现可比较的人类表现的方法。超级奖励的出发来自于婴儿的智力在他们试图获得对环境中的实体的更多控制时的发展;因此,超级奖励旨在最大化特定环境中代理人的实体控制能力。为了形成大型奖励,提出了一种关系转换模型来弥合直接控制和潜在控制之间的差距。实验研究表明,超级奖励可以(i)大大超越最先进的内在奖励方法,(ii)通常达到与Ex-PPO和专业人类级别得分相同的表现水平; (iii)在与外在进展相结合时也具有优越的表现。
translated by 谷歌翻译
我们提出了一种快速设计方法,将自动超参数训练与半监督训练相结合,为语音命令分类建立高度准确和稳健的模型。提出的方法允许快速评估网络架构,以适应可用硬件的性能和功率限制,同时确保在现实世界场景中为每个网络选择良好的超参数。利用基于astudent / teacher的半监督方法利用大量未标记数据,验证集中的分类准确率从84%提高到94%。对于模型优化,我们通过基于人口的训练探索超参数空间,并在训练单个模型的同一时间框架内获得优化模型。
translated by 谷歌翻译
在自然界中,在许多物种中观察到植绒或群体行为,因为它具有有益的特性,例如降低被捕食者捕获的可能性。在本文中,我们提出了SELFish(Swarm Emergent Learning Fish),一种具有多个自主代理的方法,可以在连续空间中自由移动,目的是避免被现有的捕食者捕获。 Thepredator具有可能被附近的多个可能的注意力分散注意力的特性。我们表明,这个属性与自我感兴趣的代理人进行交互,这些代理人通过强化学习进行训练,以便尽可能长时间地进行,这会导致类似于Boids的植绒行为,对于植绒行为进行共同模拟。此外,我们提出了有关群集行为的有趣见解以及代理人在模拟环境中被捕获的过程。
translated by 谷歌翻译
我们提出了一种在一组扬声器之间转换声音的方法。我们的方法基于训练多个自动编码器路径,其中有一个独立于扬声器的编码器和多个与扬声器相关的解码器。对自动编码器进行训练,增加了由辅助分类器提供的对抗性损失,以便引导编码器的输出独立于说话者。模型的训练是无人监督的,因为它不需要从扬声器收集相同的话语,也不需要时间对齐音素。由于使用单个编码器,我们的方法可以概括为将训练外的扬声器的声音转换为训练数据集中的扬声器。我们提出主观测试证实我们的方法的性能。
translated by 谷歌翻译
用于单视图对象重建的卷积网络已经表现出令人印象深刻的性能并且已经成为研究的热门主题。 Allexisting技术结合了一个编码器 - 解码器网络的概念,该网络执行关于输出空间的3D结构的非平凡推理。在这项工作中,我们分别建立了两种执行图像分类和检索的替代方法。这些简单的基线在质量和数量上都比最先进的方法产生更好的结果。我们表明编码器 - 解码器方法在统计上与这些基线无法区分,因此表明当前的现有状态的单视图对象重建实际上并不存在。执行重建butimage分类。我们确定了引发这种行为的流行实验程序的各个方面,并讨论了改善当前研究状态的方法。
translated by 谷歌翻译