当个人指出或谈论其他人的话语时,语言永久不平等的能力最为明显。尽管当前对NLP中偏见的研究主要依赖于对特定群体的仇恨言论或偏见,但我们认为我们可以通过建模说话者,文本和目标来对偏见与语言使用之间的相互作用的相互作用更加微妙和细微的理解在文字中。在本文中,我们介绍了一个由美国国会议员注释的3033个英语推文的数据集,并介绍了人际情绪的注释,并对人际关系成员标签进行了“找到监督”。我们发现,诸如愤怒和厌恶之类的负面情绪主要用于群体外部情况,主要针对对方领导人。虽然人类可以表现出色,而不是鉴定人际群体成员资格的机会,但神经模型的表现要好得多。此外,人际关系成员资格和人际关系情感之间的共同编码使后者有一些表现的提高。这项工作旨在将NLP中偏见的研究从特定的偏见中重新调整为封装说话者,文本,目标和社会动态之间关系的偏见。本文的数据和代码可从https://github.com/venkatasg/interpersonal-dynamics获得
translated by 谷歌翻译
How to learn an effective reinforcement learning-based model for control tasks from high-level visual observations is a practical and challenging problem. A key to solving this problem is to learn low-dimensional state representations from observations, from which an effective policy can be learned. In order to boost the learning of state encoding, recent works are focused on capturing behavioral similarities between state representations or applying data augmentation on visual observations. In this paper, we propose a novel meta-learner-based framework for representation learning regarding behavioral similarities for reinforcement learning. Specifically, our framework encodes the high-dimensional observations into two decomposed embeddings regarding reward and dynamics in a Markov Decision Process (MDP). A pair of meta-learners are developed, one of which quantifies the reward similarity and the other quantifies dynamics similarity over the correspondingly decomposed embeddings. The meta-learners are self-learned to update the state embeddings by approximating two disjoint terms in on-policy bisimulation metric. To incorporate the reward and dynamics terms, we further develop a strategy to adaptively balance their impacts based on different tasks or environments. We empirically demonstrate that our proposed framework outperforms state-of-the-art baselines on several benchmarks, including conventional DM Control Suite, Distracting DM Control Suite and a self-driving task CARLA.
translated by 谷歌翻译
为了解决培训和测试数据之间的分布变化,域的概括(DG)利用多个源域来学习一个概括地看不见域的模型。但是,现有的DG方法通常遭受过度适应源域的影响,部分原因是特征空间中预期区域的覆盖率有限。在此激励的情况下,我们建议与数据插值和外推进行混合,以涵盖潜在的看不见区域。为了防止不受约束的外推的有害影响,我们仔细设计了一种策略来生成实例权重,名为Flatents-Awarnement-Awarnement-Awarnement-Awarness-Angients-Awments-Altents-Altents-Alignness-Actient-Actient-Actient-Actient-Actient-Actient-natments-Actient-Actient-Actient-natments-naterment-Actient-naterment-naterments-awite渐变的混音(FGMIX)。该政策采用基于梯度的相似性,将更大的权重分配给携带更多不变信息的实例,并了解相似性的功能,以提高最小值以更好地概括。在域基准测试中,我们验证了FGMIX各种设计的功效,并证明了其优于其他DG算法。
translated by 谷歌翻译
安全可靠的自主驾驶堆栈(AD)的设计是我们时代最具挑战性的任务之一。预计这些广告将在具有完全自主权的高度动态环境中驱动,并且比人类更大的可靠性。从这个意义上讲,要高效,安全地浏览任意复杂的流量情景,广告必须具有预测周围参与者的未来轨迹的能力。当前的最新模型通常基于复发,图形和卷积网络,在车辆预测的背景下取得了明显的结果。在本文中,我们探讨了在生成模型进行运动预测中注意力的影响,考虑到物理和社会环境以计算最合理的轨迹。我们首先使用LSTM网络对过去的轨迹进行编码,该网络是计算社会背景的多头自我发言模块的输入。另一方面,我们制定了一个加权插值来计算最后一个观测框中的速度和方向,以便计算可接受的目标点,从HDMAP信息的可驱动的HDMAP信息中提取,这代表了我们的物理环境。最后,我们的发电机的输入是从多元正态分布采样的白噪声矢量,而社会和物理环境则是其条件,以预测可行的轨迹。我们使用Argoverse运动预测基准1.1验证我们的方法,从而实现竞争性的单峰结果。
translated by 谷歌翻译
在这项工作中,我们以一种充满挑战的自我监督方法研究无监督的领域适应性(UDA)。困难之一是如何在没有目标标签的情况下学习任务歧视。与以前的文献直接使跨域分布或利用反向梯度保持一致,我们建议域混淆对比度学习(DCCL),以通过域难题桥接源和目标域,并在适应后保留歧视性表示。从技术上讲,DCCL搜索了最大的挑战方向,而精美的工艺领域将增强型混淆为正对,然后对比鼓励该模型向其他领域提取陈述,从而学习更稳定和有效的域名。我们还研究对比度学习在执行其他数据增强时是否必然有助于UDA。广泛的实验表明,DCCL明显优于基准。
translated by 谷歌翻译
收集足够标记的数据以建立人类活动识别(HAR)模型是昂贵且耗时的。对现有数据的培训通常会使模型偏向于培训数据的分布,因此该模型可能会在具有不同分布的测试数据上执行。尽管现有的转移学习和域适应性的努力试图解决上述问题,但他们仍然需要访问目标域上的未标记数据,这在实际情况下可能是不可能的。很少有作品注意训练一个模型,该模型可以很好地概括为HAR看不见的目标域。在本文中,我们提出了一种新的方法,称为可推广跨域HAR的语义歧视混合(SDMIX)。首先,我们介绍了语义感知的混音,该混音考虑了活动语义范围,以克服域差异带来的语义不一致。其次,我们引入了较大的利润损失,以增强混合歧视,以防止虚拟标签带来的错误分类。在五个公共数据集上进行的综合概括实验表明,我们的SDMIX基本上优于最先进的方法,其平均准确度提高了跨人员,交叉数据库和交叉位置HAR的平均准确性6%。
translated by 谷歌翻译