知识图嵌入旨在学习分布式表示的实体和关系,并被证明在许多应用中都是有效的。交叉交互---实体和关系之间的双向效应---在预测新的三元组时帮助选择相关信息,但是没有之前已经正式讨论过。在本文中,我们提出CrossE,anovel知识图嵌入,它明确地模拟交叉交互。它不仅像以前的大多数方法那样为每个实体和相关学习一个通用嵌入,而且还为它们两者生成多个三重特定的嵌入,称为交互嵌入。我们评估了典型链接预测任务的嵌入,并发现CrossE在复杂且更具挑战性的数据集上实现了最先进的结果。此外,我们从一个新的角度评估嵌入 - 给出预测的三元组的解释,这对于实际应用是重要的。在这项工作中,三元组的一个解释被认为是头部和尾部实体之间可靠的闭合路径。与其他基线相比,我们通过实验证明,受益于交互嵌入的CrossE更能够生成可靠的解释来支持其预测。
translated by 谷歌翻译
Keskar等人在经验上证实了\ cite {SharpMinima},flatterminima概括得更好。然而,对于流行的ReLU网络,锐利的最小化也可以很好地概括{引用{SharpMinimacan}。结论表明,现有的平坦度定义未能解释ReLU神经网络的复杂几何,因为它们无法覆盖ReLU网络的PositivelyScale-Invariant(PSI)属性。在本文中,我们正式确定了PSI引起平面度现有定义的问题,并提出了平面度的新描述 - \ emph {PSI-flatness}。 PSI平坦度定义在基础路径的值上,而不是权重{GSGD}。基础路径的值已经显示为PSI变量,并且可以充分代表确保PSI平坦度的PSI属性的ReLUneural网络。然后,我们在理论上从理论上研究了PSI平坦性与泛化之间的关系。首先,我们基于PSI-平坦度制定了一个泛化界,其中泛化误差随着最大基础路径值和最小基础路径值之间的比率而减小。也就是说,基线路径的平衡值的最小值更可能更平坦并且更好地概括。最后。我们在两个学习模型中可视化PSI-损失平坦度,这表明PSI平坦度较小的最小值确实可以更好地推广。
translated by 谷歌翻译
我们通过允许在用户频率上进行非均匀分布来概括强盗在线聚类的设置。提出了一种更有效的算法,其具有简单的集合结构来表示集群。我们证明了对新算法的遗憾,该算法没有用户的最小频率。合成和真实数据集上的实验一致地显示了新算法优于现有方法的优势。
translated by 谷歌翻译
离线手写数学表达式识别是一项具有挑战性的任务,因为手写数学表达式在识别过程中主要存在两个问题。一方面,它是如何正确识别不同的数学符号。另一方面,它是如何正确识别数学表达式中存在的二维结构。最近的深度学习工作启发了一种新的神经网络模型,它将多尺度卷积神经网络(CNN)与注意力恢复神经网络相结合(提出RNN)将二维手写数学表达式识别为一维LaTeX序列。结果表明,目前工作中提出的模型的WER误差为25.715%,ExpRate为28.216%。
translated by 谷歌翻译
We propose the first contextual bandit algorithm that is parameter-free, efficient, and optimal in terms of dynamic regret. Specifically, our algorithm achieves dynamic regret O(min{ √ ST , ∆ 1 3 T 2 3 }) for a contextual bandit problem with T rounds, S switches and ∆ total variation in data distributions. Importantly, our algorithm is adaptive and does not need to know S or ∆ ahead of time, and can be implemented efficiently assuming access to an ERM oracle. Our results strictly improve the O(min{S 1 4 T 3 4 , ∆ 1 5 T 4 5 }) bound of (Luo et al., 2018), and greatly generalize and improve the O(√ ST) result of (Auer et al., 2018) that holds only for the two-armed bandit problem without contextual information. The key novelty of our algorithm is to introduce replay phases, in which the algorithm acts according to its previous decisions for a certain amount of time in order to detect non-stationarity while maintaining a good balance between exploration and exploitation.
translated by 谷歌翻译
面部属性很重要,因为它们提供了详细的描述并确定了人脸的视觉外观。在本文中,我们的目标是将面部图像转换为草图,同时生成面部属性。为此,我们提出了一种新颖的属性引导草图生成对抗网络(ASGAN),它是一个端到端的框架,包含两个生成器和鉴别器,其中一个用于生成具有属性的面,而另一个用于影像到sketchtranslation。这两个发电机组成一个W形网络(W-net),它们与权重共享约束共同训练。此外,我们还提出了两个新的鉴别器,其中一个侧重于属性生成,三个一个帮助生成逼真的草图。为了验证我们的模型,我们创建了一个包含8,804个图像的新的大型数据集,名为“属性面部照片和草图”(AFPS)数据集,这是第一个与面部草图图像关联的数据集。实验结果表明,所提出的网络(i)产生了比基线具有更清晰的面部属性的更逼真的面部,以及(ii)在不同的生成任务上具有良好的泛化能力。
translated by 谷歌翻译
尽管深度强化学习最近取得了巨大成功,但实时战略(RTS)游戏仍然存在挑战。由于其最大的动作空间以及隐藏的信息,RTS游戏需要宏观策略以及微观级别操作以获得令人满意的性能。在本文中,我们提出了一种新的分层增强学习模型,用于掌握多人在线战斗竞技场(MOBA)游戏,RTS游戏的子类型。在这种等级框架中,代理人通过模仿学习制造宏观策略,并通过执行学习进行微观操作。此外,我们提出了一种简单的自学习方法,可以在没有游戏引擎或API的情况下,通过多目标检测方法获得更好的加固部分样本效率并提取一些全局特征。在1v1模式中,我们的代理成功学会打击和击败内置在AI%100%赢率中,实验表明我们的方法可以为5v5模式下的一种移动MOBA游戏King of Glory(KOG)创建竞争性多智能体。
translated by 谷歌翻译
在本文中,我们解决了在场景文本识别中具有不同字符的字符的问题。我们提出了一种新颖的尺度感知特征编码器(SAFE),专门用于编码具有不同尺度的字符。 SAFE由多尺度卷积编码器和ascale注意网络组成。多尺度卷积编码器针对多尺度下的文本特征,尺度注意网络负责从最相关的尺度中选择特征.SAFE与传统的单CNN编码器相比具有两个主要优点:最先进的文本识别器。首先,它通过从角色中提取尺度不变的特征来明确解决尺度问题。这使得识别器可以更加努力地处理场景文本识别中的其他挑战,例如由视图失真和图像质量差引起的挑战。其次,它可以在不同的特征尺度上传递特征编码的学习。当训练集具有非常不均衡的角色尺度分布时,这尤其重要,因为使用这种adataset的训练将使编码器偏向于从主要尺度中提取特征。为了评估SAFE的有效性,我们设计了一个名为尺度空间关注网络(S-SAN)的简单文本识别器,它采用SAFE作为其特征编码器,并在六个公共基准上进行实验。实验结果表明S-SAN可以实现状态 - 在没有任何后处理的情况下,最先进(或在某些情况下,极具竞争力)的表现。
translated by 谷歌翻译
在最近的计算机视觉和机器人应用的推动下,恢复3D人体姿势变得越来越重要并且引起了越来越多的兴趣。事实上,由于单目镜像内部的外观,视点,遮挡和固有的几何模糊不同,完成这项任务非常具有挑战性。大多数现有方法专注于设计一些精细的先验/约束,以基于相应的2D人体姿势感知特征或2D姿势预测直接回归3D人体姿势。然而,由于用于训练的3D姿势数据不足以及2D空间和3D空间之间的域间隙,这些方法对于所有实际场景(例如,室外场景)具有有限的可伸缩性。为了解决这个问题,本文提出了一种简单而有效的自我监督校正机制,从丰富的图像中学习人体姿势的内在结构。具体而言,所提出的机制涉及两个双重学习任务,即2D到3D posetransformation和3D到2D姿势投影,作为3D和2D人体姿势之间的桥梁,在“自由”自我监督的类型中准确3D人体估计。 2D到3D姿势意味着通过在依赖于序列的时间上下文中将姿势表示从2D域变换到3D域来顺序地回归中间3D姿势,而3D到2D姿势投影通过维持几何来有助于细化中间3D姿势。 3D姿势的2D投影与估计的2D姿势之间的一致性。我们进一步应用我们的自我监督校正机制来开发3D人体姿势机,它共同集成了二维空间关系,预测的时间平滑性和三维几何知识。广泛的评估证明了我们的框架相对于所有比较竞争方法的卓越性能和效率。
translated by 谷歌翻译
最近,神经网络搜索(NAS)已经成功地识别出在大规模图像分类问题上超出人类设计的神经网络架构。在本文中,我们研究NAS用于语义图像分割,这是一个重要的计算机视觉任务,它为图像中的每个像素分配一个语义标签。现有的工作通常集中在搜索可重复的单元结构,同时手工设计控制空间分辨率变化的外部网络结构。这种选择简化了搜索空间,但是对于密集图像预测而言,这种选择变得越来越困难,因为它们需要更多的网络级架构变体。因此,我们建议除了单元级结构之外还搜索网络级结构,这构成了分层体系结构搜索空间。我们提供包含许多流行设计的网络级搜索空间,并开发一种允许有效的基于梯度的架构搜索的配置(在Cityscapes图像上为3 P100GPU天)。我们证明了所提出的方法在具有挑战性的Cityscapes,PASCAL VOC 2012和ADE20Kdatasets上的有效性。在没有任何ImageNet预训练的情况下,我们的架构专门针对语义图像分割进行了搜索,从而获得了最先进的性能。
translated by 谷歌翻译