多人姿势估计是计算机视觉的基本但具有挑战性的任务。需要丰富的上下文信息和空间信息以精确地定位图像中所有人的关键点。本文提出了一种新颖的上下文空间感知网络(CSANet),它集成了上下文感知路径和空间感知路径,以获取涉及上下文信息和空间信息的有效特征。具体来说,我们设计了一个具有结构的上下文感知路径。监督策略和空间金字塔汇集策略,以增强背景信息。同时,提出了一种空间感知路径来保存空间信息,同时缩短了从低级特征到高级特征的信息传播路径。在这两条路径的基础上,我们采用重头路径进一步有效地进一步组合和增强功能。实验上,我们提出的网络在COCO关键点基准测试中优于最先进的方法,验证了我们的方法的有效性,并进一步证实了以上命题。
translated by 谷歌翻译
随着交通数据的可用性的增加和深度增强学习技术的进步,出现了一种采用增强学习(RL)进行交通信号控制的新趋势。 RL对交通信号控制的一个关键问题是如何定义奖励和状态。交通信号控制的最终目标是最大限度地减少难以直接到达的旅行时间。因此,现有研究通常将奖励定义为几种交通措施的临时加权线性组合。但是,无法保证旅行时间将通过奖励进行优化。另外,最近的RL方法使用更复杂的状态(例如,图像)以描述完整的交通情况。然而,现有的研究都没有讨论过这种复杂的状态表示是否必要。这种额外的复杂性可能导致学习过程显着减慢,但可能不一定会带来显着的性能提升。在本文中,我们建议通过经典运输理论的镜头重新审视RL方法。我们提出以下问题:(1)我们应该如何设计奖励,以便保证最大限度地缩短旅行时间? (2)如何设计一个简洁但足以获得最优解的状态表示?我们提出的方法LIT在运输领域的经典交通信号控制方法理论上得到了支持。 LIT具有简单的状态和奖励设计,因此可以作为未来RL交通信号控制方法的构建模块。对合成和真实数据集的广泛实验表明,我们的方法明显优于最先进的交通信号控制方法。
translated by 谷歌翻译
我们研究了最佳地分配大量机器人(或其他类型的自主代理)以保护封闭的2D区域的周界的问题,其中每个要保护的区域的周边可以包含多个多边形的多边形链。每个机器人负责保护aperimeter的子集,并且周边的任何点必须由一些机器人保护。在分配机器人时,主要目标是最小化沿着区域边界的任何机器人所覆盖的最大1D距离。对于我们称之为最佳周界防护(OPG)的这种优化问题,执行彻底的结构分析,然后利用该分析来开发在保证的低多项式时间内运行的快速精确算法。除了形态分析和证明之外,还进行了实验评估和模拟,以进一步验证算法结果的正确性和有效性。
translated by 谷歌翻译
遮挡和姿势变化可以显着改变面部外观,是自动面部表情识别(FER)的两个主要障碍。尽管自动FER在过去几十年中取得了实质性进展,但FER的阻塞 - 稳健和姿势不变问题已经得到相对较少的关注,尤其是在真实场景中。本文通过三重贡献解决了真实世界的姿势和遮挡强大的FER问题。首先,为了激发FER在现实世界的遮挡和变异姿势的研究,我们为社区建立了几个带有手动注释的野外面部表情数据集。其次,我们提出了一种新颖的区域注意网络(RAN),以自适应地捕捉面部区域的重要性以进行遮挡和姿势变异FER。 RAN将骨干卷积神经网络产生的不同数量的区域特征聚合并嵌入到紧凑的固定长度表示中。最后,受面部表情主要由面部单位定义这一事实的启发,我们提出了一个区域偏见的损失,以鼓励对最重要区域的高度重视。我们在构建的测试数据集和四个流行数据集上验证了我们的RAN和区域偏差损失:FERPlus,AffectNet,RAF-DB和SFEW。大量实验表明,我们的RAN和区域偏差在很大程度上改善了FER的闭塞和变形性能。我们的方法还在FERPlus,AffectNet,RAF-DB和SFEW上实现了最先进的结果。代码和收集的测试数据将公开提供。
translated by 谷歌翻译
多人姿势估计是计算机视觉中的一个重要但具有挑战性的问题。虽然目前的方法通过融合多尺度特征图而取得了显着进步,但是他们很少关注增强特征图的通道和空间信息。在本文中,我们提出了两个新颖的模块来执行多人姿态估计的信息增强。首先,提出了一种频道混洗模块(CSM),对不同层次的特征映射采用信道混洗操作,促进金字塔特征映射之间的跨信道信息通信。其次,空间,通道注意残留瓶颈(SCARB)旨在通过注意机制来增强原始残差单元,在空间和通道方面的上下文中自适应地突出特征图的信息。我们提出的模块的有效性在COCO关键点基准上进行了评估,实验结果表明我们的方法可以达到最先进的结果。
translated by 谷歌翻译
极端多标签分类(XMC)旨在将来自巨大标签集的标签的相关子集分配给实例。由于现代化应用导致大量标签集,XMC的可扩展性引起了学术界和工业界最近的关注。在本文中,我们建立了一个有效解决XMC的三阶段框架,包括1)索引标签,2)将实例与相关指标匹配,3)对相关指标的标签进行排序。该框架统一了许多现有的XMC方法。基于此框架,我们提出了模块化的深度学习方法SLINMER:语义标签索引,神经匹配和高效排名。 SLINMER的标签索引阶段可​​以采用不同的语义标签表示,导致SLINMER的不同配置。实际上,我们证明了SLINMER的几个单独配置比最先进的XMC方法在几个基准数据集上的优越性能。此外,通过集成这些配置,SLINMER可以实现更好的结果。特别是,在具有0.5百万个标签的Wiki数据集上,精度@ 1从61%增加到67%。
translated by 谷歌翻译
研究和实际应用的洪水将社交媒体数据用于广泛的公共应用,包括环境监测,水资源管理,灾难和应急响应。水文信息技术可以利用社交媒体技术,利用新出现的数据,技术和分析工具来处理大型数据集,本文首先提出了一个4W(What,Why,When,hoW)模型和方法结构,以更好地理解和表示社交媒体在水文信息学中的应用,然后提供应用社会的学术研究的概述。媒体到水文信息学,如水环境,水资源,洪水,干旱和水资源稀缺管理。最后,基于前面的讨论,水文信息管理人员和研究人员提出了数据收集,数据质量管理,虚假新闻检测,隐私问题,算法和平台等与水有关的社交媒体应用的一些高级主题和建议。
translated by 谷歌翻译
我们的最终目标是在文本理解中缩小人类和机器读者之间的差距,我们展示了从语言和专业认证考试中收集的第一批具有挑战性的中文机器阅读理解数据集(C ^ 3),其中包含13,924个文档和相关的23,990个多项选择题。 C ^ 3中的大多数问题不能仅通过与给定文本的表面形式匹配来回答。作为一项试点研究,我们仔细分析了这些真实世界阅读理解任务中所需的先前知识(即语言,领域特定和一般世界知识)。我们通过微调预先训练的语言模型,进一步探索如何利用语言学知识,包括常用习语词汇和谚语以及特定领域知识(如教科书)来帮助机器读者(Devlin et al。,2019)。我们的实验结果表明,语言知识可以帮助提高基线阅读器在一般和特定领域任务中的性能。 C ^ 3将在http://dataset.org/c3/上提供。
translated by 谷歌翻译
利用用户提供的翻译来约束NMT具有实用意义。现有方法可以分为两大类,即用于词典单词的占位符标签的使用和在解码期间使用硬约束。由于各种原因,这两种方法都会损害翻译保真度。我们研究了一种数据增强方法,通过用源目标翻译替换源短语来制作代码切换训练数据。我们的方法不改变MNT模型或解码算法,允许模型通过复制源侧目标字来学习词典翻译。大量实验表明,我们的方法实现了对现有方法的一致性改进,改善了约束词的翻译,而不会伤害不受约束的词。
translated by 谷歌翻译
为了诊断黑素瘤,苏木精和曙红(H&E)染色的组织切片仍然是金标准。这些图像包含无关放大的定量信息。在本研究中,我们研究了深层卷积神经网络是否能够以修补的方式直接从这些大尺寸图像中提取互补文本的结构特征。为了应对组织病理学滑体形态多样性带来的挑战,我们建立了一个多中心数据库,包括来自2008年至2018年的132名患者的2241个数字全幻灯片图像。我们通过转移学习和测试性能,使用超过995万个补丁训练ResNet50和Vgg19两种关键分类:恶性黑色素瘤与良性痣不相关和混合放大;并在最大放大率中区分痣。 CNN在两个任务中都实现了卓越的性能,证明了能够根据病理学图像分析皮肤癌的AI。为了使分类合理,CNN表示的可视化还用于识别黑素瘤和痣之间的细胞。感兴趣的区域(ROI)也位于显着有用的位置,为病理学家提供了更多正确诊断的支持。
translated by 谷歌翻译