时间基础旨在找到目标视频时刻,该目标瞬间与未修剪视频中给定的句子查询相对应。但是,最近的作品发现现有方法遇到了严重的时间偏见问题。这些方法并不是根据训练集中查询的时间偏见过度依赖基于视觉文本语义对齐的目标矩位置。为此,本文提出了一个新颖的培训框架,用于接地模型,以使用洗牌视频解决时间偏见问题而不会失去接地精度。我们的框架介绍了两个辅助任务,即跨模式匹配和时间订单歧视,以促进接地模型训练。跨模式匹配任务利用了洗牌和原始视频之间的内容一致性迫使接地模型以挖掘视觉内容以匹配语义的查询。时间秩序歧视任务利用时间顺序的差异来加强对长期时间环境的理解。关于Charades-STA和活动网字幕的广泛实验证明了我们方法可以减轻对时间偏差的依赖并增强模型对不同时间分布的概括能力的有效性。代码可从https://github.com/haojc/shufflingvideosfortsg获得。
translated by 谷歌翻译
视觉变压器(VIT)最近在一系列计算机视觉任务中占据了主导地位,但训练数据效率低下,局部语义表示能力较低,而没有适当的电感偏差。卷积神经网络(CNNS)固有地捕获了区域感知语义,激发了研究人员将CNN引入VIT的架构中,以为VIT提供理想的诱导偏见。但是,嵌入在VIT中的微型CNN实现的位置是否足够好?在本文中,我们通过深入探讨混合CNNS/VIT的宏观结构如何增强层次VIT的性能。特别是,我们研究了令牌嵌入层,别名卷积嵌入(CE)的作用,并系统地揭示了CE如何在VIT中注入理想的感应偏置。此外,我们将最佳CE配置应用于最近发布的4个最先进的Vits,从而有效地增强了相应的性能。最后,释放了一个有效的混合CNN/VIT家族,称为CETNET,可以用作通用的视觉骨架。具体而言,CETNET在Imagenet-1K上获得了84.9%的TOP-1准确性(从头开始训练),可可基准上的48.6%的盒子地图和ADE20K上的51.6%MIOU,从而显着提高了相应的最新态度的性能。艺术基线。
translated by 谷歌翻译
生成的开放域对话系统可以从外部知识中受益,但是缺乏外部知识资源和寻找相关知识的困难限制了该技术的发展。为此,我们使用动态服务信息提出了一个知识驱动的对话任务。具体而言,我们使用大量的服务API,可以作为外部知识来源提供高覆盖范围和时空敏感性。对话系统生成查询以请求外部服务以及用户信息,获取相关知识,并基于此知识生成响应。为了实现此方法,我们收集并发布了第一个开放式域中国服务知识对话数据集Dusinc。同时,我们构建了一个基线模型柏拉图 - 线,该模型实现了对话的自动利用。自动评估和人类评估都表明,我们提出的新方法可以显着改善开放域对话的效果,并且与对话预培训模型Plato-2相比,人类评估中的会话级总数提高了59.29%。数据集和基准模型将被开源。
translated by 谷歌翻译
进化游戏理论一直是将经典游戏理论与多动力系统中的学习动力描述相结合的成功工具。前提是一些相互作用玩家的对称结构,许多研究一直集中在使用简化的启发式收益表作为分析相互作用动态的输入。然而,即使对于最先进的方法,也有两个限制。首先,分析简化的收益表时存在不准确性。其次,没有现有的工作能够处理2种人口多人游戏不对称游戏。在本文中,我们填补了启发式收益表和动态分析之间的空白,而无需任何不准确。此外,我们为$ m $ $ n $ n $ 2人群的多人游戏提出了一个通用框架。然后,我们将方法与一些经典游戏中的最新方法进行了比较。最后,为了说明我们的方法,我们对Wolfpack和Starcraft II进行了经验游戏理论分析,这两者都涉及复杂的多基因相互作用。
translated by 谷歌翻译
我们介绍了双图:一种简单但有效的训练策略,以提高神经机器翻译(NMT)性能。它由两个程序组成:双向预处理和单向填充。这两个过程均使用SIMCUT,这是一种简单的正则化方法,迫使原始句子对的输出分布之间的一致性。在不利用额外的数据集通过反翻译或集成大规模预认证的模型的情况下,BI-Simcut可以在五个翻译基准(数据尺寸从160K到20.20万)中实现强大的翻译性能:EN-的BLEU得分为31.16,EN-> DE和38.37的BLEU得分为38.37 de-> en在IWSLT14数据集上,en-> de的30.78和35.15在WMT14数据集上进行DE-> en,而WMT17数据集中的ZH-> EN为27.17。 Simcut不是一种新方法,而是简化和适用于NMT的cutoff(Shen等,2020)的版本,可以将其视为基于扰动的方法。鉴于Simcut和Bi-Simcut的普遍性和简单性,我们认为它们可以作为未来NMT研究的强大基准。
translated by 谷歌翻译
预训练的模型(PTM)已成为自然语言处理和计算机视觉下游任务的基本骨干。尽管通过在BAIDU地图上将通用PTM应用于与地理相关的任务中获得的最初收益,但随着时间的流逝,表现平稳。造成该平稳的主要原因之一是缺乏通用PTM中的可用地理知识。为了解决这个问题,在本文中,我们介绍了Ernie-Geol,这是一个地理和语言预培训模型,设计和开发了用于改善Baidu Maps的地理相关任务。 Ernie-Geol经过精心设计,旨在通过预先培训从包含丰富地理知识的异质图生成的大规模数据来学习地理语言的普遍表示。大规模现实数据集进行的广泛定量和定性实验证明了Ernie-Geol的优势和有效性。自2021年4月以来,Ernie-Geol已经在百度地图上部署在生产中,这显着受益于各种下游任务的性能。这表明Ernie-Geol可以作为各种与地理有关的任务的基本骨干。
translated by 谷歌翻译
ELO评级系统被广泛采用来评估(国际象棋)游戏和体育运动者的技能。最近,它还集成到了评估计算机化AI代理的性能时的机器学习算法中。然而,精确估计ELO评级(对于顶级球员)通常需要许多轮竞争,这可能是昂贵的。在本文中,为了提高ELO评估的样本效率(对于顶级球员),我们提出了一种有效的在线匹配调度算法。具体而言,我们通过Dueling Birits框架识别并匹配顶级播放器并将强盗算法定制到ELO的梯度更新。我们表明它减少了每一步记忆和时间复杂度来恒定,与需要$ O(t)$时间的传统似然最大化方法相比。我们的算法对$ \ tilde {o}(\ sqrt {t})$,Sublinear在竞争回合的数量中有遗憾的保证,并且已经扩展到多维ELO评级,用于处理风情游戏。我们经验证明我们的方法在各种游戏任务上实现了卓越的收敛速度和时间效率。
translated by 谷歌翻译
用于头部和颈鳞状细胞癌(HNSCC)的诊断和治疗管理由常规诊断头和颈部计算断层扫描(CT)扫描引导,以识别肿瘤和淋巴结特征。折叠延伸(ECE)是患者的患者生存结果与HNSCC的强烈预测因子。在改变患者的暂存和管理时,必须检测ECE的发生至关重要。目前临床ECE检测依赖于放射科学医生进行的视觉鉴定和病理确认。基于机器学习(ML)的ECE诊断在近年来的潜力上表现出很高的潜力。然而,在大多数基于ML的ECE诊断研究中,手动注释是淋巴结区域的必要数据预处理步骤。此外,本手册注释过程是耗时,劳动密集型和容易出错。因此,在本文中,我们提出了一种梯度映射引导的可解释网络(GMGenet)框架,以自动执行ECE识别而不需要注释的淋巴结区域信息。提出了梯度加权类激活映射(GRAC-CAM)技术,以指导深度学习算法专注于与ECE高度相关的区域。提取信息丰富的兴趣(VoIS),无需标记淋巴结区域信息。在评估中,所提出的方法是使用交叉验证的训练和测试,可分别实现测试精度和90.2%和91.1%的AUC。已经分析了ECE的存在或不存在并与黄金标准组织病理学发现相关。
translated by 谷歌翻译
在该研究中,提出了一种具有贝叶斯优化(ADSNN-BO)的关注深度可分离的神经网络,以检测和分类稻米图像的水稻疾病。水稻疾病经常导致20至40%的公司生产损失的产量,与全球经济有关。快速疾病鉴定对于计划及时计划治疗并减​​少CORP损失至关重要。水稻疾病诊断仍然主要是手动进行的。为实现AI辅助快速准确的疾病检测,我们提出了基于MobileNet结构的Adsnn-Bo模型和增强注意机制。此外,贝叶斯优化方法应用于调整模型的超级参数。交叉验证的分类实验是基于公共米病数据集进行的,总共有四个类别。实验结果表明,我们的移动兼容ADSNN-BO模型实现了94.65 \%的测试精度,这占据了所有最先进的模型。为了检查我们所提出的模型的可解释性,还进行了包括激活图和过滤器可视化方法的特征分析。结果表明,我们提出的基于关注机制可以更有效地引导Adsnn-Bo模型学习信息性功能。本研究的结果将促进农业领域快速植物疾病诊断和控制的人工智能。
translated by 谷歌翻译
近年来,基于梯度的Meta-RL(GMRL)方法在发现一个单一任务的有效在线超参数中取得了显着的成功(XU等,2018)或学习多任务转移学习的良好初始化(Finn等人。 ,2017)。尽管有经验的成功,但经常被忽视,通过香草背交计算元梯度是不明定义的。在本文中,我们认为许多现有的MGRL方法采用的随机元梯度估计实际上是偏见的;偏差来自两个来源:1)在组成优化问题的结构中自然的成分偏差和2)由直接自动分化引起的多步粗糙估计的偏差。为了更好地了解元梯度偏差,我们首先执行其研究,以量化每个研究。我们首先为现有的GMRL算法提供统一的推导,然后理论上分析偏差和现有梯度估计方法的方差。了解偏见的基本原则,我们提出了两种缓解解决方案,基于脱离政策校正和多步理估计技术。已经进行了综合烧蚀研究,结果显示:(1)当与不同估计器/示例大小/步骤和学习率相结合时,它们的存在以及它们如何影响元梯度估计。 (2)这些缓解方法对Meta梯度估计的有效性,从而最终回报率两种实用的Meta-RL算法:Lola-Dice和Meta-梯度加固学习。
translated by 谷歌翻译