Vision-Language(V + L)预先润廓模型通过了解图像和文本之间的对齐来支持多媒体应用程序取得了巨大成功。虽然现有的视觉预押模型主要专注于了解文本中的图像或实体中的对象,但它们通常会忽略事件级别的对齐及其参数结构。 %在这项工作中,我们提出了一种对比的学习框架来强制执行愿景 - 语言预押模型来理解事件和相关参数(参与者)角色。为此,我们利用文本信息提取技术来获得事件结构知识,并利用多个提示函数来通过操纵事件结构来对比难度的负面描述。我们还基于最佳传输来设计事件图对齐损耗以捕获事件参数结构。此外,我们收集了一个大型活动的数据集(106,875张图片),用于预磨平,这提供了更具挑战性的图像检索基准,以评估对复杂冗长的句子的理解。实验表明,我们的零射剪辑事件优于在多媒体事件提取中的参数提取中的最先进的监督模型,从而实现了事件提取中的5±绝对f得分增益,以及显着改进零拍摄设置下的各种下游任务。
translated by 谷歌翻译
在加强学习的背景下,我们介绍了一个国家的关键性的概念,这表明在该特定状态下采取行动的选择程度影响预期的回报。也就是说,采取行动的选择更容易影响最终结果的状态被认为比它不太可能影响最终结果的国家更为重要。我们制定了基于临界的不同步骤编号算法(CVS) - 一种灵活的步骤编号算法,其利用人类提供的临界功能,或直接从环境中学到。我们在包括Atari Pong环境,道路树环境和射击环境的三个不同领域中测试它。我们展示了CVS能够优于流行的学习算法,如深Q-Learning和Monte Carlo。
translated by 谷歌翻译
通常承认,巨额(培训)数据的可用性是人工智能(AI)最近进步的最重要因素之一。但是,数据集通常用于狭窄的AI子区域中的特定任务,并且没有统一的方式来管理和访问它们。这不仅在培训或部署机器学习模型时创造了不必要的开销,但也限制了对数据的理解,这对于以数据为中心的AI非常重要。在本文中,我们向不同数据集的统一框架展示了我们的愿景,以便可以轻松地集成和查询,例如,使用标准查询语言。我们在持续的工作中展示了这一点,为计算机愿景中的数据集创建了一个框架,并在不同的场景中显示了它的优势。我们的演示可在https://vision.semkg.org中获得。
translated by 谷歌翻译
未经监督的域适应(UDA)在两个明显不同的域之间学习高级语义对齐是一个至关重要的又具有挑战性的任务。〜在此目的,在这项工作中,我们建议利用低级边缘信息来促进适应作为前体任务具有小的跨域间隙,与语义分割相比具有小的跨域间隙。〜精确的轮廓然后提供用于引导语义适应的空间信息。更具体地,我们提出了一种多任务框架来学习轮廓调整网络以及语义分割适应网络,其将磁共振成像(MRI)切片及其初始边缘图作为输入。〜这两个网络是共同训练的源域标签,以及特征和边缘地图级对冲学习进行跨域对齐。此外,还包含自熵最小化,以进一步提高分割性能。我们在Brats2018数据库中评估了脑肿瘤的跨态分割的框架,呈现了与竞争方法相比我们方法的有效性和优越性。
translated by 谷歌翻译
由于稀疏神经网络通常包含许多零权重,因此可以在不降低网络性能的情况下潜在地消除这些不必要的网络连接。因此,设计良好的稀疏神经网络具有显着降低拖鞋和计算资源的潜力。在这项工作中,我们提出了一种新的自动修剪方法 - 稀疏连接学习(SCL)。具体地,重量被重新参数化为可培训权重变量和二进制掩模的元素方向乘法。因此,由二进制掩模完全描述网络连接,其由单位步进函数调制。理论上,从理论上证明了使用直通估计器(STE)进行网络修剪的基本原理。这一原则是STE的代理梯度应该是积极的,确保掩模变量在其最小值处收敛。在找到泄漏的Relu后,SoftPlus和Identity Stes可以满足这个原理,我们建议采用SCL的身份STE以进行离散面膜松弛。我们发现不同特征的面具梯度非常不平衡,因此,我们建议将每个特征的掩模梯度标准化以优化掩码变量训练。为了自动训练稀疏掩码,我们将网络连接总数作为我们的客观函数中的正则化术语。由于SCL不需要由网络层设计人员定义的修剪标准或超级参数,因此在更大的假设空间中探讨了网络,以实现最佳性能的优化稀疏连接。 SCL克服了现有自动修剪方法的局限性。实验结果表明,SCL可以自动学习并选择各种基线网络结构的重要网络连接。 SCL培训的深度学习模型以稀疏性,精度和减少脚波特的SOTA人类设计和自动修剪方法训练。
translated by 谷歌翻译
Characterizing the patterns of errors that a system makes helps researchers focus future development on increasing its accuracy and robustness. We propose a novel form of "meta learning" that automatically learns interpretable rules that characterize the types of errors that a system makes, and demonstrate these rules' ability to help understand and improve two NLP systems. Our approach works by collecting error cases on validation data, extracting meta-features describing these samples, and finally learning rules that characterize errors using these features. We apply our approach to VilBERT, for Visual Question Answering, and RoBERTa, for Common Sense Question Answering. Our system learns interpretable rules that provide insights into systemic errors these systems make on the given tasks. Using these insights, we are also able to "close the loop" and modestly improve performance of these systems.
translated by 谷歌翻译
强化学习和最近的深度增强学习是解决如Markov决策过程建模的顺序决策问题的流行方法。问题和选择算法和超参数的RL建模需要仔细考虑,因为不同的配置可能需要完全不同的性能。这些考虑因素主要是RL专家的任务;然而,RL在研究人员和系统设计师不是RL专家的其他领域中逐渐变得流行。此外,许多建模决策,例如定义状态和动作空间,批次的大小和批量更新的频率以及时间戳的数量通常是手动进行的。由于这些原因,RL框架的自动化不同组成部分具有重要意义,近年来它引起了很多关注。自动RL提供了一个框架,其中RL的不同组件包括MDP建模,算法选择和超参数优化是自动建模和定义的。在本文中,我们探讨了可以在自动化RL中使用的文献和目前的工作。此外,我们讨论了Autorl中的挑战,打开问题和研究方向。
translated by 谷歌翻译
这项工作检查了使用音节嵌入的可能性,而不是经常使用的$ n $ -gram embedings,作为子字嵌入。我们调查这两种语言:英语和荷兰语。为此,我们还翻译了两个标准的英语单词嵌入评估数据集,WordsIm353和Semeval-2017,达到荷兰语。此外,我们为研究界提供了两种语言的音节分解数据集。我们将我们的方法与Full Word和$ n $ -ghmm嵌入式进行比较。与完整的单词嵌入式相比,我们获得了英语模型,距离较小的20至30倍,同时保留80%的性能。对于荷兰语,型号为70%性能保留的15倍。虽然比我们使用的$ N $ -gram基线更准确,但我们的型号可以在几分钟内接受培训,而不是$ n $ -gram方法的小时。我们在未来的工作中确定了升级性能的道路。所有代码都被公开可用,以及我们收集的英语和荷兰音节分解和荷兰评估集转换。
translated by 谷歌翻译
在本文中,我们研究了一些现有的和新的最先进的生成的对抗网络(GAN)语音转换方法,用于增强暂存语音,以改善发育性语音识别。我们将现有方法的关键组成部分进行比较,作为严格的消融研究的一部分,以找到提高发狂语音识别的最有效的解决方案。我们发现,直接的信号处理方法,例如静止噪声消除和基于声码的时间拉伸导致达到疑声语音识别结果,其与使用最先进的GaN的语音转换方法使用的那些使用音素识别任务测量而获得的结果相当。此外,我们提出的蒙面克萨根-VC和时间拉伸增强的组合解决方案能够改善与我们的时间拉伸基线相比的某些发育扬声器的音素识别结果。
translated by 谷歌翻译
广泛研究和使用旅行推销员问题等图形问题,如旅行推销员问题,或发现最小的施泰纳树在数据工程和计算机科学中使用。通常,在现实世界应用中,图表的特征往往会随着时间的推移而变化,因此,找到问题的解决方案变得具有挑战性。许多图表问题的动态版本是运输,电信和社交网络中普遍世界问题的关键。近年来,利用深度学习技术来寻找NP-Hard图组合问题的启发式解决方案,因为这些学习的启发式可以有效地找到近最佳解决方案。但是,大多数现有的学习启发式方法都关注静态图问题。动态性质使NP-Hard图表问题更具挑战性,并且现有方法无法找到合理的解决方案。在本文中,我们提出了一种名为Cabl时间关注的新型建筑,并利用加固学习(GTA-RL)来学习基于图形的动态组合优化问题的启发式解决方案。 GTA-RL架构包括能够嵌入组合问题实例的时间特征的编码器和能够动态地关注嵌入功能的解码器,以找到给定组合问题实例的解决方案。然后,我们将架构扩展到学习HeuRistics的组合优化问题的实时版本,其中问题的所有输入特征是未知的,而是实时学习。我们针对几种最先进的基于学习的算法和最佳求解器的实验结果表明,我们的方法在动态和效率方面,在有效性和最佳求解器方面优于基于最先进的学习方法。实时图组合优化。
translated by 谷歌翻译