Interpreting the predictions of existing Question Answering (QA) models is critical to many real-world intelligent applications, such as QA systems for healthcare, education, and finance. However, existing QA models lack interpretability and provide no feedback or explanation for end-users to help them understand why a specific prediction is the answer to a question. In this research, we argue that the evidences of an answer is critical to enhancing the interpretability of QA models. Unlike previous research that simply extracts several sentence(s) in the context as evidence, we are the first to explicitly define the concept of evidence as the supporting facts in a context which are informative, concise, and readable. Besides, we provide effective strategies to quantitatively measure the informativeness, conciseness and readability of evidence. Furthermore, we propose Grow-and-Clip Evidence Distillation (GCED) algorithm to extract evidences from the contexts by trade-off informativeness, conciseness, and readability. We conduct extensive experiments on the SQuAD and TriviaQA datasets with several baseline models to evaluate the effect of GCED on interpreting answers to questions. Human evaluation are also carried out to check the quality of distilled evidences. Experimental results show that automatic distilled evidences have human-like informativeness, conciseness and readability, which can enhance the interpretability of the answers to questions.
translated by 谷歌翻译
视频字幕结合了视频理解和语言生成。与图像标题不同,描述具有几乎每个对象的细节的静态图像,视频字幕通常考虑一系列帧和偏置朝向聚焦对象的偏差,例如,保持焦点的对象,无论更改的背景如何。因此,检测和适当地容纳聚焦对象在视频字幕中是至关重要的。为了执行聚焦对象的描述并实现可控制的视频标题,我们提出了一种面向对象的非自动增加方法(O2NA),其执行三个步骤中的标题生成:1)识别聚焦对象并预测其在目标字幕中的位置; 2)生成相关的属性词和这些聚焦对象的关系词来形成标题草案; 3)将视频信息组合以将标题草案精炼到流利的最终标题。由于产生了聚焦的对象并领先于其他单词,因此难以应用逐字的自回归生成过程;相反,我们采用了非自动评级方法。在两个基准数据集,即MSR-VTT和MSVD上的实验证明了O2NA的有效性,这实现了与最先进的结果竞争,但具有更高的多样性和推理速度。
translated by 谷歌翻译
通过移除昂贵的乘法操作并将连续权重量化成低比特离散值来减少计算复杂性,与传统的神经网络相比,这是快速且节能的低比特离散值。然而,现有的换档网络对重量初始化敏感,并且还产生由消失梯度和重量率冻结问题引起的降级性能。为了解决这些问题,我们提出了一种低点重新参数化,这是一种用于训练低位换档网络的新技术。我们的方法以符号稀疏偏移3倍的方式分解离散参数。以这种方式,它有效地学习了一个低比特网络,其权重动力学类似于全精密网络并对重量初始化不敏感。我们所提出的培训方法推动移位神经网络的界限,并以在想象中的前1个精度方面显示出3位换档网络。
translated by 谷歌翻译
现有研究持续学习一系列任务,专注于处理灾难性遗忘,其中任务被认为是不同的,并且具有很少的共享知识。在任务相似并分享知识时,还有一些工作已经完成了将以前学到的新任务转移到新任务。据我们所知,没有提出任何技术来学习一系列混合类似和不同的任务,这些任务可以处理遗忘,并转发知识向前和向后转移。本文提出了这样的技术,用于在同一网络中学习两种类型的任务。对于不同的任务,该算法侧重于处理遗忘,并且对于类似的任务,该算法侧重于选择性地传送从一些类似先前任务中学到的知识来改善新的任务学习。此外,该算法自动检测新任务是否类似于任何先前的任务。使用混合任务序列进行实证评估,证明了所提出的模型的有效性。
translated by 谷歌翻译
近年来,最终用户的多个(边缘)设备中有大量分散数据,而由于法律或法规,分散数据的聚合对机器学习工作仍然困难。联合学习(FL)作为处理分散数据而不分享敏感原始数据的有效方法,同时协作培训全球机器学习模型。 FL中的服务器需要在培训过程中选择(和计划)设备。但是,具有FL的多个作业的设备的调度仍然是一个关键和打开的问题。在本文中,我们提出了一种新的多工作FL框架,以实现多个作业的并行培训过程。该框架包括系统模型和两个调度方法。在系统模型中,我们提出了多个作业的并行培训过程,并根据各种工作培训过程基于培训时间和各种设备的数据公平构建成本模型。我们提出了一种基于钢筋的基于学习的方法和基于贝叶斯优化的方法,以便为多个作业调度设备,同时最小化成本。我们通过多个工作和数据集进行广泛的实验。实验结果表明,我们提出的方法在培训时间(速度越快8.67倍)和准确性(高度高达44.6%)方面显着优于基线。
translated by 谷歌翻译
深度加强学习(DRL)在游戏和机器人控制等应用中彻底改变了学习和致动。数据收集的成本,即从代理环境互动产生转变,仍然是在复杂的现实问题中更广泛的DRL采用的重大挑战。在GPU云平台上培训DRL代理的云原生范例是一个有前途的解决方案。在本文中,我们为云天然深层加固学习提供了一种可扩展和弹性图书馆优雅的钢茶,其有效地支持数百万GPU核心,以便在多个层面进行大规模平行的训练。在一个高级别的优雅普罗拉科尔使用基于锦标赛的集合计划,以协调数百个甚至数千个GPU的培训过程,安排排行榜与培训池与数百个豆荚之间的相互作用。在低级,每个POD通过在单个GPU中充分利用近7,000个GPU CUDA核心,模拟了代理环境的交互。我们的优雅RL-Podracer Library通过遵循集装箱,微服务和MLOPS的开发原则,具有高可扩展性,弹性和可访问性。使用NVIDIA DGX SuperPod Cloud,我们对机器人和股票交易中的各种任务进行了广泛的实验,并表明Elegitrl-Podracer大大优于Rllib。我们的代码可在GitHub上获得。
translated by 谷歌翻译
最近,刘和张研究了从压缩传感的角度研究了时间序列预测的相当具有挑战性的问题。他们提出了一个没有学习的方法,名为卷积核规范最小化(CNNM),并证明了CNNM可以完全从其观察到的部分恢复一系列系列的部分,只要该系列是卷积的低级。虽然令人印象深刻,但是每当系列远离季节性时可能不满足卷积的低秩条件,并且实际上是脆弱的趋势和动态的存在。本文试图通过将学习,正常的转换集成到CNNM中,以便将一系列渐开线结构转换为卷积低等级的常规信号的目的。我们证明,由于系列的变换是卷积低级的转换,所以,所产生的模型是基于学习的基于学习的CNNM(LBCNM),严格成功地识别了一个系列的未来部分。为了学习可能符合所需成功条件的适当转换,我们设计了一种基于主成分追求(PCP)的可解释方法。配备了这种学习方法和一些精心设计的数据论证技巧,LBCNM不仅可以处理时间序列的主要组成部分(包括趋势,季节性和动态),还可以利用其他一些预测方法提供的预测;这意味着LBCNNM可以用作模型组合的一般工具。从时间序列数据库(TSDL)和M4竞争(M4)的100,452个现实世界时间序列的大量实验证明了LBCNNM的卓越性能。
translated by 谷歌翻译
未经监督的域适应(UDA)在两个明显不同的域之间学习高级语义对齐是一个至关重要的又具有挑战性的任务。〜在此目的,在这项工作中,我们建议利用低级边缘信息来促进适应作为前体任务具有小的跨域间隙,与语义分割相比具有小的跨域间隙。〜精确的轮廓然后提供用于引导语义适应的空间信息。更具体地,我们提出了一种多任务框架来学习轮廓调整网络以及语义分割适应网络,其将磁共振成像(MRI)切片及其初始边缘图作为输入。〜这两个网络是共同训练的源域标签,以及特征和边缘地图级对冲学习进行跨域对齐。此外,还包含自熵最小化,以进一步提高分割性能。我们在Brats2018数据库中评估了脑肿瘤的跨态分割的框架,呈现了与竞争方法相比我们方法的有效性和优越性。
translated by 谷歌翻译
基于细粒的草图的图像检索(FG-SBIR)解决了在给定查询草图中检索特定照片的问题。然而,它的广泛适用性受到大多数人为大多数人绘制完整草图的事实的限制,并且绘图过程经常需要时间。在这项研究中,我们的目标是用最少数量的笔划检索目标照片(不完整草图),命名为vs-the-fry fg-sbir(bhunia等人.2020),它一旦尽快开始检索每个行程绘图开始。我们认为每张照片的草图绘图集中的这些不完整草图之间存在显着相关性。为了了解照片和ITS不完整的草图之间共享的更高效的联合嵌入空间,我们提出了一个多粒度关联学习框架,进一步优化了所有不完整草图的嵌入空间。具体地,基于草图的完整性,我们可以将完整的草图插曲分为几个阶段,每个阶段对应于简单的线性映射层。此外,我们的框架指导了当前草图的矢量空间表示,以近似速写,以实现草图的检索性能,以利用更多的笔触来接近草图的草图。在实验中,我们提出了更现实的挑战,我们的方法在两个公开的细粒草图检索数据集上实现了最先进的方法和替代基线的卓越的早期检索效率。
translated by 谷歌翻译
预先培训用于学习可转让的视频文本表示的模型,以近年来引起了很多关注。以前的主导作品主要采用两个独立的编码器来有效检索,但忽略视频和文本之间的本地关联。另一种研究使用联合编码器与文本交互视频,但是由于每个文本视频对需要馈送到模型中的低效率。在这项工作中,我们能够通过新颖的借口任务进行微粒视频文本交互,以便通过新颖的借口任务进行检索,称为多项选择题(MCQ),其中参数模块BridgeFormer培训以接受由此构建的“问题”。文本功能通过诉诸视频功能。具体来说,我们利用了文本的丰富语义(即,名词和动词)来构建问题,可以培训视频编码器以捕获更多区域内容和时间动态。以问题和答案的形式,可以正确建立本地视频文本功能之间的语义关联。 BridgeFormer能够删除下游检索,只有两个编码器渲染高效且灵活的模型。我们的方法在具有不同实验设置(即零拍摄和微调)的五个数据集中,在五个数据集中优于最先进的方法,包括不同的实验设置(即零拍摄和微调),包括HOWTO100M(一百万个视频)。我们进一步开展零射击动作识别,可以作为视频到文本检索,我们的方法也显着超越了其对应物。作为额外的好处,我们的方法在单模下游任务中实现了竞争力,在单模下游任务上具有更短的预训练视频,例如,使用线性评估的动作识别。
translated by 谷歌翻译