Instruction tuning, a new learning paradigm that fine-tunes pre-trained language models on tasks specified through instructions, has shown promising zero-shot performance on various natural language processing tasks. However, it's still not explored for vision and multimodal tasks. In this work, we introduce MultiInstruct, the first multimodal instruction tuning benchmark dataset that consists of 47 diverse multimodal tasks covering 11 broad categories. Each task is designed at least with 5,000 instances (input-out pairs) from existing open-source datasets and 5 expert-written instructions. We take OFA as the base pre-trained model for multimodal instruction tuning, and to improve its performance, we explore multiple transfer learning strategies to leverage the large-scale Natural Instructions dataset. Experimental results demonstrate its strong zero-shot performance on various unseen multimodal tasks and the benefit of transfer learning from text-only instructions. We also design a new evaluation metric: Sensitivity, to evaluate how sensitive the model is to the variety of instructions. Our results indicate that the model is less sensitive to the varying instructions after finetuning on a diverse set of tasks and instructions for each task.
translated by 谷歌翻译
超过三十年,研究人员已经开发和分析了潜伏树诱导的方法作为无监督句法解析的方法。尽管如此,与其监督的对应物相比,现代系统仍然不足以使其具有任何实际用途作为文本的结构注释。在这项工作中,我们提出了一种技术,该技术以跨度约束(即短语包围)的形式使用远端监督,以提高在无监督选项解析中的性能。使用相对少量的跨度约束,我们可以大大提高Diora的输出,这是一个已经竞争的无监督解析系统。与完整的解析树注释相比,可以通过最小的努力来获取跨度约束,例如使用从维基百科派生的词典,以查找确切的文本匹配。我们的实验显示了基于实体的跨度约束,提高了英语WSJ Penn TreeBank的选区分析超过5 F1。此外,我们的方法延伸到跨度约束易于实现的任何域,以及作为一个案例研究,我们通过从工艺数据集解析生物医学文本来证明其有效性。
translated by 谷歌翻译
具有窄光谱带的高光谱图像(HSI)可以捕获丰富的光谱信息,但它在该过程中牺牲其空间分辨率。最近提出了许多基于机器学习的HSI超分辨率(SR)算法。然而,这些方法的基本限制之一是它们高度依赖于图像和相机设置,并且只能学会用另一个特定设置用一个特定的设置映射输入的HSI。然而,由于HSI相机的多样性,不同的相机捕获具有不同光谱响应函数和频带编号的图像。因此,现有的基于机器学习的方法无法学习用于各种输入输出频带设置的超声波HSIS。我们提出了一种基于元学习的超分辨率(MLSR)模型,其可以在任意数量的输入频带'峰值波长下采用HSI图像,并产生具有任意数量的输出频带'峰值波长的SR HSIS。我们利用NTIRE2020和ICVL数据集训练并验证MLSR模型的性能。结果表明,单个提出的模型可以在任意输入 - 输出频带设置下成功生成超分辨的HSI频段。结果更好或至少与在特定输入输出频带设置上单独培训的基线相当。
translated by 谷歌翻译
In this paper we propose a pooling approach for convolutional information processing on graphs relying on the theory of graphons and limits of dense graph sequences. We present three methods that exploit the induced graphon representation of graphs and graph signals on partitions of [0, 1]2 in the graphon space. As a result we derive low dimensional representations of the convolutional operators, while a dimensionality reduction of the signals is achieved by simple local interpolation of functions in L2([0, 1]). We prove that those low dimensional representations constitute a convergent sequence of graphs and graph signals, respectively. The methods proposed and the theoretical guarantees that we provide show that the reduced graphs and signals inherit spectral-structural properties of the original quantities. We evaluate our approach with a set of numerical experiments performed on graph neural networks (GNNs) that rely on graphon pooling. We observe that graphon pooling performs significantly better than other approaches proposed in the literature when dimensionality reduction ratios between layers are large. We also observe that when graphon pooling is used we have, in general, less overfitting and lower computational cost.
translated by 谷歌翻译
Accurately predicting interactive road agents' future trajectories and planning a socially compliant and human-like trajectory accordingly are important for autonomous vehicles. In this paper, we propose a planning-centric prediction neural network, which takes surrounding agents' historical states and map context information as input, and outputs the joint multi-modal prediction trajectories for surrounding agents, as well as a sequence of control commands for the ego vehicle by imitation learning. An agent-agent interaction module along the time axis is proposed in our network architecture to better comprehend the relationship among all the other intelligent agents on the road. To incorporate the map's topological information, a Dynamic Graph Convolutional Neural Network (DGCNN) is employed to process the road network topology. Besides, the whole architecture can serve as a backbone for the Differentiable Integrated motion Prediction with Planning (DIPP) method by providing accurate prediction results and initial planning commands. Experiments are conducted on real-world datasets to demonstrate the improvements made by our proposed method in both planning and prediction accuracy compared to the previous state-of-the-art methods.
translated by 谷歌翻译
视觉任务的输出格式和相关内容差异很大,因此很难以相同的结构处理它们。一个主要障碍在于对象级别的视觉任务中的高维输出。在本文中,我们提出了一个以对象为中心的视觉框架OBJ2Seq。 OBJ2Seq将对象作为基本单元,并将大多数对象级的视觉任务视为对象的序列生成问题。因此,这些视觉任务可以分为两个步骤。首先识别给定类别的对象,然后为每个对象生成一个序列。输出序列的定义对于不同的任务有所不同,并且通过将这些序列与地面真相目标匹配来监督模型。 OBJ2SEQ能够灵活地确定输入类别以满足自定义要求,并可以轻松扩展到不同的视觉任务。在对MS Coco进行实验时,OBJ2SEQ在对象检测时可获得45.7%的AP,多标签分类的89.0%AP和人类姿势估计的65.0%AP。这些结果证明了其通常应用于不同视觉任务的潜力。代码已在以下网址提供:https://github.com/casia-iva-lab/obj2seq。
translated by 谷歌翻译
我们介绍了Yato,这是一种开源工具包,用于文本分析,并深入学习。它着重于文本上的基本序列标签和序列分类任务。Yato在层次结构中设计,支持三种功能的免费组合,包括1)传统神经网络(CNN,RNN等);2)预训练的语言模型(Bert,Roberta,Electra等);3)通过简单的可配置文件,用户定制的神经功能。Yato受益于灵活性和易用性的优势,可以促进对最先进的NLP模型的再现和完善,并促进NLP技术的跨学科应用。源代码,示例和文档可在https://github.com/jiesutd/yato上公开获取。
translated by 谷歌翻译
Covid-19-Pandemic继续在社交媒体上提出各种讨论或辩论的主题。为了探索大流行对人们生活的影响,了解公众对与大流行有关的实体(例如药物,疫苗)对社交媒体的关注和态度至关重要。但是,对现有命名实体识别(NER)或目标情感分析(TSA)数据集培训的模型具有有限的理解与COVID相关的社交媒体文本的能力有限,因为这些数据集并未从医学角度设计或注释。本文释放了Mets-COV,这是一种包含医疗实体的数据集和与COVID相关的推文中的目标情感。 Mets-COV包含10,000条带有7种实体的推文,包括4种医疗实体类型(疾病,药物,症状和疫苗)和3种通用实体类型(人,位置和组织)。为了进一步调查推文用户对特定实体的态度,选择了4种类型的实体(人,组织,药物和疫苗),并用用户情感注释,从而产生了具有9,101个实体(5,278个推文)的目标情感数据集。据我们所知,METS-COV是第一个收集与COVID相关推文的医疗实体和相应情感的数据集。我们通过广泛的实验对经典机器学习模型和最先进的深度学习模型进行基准测试。结果表明,该数据集在NER和TSA任务方面都有大量改进的空间。 METS-COV是开发更好的医学社交媒体工具并促进计算社会科学研究的重要资源,尤其是在流行病学方面。我们的数据,注释准则,基准模型和源代码公开可用(https://github.com/ylab-open/mets-cov),以确保可重复性。
translated by 谷歌翻译
近年来,基于变压器的预训练模型已获得了很大的进步,成为自然语言处理中最重要的骨干之一。最近的工作表明,变压器内部的注意力机制可能不需要,卷积神经网络和基于多层感知器的模型也已被研究为变压器替代方案。在本文中,我们考虑了一个用于语言模型预训练的图形循环网络,该网络通过本地令牌级通信为每个序列构建一个图形结构,以及与其他代币解耦的句子级表示。原始模型在受监督培训下的特定领域特定文本分类中表现良好,但是,其通过自我监督的方式学习转移知识的潜力尚未得到充分利用。我们通过优化体系结构并验证其在更通用的语言理解任务(英语和中文)中的有效性来填补这一空白。至于模型效率,我们的模型在基于变压器的模型中而不是二次复杂性,而是具有线性复杂性,并且在推断过程中的性能更有效。此外,我们发现与现有基于注意力的模型相比,我们的模型可以生成更多样化的输出,而背景化的功能冗余性较小。
translated by 谷歌翻译
在本文中,我们研究了考虑基础图的扰动的聚集图神经网络(ag-gnns)的稳定性。 Agg-gnn是一种混合体系结构,在图上定义了信息,但是在图形移位算子上进行了几次扩散后,在节点上的欧几里得CNN对其进行了处理。我们为与通用Agg-GNN关联的映射运算符得出稳定性界限,并指定了该操作员可以稳定变形的条件。我们证明稳定性边界是由在每个节点上作用的CNN的第一层中过滤器的属性定义的。此外,我们表明聚集的数量,滤波器的选择性和稳定性常数的大小之间存在密切的关系。我们还得出结论,在Agg-gnns中,映射运算符的选择性仅在CNN阶段的第一层中与过滤器的属性相关。这显示了相对于选择GNN的稳定性的实质性差异,其中所有层中过滤器的选择性受其稳定性的约束。我们提供了证实结果得出的结果的数值证据,测试了考虑不同幅度扰动的现实生活应用方案中的ag-gnn的行为。
translated by 谷歌翻译