体育比赛摘要旨在从实时评论产生体育新闻。但是,现有数据集全部通过自动收集和清洁过程构建,导致大量噪音。此外,目前的作品忽视了现场评论和体育新闻之间的知识差距,这限制了体育比赛摘要的表现。在本文中,我们介绍了K-Sportssum,一个具有两个特征的新数据集:(1)K-Sportssum从大规模游戏中收集大量数据。它有7,854个评论新闻性对。为了提高质量,K-Sportssum采用手动清洁过程; (2)与现有数据集不同,为了缩小知识缺口,K-Sportssum进一步提供了一个大型知识语料库,其中包含523名运动队和14,724名体育运动者的信息。此外,我们还介绍了一个知识增强的摘要,它利用实时评论和知识来生成体育新闻。关于K-Sportssum和Sportssum数据集的广泛实验表明,我们的模型实现了新的最先进的表演。定性分析和人类研究进一步验证我们的模型产生更具信息丰富的体育新闻。
translated by 谷歌翻译
在雷达活动识别中,通常利用诸如谱图,克斯特劳和节奏速度图的2D信号表示,而范围信息通常被忽略。在这项工作中,我们建议利用3D时间范围 - 多普勒(TRD)表示,并设计3D正交投影的有效网络(3D-OPEN),以有效地捕获嵌入在3D TRD立方体中的判别信息以进行准确分类。该建议的模型从3D特征空间投影的三个正交平面中汇总判别信息。它减轻了3D CNNS在利用高维3D表示中利用稀疏语义抽象中的困难。在毫米波雷达步行数据集上评估所提出的方法。它显着且始终如一地优于雷达活动识别的最先进方法。
translated by 谷歌翻译
近年来,根据Vision-Language预训练(VLP),我们在图像标题任务中掌握了显着的性能提升。比例被认为是这一进步的重要因素。然而,大多数现有工作仅侧重于预训练的变压器,在大约400万图像上具有中等大小(例如,12或24层)。在本文中,我们呈现柠檬,一个大规模的图像标题器,并为图像标题的VLP的缩放行为提供第一个实证研究。我们使用最先进的VINVL模型作为我们的参考模型,它由图像特征提取器和变压器模型组成,并将变压器上下放大,模型大小范围从13到675万参数。在数据方面,我们通过高达200万图像文本对进行实验,该对基于图像的Alt属性自动从Web自动收集(称为ALT200M)。广泛的分析有助于将性能趋势表征为模型大小和预训练数据尺寸增加。我们还比较不同的培训配方,特别是在大规模嘈杂数据上培训。结果,柠檬在几个主要图像标题基准上实现了新的技术状态,包括Coco标题,Nocaps和概念标题。我们还显示柠檬可以在以零拍摄方式使用时生成带有长尾视觉概念的标题。
translated by 谷歌翻译
在本文中,我们提出了Unicorn,一种vision-language(vl)模型,使文本生成和边界框预测到单个架构中。具体而言,我们将每个框量化为四个离散框令牌,并将其序列化为序列,可以与文本令牌集成。我们将所有VL问题作为一代任务,其中目标序列由集成文本和框令牌组成。然后,我们训练变压器编码器解码器以以自动回归方式预测目标。通过如此统一的框架和输入输出格式,Unicorn在7 VL基准测试中实现了对现有技术的可比性的性能,涵盖了视觉接地,接地字幕,视觉问题应答和图像标题任务。当用多任务FINETUNING培训时,UNICORN可以通过单一的参数方法接近不同的VL任务,从而跨越下游任务边界。我们展示了具有单一模型不仅可以节省参数,而且还可以在某些任务上提高模型性能。最后,Unicorn显示了概括到诸如ImageNet对象本地化的新任务的能力。
translated by 谷歌翻译
自动视觉解对我们多样化和开放的世界需要计算机视觉模型,以概括为特定任务的最小定制,类似于人类视力。计算机视觉基础型号培训,培训多样化,大型数据集,可以适应各种下游任务,对该任务来解决现实世界计算机视觉应用而言至关重要。虽然现有的视觉基础模型如剪辑,对齐和吴道2.0主要集中在映射图像和文本表示到跨模型共享表示,我们介绍了一台新的计算机视觉基础模型,佛罗伦萨,扩大粗糙的表示(现场)到精细(对象),从静态(图像)到动态(视频),以及从RGB到多个模态(标题,深度)。通过从Web级图像文本数据中纳入通用视觉语言表示,我们的佛罗伦萨模型可以很容易地适应各种计算机视觉任务,例如分类,检索,对象检测,VQA,图像标题,视频检索和动作识别。此外,佛罗伦萨在许多类型的转移学习中表现出出色的表现:全面采样的微调,线性探测,几次射击传输和用于新颖图像和物体的零拍摄传输。所有这些属性对于我们的视觉基础模型至关重要,以提供通用视觉任务。佛罗伦萨实现了新的最先进的导致44个代表性基准,例如Imagenet-1K零射击分类,最高1精度为83.74,最高5个精度为97.18,62.4地图上的Coco微调, 80.36在VQA上,动力学-600上的87.8。
translated by 谷歌翻译
最近,许多改进的天真贝叶斯方法已经开发出具有增强的辨别能力。其中,正规化的朴素贝叶斯(RNB)通过平衡辨别力和泛化能力来产生出色的性能。数据离散化在天真贝叶斯中很重要。通过将类似的值分组成一个间隔,可以更好地估计数据分布。但是,包括RNB的现有方法通常将数据离散到太少的间隔中,这可能导致显着的信息丢失。为了解决这个问题,我们提出了一个用于天真贝叶斯的半监督自适应判别离散化框架,这可以通过利用伪标签技术利用标记的数据和未标记的数据来更好地估计数据分布。通过利用自适应鉴别的离散化方案,所提出的方法也显着降低了离散化期间的信息损失,因此大大提高了分类器的歧视力。在各种机器学习数据集上系统地评估所提出的RNB +,即正规化的天真贝叶斯。它显着且始终如一地优于最先进的NB分类器。
translated by 谷歌翻译
在本文中,我们提出了一种单一统一的变压器(UFO),其能够处理视觉语言的单峰输入(例如,图像或语言)或多模式输入(例如,图像和问题的串联)( VL)表示学习。现有方法通常为每个模态和/或特定融合网络设计个人网络,用于多模式任务。为了简化网络架构,我们使用单个变压器网络并在VL预培训期间强制执行多任务学习,其包括图像文本对比丢失,图像文本匹配丢失和基于双向的屏蔽语言建模损耗SEQ2Seq注意面具。相同的变压器网络用作不同预训练任务中的图像编码器,文本编码器或融合网络。经验上,我们观察不同任务之间的冲突,并在视觉问题应答,Coco图像标题(交叉熵优化)和Nocaps(在香料中)实现新的艺术状态。在其他下游任务中,例如,图像文本检索,我们也实现了竞争性能。
translated by 谷歌翻译
我们呈现多视图姿势变压器(MVP),用于从多视图图像估计多人3D姿势。而不是从昂贵的体积表示或从多个检测到的2D重建的每人3D姿势估计从昂贵的体积表示或从多个检测到的2D姿势进行估计3D联合位置,而是MVP以清洁和有效的方式直接回归多人3D姿势,而不依赖于中间任务。具体而言,MVP表示作为学习查询嵌入的骨架关节,并让它们从输入图像中逐渐参加和原因,以直接回归实际的3D联合位置。为了提高这种简单管道的准确性,MVP呈现了一个分层方案,简明地代表了多人骨架关节的查询嵌入,并引入了输入相关的查询适应方法。此外,MVP设计了一种新颖的几何引导注意力机制,称为投影注意力,更精确地熔化每个关节的跨视网膜信息。 MVP还介绍了RAYCONV操作,以将视图依赖的相机几何整合到特征表示中,以增加投射注意。我们通过实验展示我们的MVP模型在几个基准上占据了最先进的方法,同时更有效。值得注意的是,它在挑战的Panoptic DataSet上实现了92.3%的AP25,提高了先前的最佳方法[36],提高了9.8%。 MVP是通用的,并且还可以扩展到恢复SMPL模型表示的人网格,因此可用于建模多人身体形状。代码和模型可在https://github.com/sail-sg/mvp上获得。
translated by 谷歌翻译
大规模的预训练语言模型在广泛的自然语言理解(NLU)任务中取得了巨大的成功,甚至超过人类性能。然而,最近的研究表明,这些模型的稳健性可能受到精心制作的文本对抗例子的挑战。虽然已经提出了几个单独的数据集来评估模型稳健性,但仍缺少原则和全面的基准。在本文中,我们呈现对抗性胶水(AdvGlue),这是一个新的多任务基准,以定量和彻底探索和评估各种对抗攻击下现代大规模语言模型的脆弱性。特别是,我们系统地应用14种文本对抗的攻击方法来构建一个粘合的援助,这是由人类进一步验证的可靠注释。我们的调查结果总结如下。 (i)大多数现有的对抗性攻击算法容易发生无效或暧昧的对手示例,其中大约90%的含量改变原始语义含义或误导性的人的注册人。因此,我们执行仔细的过滤过程来策划高质量的基准。 (ii)我们测试的所有语言模型和强大的培训方法在AdvGlue上表现不佳,差价远远落后于良性准确性。我们希望我们的工作能够激励开发新的对抗攻击,这些攻击更加隐身,更加统一,以及针对复杂的对抗性攻击的新强大语言模型。 Advglue在https://adversarialglue.github.io提供。
translated by 谷歌翻译
Vision-and语言(VL)预培训已被证明对各种VL下游任务非常有效。虽然最近的工作表明,基于完全变换器的VL模型可以比以前的基于区域特征的方法更有效,但它们在下游任务上的性能通常显着降低。在本文中,我们呈现仪表〜(\ textbf {m} ultimodal \ textbf {e} nd-to-text \ textbf {t} ransform \ textbf {er}),我们通过它系统地调查如何设计和预先列车基于完全变换器的VL模型以端到端的方式。具体而言,我们将模型设计沿多个尺寸分析:视觉编码器(例如,剪辑 - vit,Swin变压器),文本编码器(例如,Roberta,Deberta),多模式融合(例如,合并注意力与共同关注),架构设计(例如,仅编码器与编码器 - 解码器)和预训练目标(例如,屏蔽图像建模)。我们对广泛的VL任务进行全面实验,并提供有关如何在保持快速推理速度的同时培训表演VL变压器的见解。值得注意的是,仪表〜使用仅使用4M图像进行预培训的VQAV2 TEST-STD设置的精度为77.64 \%,超过最先进的区域特征的VINVL模型+1.04 \%,以及优于以前最好的完全变换器的ALBEF模型+1.6 \%。
translated by 谷歌翻译