多年来,Yolo系列一直是有效对象检测的事实上的行业级别标准。尤洛社区(Yolo Community)绝大多数繁荣,以丰富其在众多硬件平台和丰富场景中的使用。在这份技术报告中,我们努力将其限制推向新的水平,以坚定不移的行业应用心态前进。考虑到对真实环境中速度和准确性的多种要求,我们广泛研究了行业或学术界的最新对象检测进步。具体而言,我们从最近的网络设计,培训策略,测试技术,量化和优化方法中大量吸收了思想。最重要的是,我们整合了思想和实践,以在各种规模上建立一套可供部署的网络,以适应多元化的用例。在Yolo作者的慷慨许可下,我们将其命名为Yolov6。我们还向用户和贡献者表示热烈欢迎,以进一步增强。为了了解性能,我们的Yolov6-N在NVIDIA TESLA T4 GPU上以1234 fps的吞吐量在可可数据集上击中35.9%的AP。 Yolov6-S在495 fps处的43.5%AP罢工,在相同规模〜(Yolov5-S,Yolox-S和Ppyoloe-S)上超过其他主流探测器。我们的量化版本的Yolov6-S甚至在869 fps中带来了新的43.3%AP。此外,与其他推理速度相似的检测器相比,Yolov6-m/L的精度性能(即49.5%/52.3%)更好。我们仔细进行了实验以验证每个组件的有效性。我们的代码可在https://github.com/meituan/yolov6上提供。
translated by 谷歌翻译
大型视觉基础模型在自然图像上的视觉任务上取得了重大进展,在这种情况下,视觉变压器是其良好可扩展性和表示能力的主要选择。但是,在现有模型仍处于小规模的情况下,遥感社区(RS)社区中大型模型的利用仍然不足,从而限制了性能。在本文中,我们使用约1亿个参数求助于普通视觉变压器,并首次尝试提出针对RS任务定制的大型视觉模型,并探索如此大型模型的性能。具体而言,要处理RS图像中各种取向的较大图像大小和对象,我们提出了一个新的旋转型尺寸的窗户注意力,以替代变形金刚中的原始关注,这可以大大降低计算成本和内存足迹,同时学习更好的对象通过从生成的不同窗口中提取丰富上下文来表示。关于检测任务的实验证明了我们模型的优越性,超过了所有最新模型,在DOTA-V1.0数据集上实现了81.16 \%地图。与现有的高级方法相比,我们在下游分类和细分任务上的模型结果也证明了竞争性能。进一步的实验显示了我们模型对计算复杂性和几乎没有学习的优势。代码和模型将在https://github.com/vitae-transformer/remote-sensing-rvsa上发布
translated by 谷歌翻译
当前对象检测器通常具有用于多级特征融合(MFF)的特征金字塔(FP)模块,该模块旨在减轻不同级别的特征之间的差距,并形成全面的对象表示以实现更好的检测性能。但是,它们通常需要较重的跨层次连接或迭代精炼才能获得更好的MFF结果,从而使它们在结构上变得复杂且计算效率低下。为了解决这些问题,我们提出了一种新颖有效的上下文建模机制,可以帮助现有的FPS提供更好的MFF结果,同时有效地降低计算成本。特别是,我们介绍了一种新颖的见解,即可以将综合背景分解并凝结成两种类型的表示,以提高效率。这两种表示包括本地集中的表示和全球汇总表示形式,前者着重于从附近地区提取上下文提示,而后者将整个图像场景的关键表示形式提取为全局上下文提示。通过收集凝结的环境,我们采用变压器解码器来研究它们与FP的每个局部特征之间的关系,然后相应地完善MFF结果。结果,我们获得了一个简单且轻巧的基于变压器的上下文冷凝(TCC)模块,该模块可以提高各种FPS并同时降低其计算成本。关于挑战性的可可数据集的广泛实验结果表明,TCC与四个代表性FPS兼容,并始终将其检测准确性提高到平均精度高达7.8%,并将其复杂性降低到GFLOPS上,以帮助高达20%。他们更有效地实现最先进的绩效。代码将发布。
translated by 谷歌翻译
基于内部语言模型估计(ILME)语言模型(LM)融合已显示出明显改善的识别结果,而识别域内和跨域语音识别任务的常规浅融合。在本文中,我们试图将ILME方法应用于跨域代码转换语音识别(CSSR)工作。具体而言,我们的好奇心来自几个方面。首先,我们很好奇基于ILME的LM融合对内域和跨域CSSR任务的有效性。我们在不合并两个代码转换域的情况下对此进行验证。更重要的是,我们通过合并两个单语言数据集训练端到端(E2E)语音识别模型,并观察到拟议的基于ILME的LM Fusion对CSSR的功效。来自东南亚和另一个中国大陆CS数据集的SEAME的实验结果证明了拟议的基于ILME的LM融合方法的有效性。
translated by 谷歌翻译
开放式综合分割(OPS)问题是一个新的研究方向,旨在对\已知类别和\未知类进行细分,即在培训集中从未注释的对象(“事物”)。 OPS的主要挑战是双重的:(1)\未知物体出现的无限可能性使得很难从有限数量的培训数据中对其进行建模。 (2)在培训时,我们仅提供“空白”类别,该类别实质上将“未知事物”和“背景”类混合在一起。我们从经验上发现,直接使用“ void”类别监督\已知类别或“背景”而不筛选的“背景”不会导致满足的OPS结果。在本文中,我们提出了一个分裂和争议计划,以制定OPS的两阶段决策过程。我们表明,通过将\已知的类别歧视器与其他类别的对象预测头正确相结合,可以显着提高OPS性能。具体而言,我们首先建议创建一个仅具有\已知类别的分类器,并让“ void”类建议从这些类别中实现较低的预测概率。然后,我们使用其他对象预测头将“未知事物”与背景区分开。为了进一步提高性能,我们介绍了从最新模型产生的“未知事物”伪标签,以及丰富训练集的启发式规则。我们广泛的实验评估表明,我们的方法显着提高了\未知的类圆形质量,比现有最佳表现最佳方法的相对改进超过30 \%。
translated by 谷歌翻译
本文着重于几次NLP任务的文本数据增强。现有的数据增强算法要么使用一个小型培训集来生成新的合成数据,要么利用与任务无关的启发式规则(例如,同义词替代)或微调通用预训练的语言模型(例如GPT2)。因此,这些方法具有特定于任务的知识,并且仅限于在简单任务中为弱基线产生低质量的合成数据。为了解决这个问题,我们提出了知识混合数据增强模型(KNOWDA):使用知识混合培训(KOMT)在不同的NLP任务的混合物上预测的编码器LM。 KOMT是一种培训程序,将各种异质NLP任务的输入示例重新定义为统一的文本到文本格式,并采用不同粒度的目标,以学习生成部分或完整的样本。在KOMT的帮助下,Knowda可以隐含地将所需的特定于任务的知识从任务的混合中隐含地结合在一起,并通过一些给定的实例迅速掌握目标任务的固有综合定律。据我们所知,我们是首次尝试将任务数量扩展到多任务共同培训以进行数据扩展。广泛的实验表明,i)Knowda成功地通过少量基准的基准成功地提高了Albert和Deberta的表现,表现优于先前的最新数据增强基线; ii)KNOWDA还可以改善少数弹药任务的模型性能,这是KOMT中未包含的固定任务类型。
translated by 谷歌翻译
动物姿势估计和跟踪(APT)是从一系列视频帧中检测和跟踪动物关键的基本任务。以前与动物有关的数据集专注于动物跟踪或单帧动物姿势估计,而从未在这两个方面上进行。缺乏APT数据集​​阻碍了基于视频的动物姿势估计和跟踪方法的开发和评估,限制了现实世界中的应用,例如了解野生动物保护中的动物行为。为了填补这一空白,我们迈出了第一步,并提出了APT-36K,即第一个用于动物姿势估计和跟踪的大规模基准。具体而言,APT-36K由2,400个视频剪辑组成,并从30种动物物种中收集并过滤,每个视频为15帧,总共产生36,000帧。在手动注释和仔细的双重检查之后,为所有动物实例提供了高质量的关键点和跟踪注释。基于APT-36K,我们在以下三个曲目上基准了几个代表性模型:(1)在内部和域间传输学习设置下,在单个框架上进行监督的动物姿势估计,(2)未见的种间域域内概括测试动物,(3)动物跟踪的动物姿势估计。根据实验结果,我们获得了一些经验见解,并表明APT-36K提供了有价值的动物姿势估计和跟踪基准,为未来的研究提供了新的挑战和机会。该代码和数据集将在https://github.com/pandorgan/apt-36k上公​​开提供。
translated by 谷歌翻译
自我监督的方法(SSL)通过最大化两个增强视图之间的相互信息,裁剪是一种巨大的成功,其中裁剪是一种流行的增强技术。裁剪区域广泛用于构造正对,而裁剪后的左侧区域很少被探讨在现有方法中,尽管它们在一起构成相同的图像实例并且两者都有助于对类别的描述。在本文中,我们首次尝试从完整的角度来展示两种地区的重要性,并提出称为区域对比学习(RegionCl)的简单但有效的借口任务。具体地,给定两个不同的图像,我们随机从具有相同大小的每个图像随机裁剪区域(称为粘贴视图)并将它们交换以分别与左区域(称为CANVAS视图)一起组成两个新图像。然后,可以根据以下简单标准提供对比度对,即,每个视图是(1)阳性,其视图从相同的原始图像增强,并且与从其他图像增强的视图增强的视图。对于对流行的SSL方法进行微小的修改,RegionCL利用这些丰富的对并帮助模型区分来自画布和粘贴视图的区域特征,因此学习更好的视觉表示。 Imagenet,Coco和Citycapes上的实验表明,RegionCL通过大型边缘改善Moco V2,Densecl和Simsiam,并在分类,检测和分割任务上实现最先进的性能。代码将在https://github.com/annbless/regioncl.git上获得。
translated by 谷歌翻译
准确的动物姿势估计是了解动物行为的重要步骤,并且可能有利于许多下游应用,例如野生动物保护。以前的作用仅关注特定动物,同时忽略动物物种的多样性,限制泛化能力。在本文中,我们提出了哺乳动物动物姿势估计的第一个大规模基准的AP-10K,以促进动物姿势估计的研究。 AP-10K由10,015张图像组成,并在分类规模和54种物种之后从23个动物家庭和54种物种,标有标记和检查的高质量Keypoint注释。基于AP-10K,我们在以下三个轨道上基准代表姿态估计模型:(1)监督动物姿势估计的学习,(2)从人类姿势估计到动物姿势估计的跨域转移,和(3) - 看不见的动物的家庭间域概括。实验结果为学习的优越性从精度和泛化能力方面提供了关于从不同的动物物种的学习的优势提供的声音。它开辟了促进动物姿势估计未来研究的新方向。 AP-10K公开提供HTTPS://github.com/alexthebad/ap10k。
translated by 谷歌翻译
由于它们使用自我关注机制建模的远程依赖性的强大能力,变压器在各种计算机视觉任务中表现出很大的潜力。然而,视觉变压器将图像视为1D视觉令牌的序列,缺乏本地视觉结构的内在电感偏差(IB),并处理比例方差。或者,它们需要大规模的培训数据和更长的培训计划来隐含地学习IB。在本文中,我们提出了一种新颖的视觉变压器,通过探索来自卷积的内在IB,即简化。从技术上讲,vitae有几个空间金字塔减少模块,通过使用具有不同扩张速率的多个卷积来将输入图像与丰富的多尺寸上下文嵌入到令牌中。以这种方式,它获取内在规模的不变性IB,并且能够在各种尺度处学习对象的强大特征表示。此外,在每个变压器层中,vitae具有与多头自我关注模块平行的卷积块,其特征融合并馈入前馈网络。因此,它具有内在的位置IB,并且能够协同学习本地特征和全局依赖关系。在想象中的实验以及下游任务证明了基础变压器和并发作品的知识的优越性。源代码和预用型号将在GitHub上获得。
translated by 谷歌翻译