多年来,Yolo系列一直是有效对象检测的事实上的行业级别标准。尤洛社区(Yolo Community)绝大多数繁荣,以丰富其在众多硬件平台和丰富场景中的使用。在这份技术报告中,我们努力将其限制推向新的水平,以坚定不移的行业应用心态前进。考虑到对真实环境中速度和准确性的多种要求,我们广泛研究了行业或学术界的最新对象检测进步。具体而言,我们从最近的网络设计,培训策略,测试技术,量化和优化方法中大量吸收了思想。最重要的是,我们整合了思想和实践,以在各种规模上建立一套可供部署的网络,以适应多元化的用例。在Yolo作者的慷慨许可下,我们将其命名为Yolov6。我们还向用户和贡献者表示热烈欢迎,以进一步增强。为了了解性能,我们的Yolov6-N在NVIDIA TESLA T4 GPU上以1234 fps的吞吐量在可可数据集上击中35.9%的AP。 Yolov6-S在495 fps处的43.5%AP罢工,在相同规模〜(Yolov5-S,Yolox-S和Ppyoloe-S)上超过其他主流探测器。我们的量化版本的Yolov6-S甚至在869 fps中带来了新的43.3%AP。此外,与其他推理速度相似的检测器相比,Yolov6-m/L的精度性能(即49.5%/52.3%)更好。我们仔细进行了实验以验证每个组件的有效性。我们的代码可在https://github.com/meituan/yolov6上提供。
translated by 谷歌翻译
旨在使用非常有限的样本识别看不见的类的几个射击分类吸引了越来越多的关注。通常,它被称为公制学习问题。几乎没有射击分类的核心问题是如何学习(1)支持和查询集中图像的一致表示以及(2)在支持和查询集之间的图像的有效度量学习。在本文中,我们表明,这两个挑战可以通过统一的查询支持变压器(QSFormer)模型同时建模。具体而言,提出的QSFormer涉及全局查询支持样品变压器(SampleFormer)分支和局部补丁变压器(PatchFormer)学习分支。 SampleFormer旨在捕获样品在支持和查询集以进行图像表示方面的依赖性。它采用编码器,解码器和交叉注意力,分别对几个射击分类任务的支持,查询(图像)表示和度量学习进行建模。同样,作为全球学习分支的补充,我们采用了局部贴片变压器,通过捕获本地图像贴片的长距离依赖性来提取每个图像样本的结构表示。此外,还提出了一种新型的跨尺度交互式提取器(CIFE)来提取和融合多尺度CNN特征,作为建议的少量学习方法的有效骨干模块。所有模块都集成到统一的框架中,并以端到端的方式进行了训练。在四个流行数据集上进行的广泛实验证明了所提出的QSFormer的有效性和优势。
translated by 谷歌翻译
由于字体之类的文本属性是文档格式和页面样式的核心设计元素,因此自动属性识别有利于全面的实用应用。现有方法在区分不同属性方面已经产生令人满意的性能,但是它们仍然在区分类似属性的情况下只有微妙的差异。此外,在现实世界中出现意外和明显的成像扭曲的现实情况下,他们的性能严重下降。在本文中,我们旨在通过提出炸玉米饼来解决这些问题,炸玉米饼是针对最常见文档场景量身定制的文本属性识别的对比框架。具体而言,炸玉米饼利用对比学习来消除由模糊和开放式属性引起的歧义陷阱。为了实现这一目标,我们从三个角度设计了学习范式:1)生成属性视图,2)提取微妙但至关重要的细节,以及3)利用有价值的视图对学习,以充分解锁预训练潜力。广泛的实验表明,Taco超过了受监督的对应物,并在多个属性识别任务上取得了最新的进步。将提供炸玉米饼的在线服务。
translated by 谷歌翻译
尽管发展了排名优化技术,但点式模型仍然是点击率(CTR)预测的主导方法。它可以归因于点式模型的校准能力,因为可以将预测视为点击概率。在实践中,通常还以排名能力来评估CTR预测模型,基于排名损失(例如,成对或列表损失)的预测模型通常比点置损失更好。先前的研究已经实验了两种损失的直接组合,以从损失中获得收益并观察到改善的性能。但是,先前的研究将输出logit的含义作为点击率,这可能会导致次优的解决方案。为了解决这个问题,我们提出了一种可以共同优化排名和校准能力的方法(简称JRC)。 JRC通过将样品的logit值与不同的标签进行对比,并约束预测概率是logit减法的函数,从而提高了排名能力。我们进一步表明JRC巩固了对逻辑的解释,其中逻辑在其中建模关节分布。通过这样的解释,我们证明JRC近似优化了上下文化的混合歧视生成目标。公共和工业数据集以及在线A/B测试的实验表明,我们的方法提高了排名和校准能力。自2022年5月以来,JRC已被部署在阿里巴巴的展示广告平台上,并获得了显着改进的绩效。
translated by 谷歌翻译
我们引入了一种降低尺寸的二阶方法(DRSOM),用于凸和非凸的不受约束优化。在类似信任区域的框架下,我们的方法保留了二阶方法的收敛性,同时仅在两个方向上使用Hessian-Vector产品。此外,计算开销仍然与一阶相当,例如梯度下降方法。我们证明该方法的复杂性为$ O(\ epsilon^{ - 3/2})$,以满足子空间中的一阶和二阶条件。DRSOM的适用性和性能通过逻辑回归,$ L_2-L_P $最小化,传感器网络定位和神经网络培训的各种计算实验展示。对于神经网络,我们的初步实施似乎在训练准确性和迭代复杂性方面与包括SGD和ADAM在内的最先进的一阶方法获得了计算优势。
translated by 谷歌翻译
我们提出了Pangu-Coder,这是一种仅预读的解码器语言模型,该模型采用pangu-alpha架构进行文本到代码生成,即给定自然语言问题描述的编程语言解决方案的合成。我们使用两阶段策略训练Pangu-Coder:第一阶段采用因果语言建模(CLM)来预先培训原始编程语言数据,而第二阶段则使用因果语言建模和掩盖语言建模(MLM)的组合培训目标,专注于文本到代码生成的下游任务,并培训松散的自然语言程序定义和代码功能。最后,我们讨论了pangu-coder-ft,该pander the是通过竞争性编程问题和代码与持续集成测试的结合进行了微调的。我们评估了pangu-coder,重点是它是否生成功能上正确的程序,并证明它在参加较小的上下文窗口和较少的数据培训的同时,它比诸如Codex之类的类似大小的模型(例如Codex)实现等效性或更好的性能。
translated by 谷歌翻译
在立体声设置下,可以通过利用第二视图提供的其他信息来进一步改善图像JPEG伪像删除的性能。但是,将此信息纳入立体声图像jpeg trifacts删除是一个巨大的挑战,因为现有的压缩工件使像素级视图对齐变得困难。在本文中,我们提出了一个新颖的视差变压器网络(PTNET),以整合来自立体图像对的立体图像对jpeg jpeg trifacts删除的信息。具体而言,提出了精心设计的对称性双向视差变压器模块,以匹配具有不同视图之间相似纹理的特征,而不是像素级视图对齐。由于遮挡和边界的问题,提出了一个基于置信的跨视图融合模块,以实现两种视图的更好的特征融合,其中跨视图特征通过置信图加权。尤其是,我们为跨视图的互动采用粗到最新的设计,从而提高性能。全面的实验结果表明,与其他测试最新方法相比,我们的PTNET可以有效地消除压缩伪像并获得更高的性能。
translated by 谷歌翻译
基于深度学习的立体图像超分辨率(StereOSR)的最新研究促进了Stereosr的发展。但是,现有的立体声模型主要集中于改善定量评估指标,并忽略了超级分辨立体图像的视觉质量。为了提高感知性能,本文提出了第一个面向感知的立体图像超分辨率方法,通过利用反馈,这是对立体声结果的感知质量的评估提供的。为了为StereOSR模型提供准确的指导,我们开发了第一个特殊的立体图像超分辨率质量评估(StereOSRQA)模型,并进一步构建了StereOSRQA数据库。广泛的实验表明,我们的Stereosr方法显着提高了感知质量,并提高了立体声图像的可靠性以进行差异估计。
translated by 谷歌翻译
来自LIDAR或相机传感器的3D对象检测任务对于自动驾驶至关重要。先锋尝试多模式融合的尝试补充了稀疏的激光雷达点云,其中包括图像的丰富语义纹理信息,以额外的网络设计和开销为代价。在这项工作中,我们提出了一个名为SPNET的新型语义传递框架,以通过丰富的上下文绘画的指导来提高现有基于激光雷达的3D检测模型的性能,在推理过程中没有额外的计算成本。我们的关键设计是首先通过训练语义绘制的教师模型来利用地面真实标签中潜在的指导性语义知识,然后引导纯LIDAR网络通过不同的粒度传播模块来学习语义绘制的表示:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类别:类:类别:类别:类别:类别:类别:类别:类别: - 通过,像素的传递和实例传递。实验结果表明,所提出的SPNET可以与大多数现有的3D检测框架无缝合作,其中AP增益为1〜5%,甚至在KITTI测试基准上实现了新的最新3D检测性能。代码可在以下网址获得:https://github.com/jb892/sp​​net。
translated by 谷歌翻译
文档信息提取(DIE)由于其在现实世界中的各种高级应用而引起了越来越多的关注。尽管最近的文献已经取得了竞争成果,但在处理具有嘈杂的OCR结果或突变布局的复杂文档时,这些方法通常会失败。本文提出了用于现实世界情景的生成多模式网络(GMN),以解决这些问题,这是一种强大的多模式生成方法,没有预定义的标签类别。借助精心设计的空间编码器和模态感知的蒙版模块,GMN可以处理复杂的文档,这些文档很难序列化为顺序。此外,GMN可以容忍OCR结果中的错误,并且不需要字符级注释,这是至关重要的,因为对众多文档的细粒注释很费力,甚至需要具有专门域知识的注释者。广泛的实验表明,GMN在几个公共模具数据集上实现了新的最新性能,并超过了其他方法,尤其是在现实的场景中。
translated by 谷歌翻译