近年来,根据Vision-Language预训练(VLP),我们在图像标题任务中掌握了显着的性能提升。比例被认为是这一进步的重要因素。然而,大多数现有工作仅侧重于预训练的变压器,在大约400万图像上具有中等大小(例如,12或24层)。在本文中,我们呈现柠檬,一个大规模的图像标题器,并为图像标题的VLP的缩放行为提供第一个实证研究。我们使用最先进的VINVL模型作为我们的参考模型,它由图像特征提取器和变压器模型组成,并将变压器上下放大,模型大小范围从13到675万参数。在数据方面,我们通过高达200万图像文本对进行实验,该对基于图像的Alt属性自动从Web自动收集(称为ALT200M)。广泛的分析有助于将性能趋势表征为模型大小和预训练数据尺寸增加。我们还比较不同的培训配方,特别是在大规模嘈杂数据上培训。结果,柠檬在几个主要图像标题基准上实现了新的技术状态,包括Coco标题,Nocaps和概念标题。我们还显示柠檬可以在以零拍摄方式使用时生成带有长尾视觉概念的标题。
translated by 谷歌翻译
在本文中,我们提出了Unicorn,一种vision-language(vl)模型,使文本生成和边界框预测到单个架构中。具体而言,我们将每个框量化为四个离散框令牌,并将其序列化为序列,可以与文本令牌集成。我们将所有VL问题作为一代任务,其中目标序列由集成文本和框令牌组成。然后,我们训练变压器编码器解码器以以自动回归方式预测目标。通过如此统一的框架和输入输出格式,Unicorn在7 VL基准测试中实现了对现有技术的可比性的性能,涵盖了视觉接地,接地字幕,视觉问题应答和图像标题任务。当用多任务FINETUNING培训时,UNICORN可以通过单一的参数方法接近不同的VL任务,从而跨越下游任务边界。我们展示了具有单一模型不仅可以节省参数,而且还可以在某些任务上提高模型性能。最后,Unicorn显示了概括到诸如ImageNet对象本地化的新任务的能力。
translated by 谷歌翻译
在本文中,我们提出了一种单一统一的变压器(UFO),其能够处理视觉语言的单峰输入(例如,图像或语言)或多模式输入(例如,图像和问题的串联)( VL)表示学习。现有方法通常为每个模态和/或特定融合网络设计个人网络,用于多模式任务。为了简化网络架构,我们使用单个变压器网络并在VL预培训期间强制执行多任务学习,其包括图像文本对比丢失,图像文本匹配丢失和基于双向的屏蔽语言建模损耗SEQ2Seq注意面具。相同的变压器网络用作不同预训练任务中的图像编码器,文本编码器或融合网络。经验上,我们观察不同任务之间的冲突,并在视觉问题应答,Coco图像标题(交叉熵优化)和Nocaps(在香料中)实现新的艺术状态。在其他下游任务中,例如,图像文本检索,我们也实现了竞争性能。
translated by 谷歌翻译
在低光环境中捕获的图像经常遭受复杂的降级。简单地调整光不可避免地导致隐藏噪声和颜色失真的突发。从退化投入寻求满足的照明,清洁和现实主义的结果​​,这篇论文提出了一种灵感来自分界和规则原则的新颖框架,大大减轻了退化纠缠。假设图像可以被分解成纹理(具有可能的噪声)和颜色分量,可以具体地执行噪声去除和颜色校正以及光调节。为此目的,我们建议将来自RGB空间的图像转换为亮度色度。可调节的噪声抑制网络设计用于消除亮度亮度的噪声,其具有估计的照明图以指示噪声升高水平。增强型亮度进一步用于色度映射器的指导,以产生现实颜色。进行了广泛的实验,揭示了我们设计的有效性,并在几个基准数据集上展示了定量和定性的最先进的替代方案的优势。我们的代码在HTTPS://github.com/mingcv/bread下公开提供。
translated by 谷歌翻译
基于政策的强化学习(RL)最近的经验成功,有一项研究趋势,研究了基于政策的RL方法对标准控制基准问题的研究。在本文中,我们研究了基于政策的RL方法的有效性在重要的强大控制问题上,即$ \ mu $综合。我们在强大的对策RL和$ \ mu $综合之间建立连接,并开发出众所周知的$ DK $ antication的无模型版本,用于解决静态$ d $-scaling的状态反馈$ \ mu $ synthesis。在所提出的算法中,$ k $步骤通过将最近开发的双循环对冲RL方法作为子程序来模仿经典的中央路径算法,$ D $步骤基于无模型有限差分近似。还提出了广泛的数值研究以展示我们提出的无模型算法的效用。我们的研究揭示了对抗对抗和鲁棒控制之间的联系。
translated by 谷歌翻译
磁共振成像(MRI)是重要的医学成像模型,而需要长时间的采集时间。为了减少采集​​时间,已经提出了各种方法。然而,这些方法未能以明确的结构重建图像,以两种主要原因。首先,在MR图像中广泛存在的类似补丁,而最先前的基于深度学习的方法忽略此属性,并且仅采用CNN学习本地信息。其次,现有方法仅使用清晰的图像来限制解决方案空间的上限,而下限不会受约束,从而无法获得网络的更好参数。为了解决这些问题,我们向本地和全球学习MRI重建网络(CLGNET)提出了对比的学习。具体地,根据傅立叶理论,傅里叶域中的每个值由空间域中的所有值计算。因此,我们提出了一种空间和傅里叶层(SFL),以同时学习空间和傅立叶域中的本地和全局信息。此外,与自我关注和变压器相比,SFL具有更强的学习能力,可以在更短的时间内实现更好的性能。基于SFL,我们设计了一个空间和傅里叶的剩余块作为模型的主要组成部分。同时,要限制解决方案空间的下限和上限,我们引入了对比度学习,这可以将结果拉到清晰图像上,并将结果推到远离下采样的图像。不同数据集和加速率的广泛实验结果表明,所提出的CLGNET实现了新的最先进的结果。
translated by 谷歌翻译
多摄像机跟踪系统在需要高质量跟踪结果的应用中获得普及,例如摩擦结账,因为单眼多物体跟踪(MOT)系统由于闭塞而在杂乱和拥挤的环境中经常失败。通过恢复部分3D信息,多个高度重叠的相机可以显着减轻问题。但是,使用不同的相机设置和背景创建高质量多摄像头跟踪数据集的成本在该域中的数据集比例限制了数据集尺度。在本文中,我们在自动注释系统的帮助下提供了五种不同环境的大型密集标记的多摄像头跟踪数据集。该系统使用重叠和校准的深度和RGB相机来构建高性能3D跟踪器,可自动生成3D跟踪结果。使用摄像机参数将3D跟踪结果投影到每个RGB摄像头视图以创建2D跟踪结果。然后,我们手动检查并更正3D跟踪结果以确保标签质量,比完全手动注释便宜得多。我们使用两个实时多相机跟踪器和具有不同设置的人重新识别(REID)模型进行了广泛的实验。该数据集在杂乱和拥挤的环境中提供了更可靠的多摄像头,多目标跟踪系统的基准。此外,我们的结果表明,在此数据集中调整跟踪器和REID模型显着提高了它们的性能。我们的数据集将在接受这项工作后公开发布。
translated by 谷歌翻译
汇集操作引起的翻译不变性是卷积神经网络的固有属性,这有助于诸如分类的许多计算机视觉任务。然而,为了利用旋转不变的任务,卷积架构需要特定的旋转不变层或广泛的数据增强,以从给定空间配置的不同旋转版本中学习。将图像展开到其极性坐标中提供了更明显的表示,以训练卷积架构,因为旋转不变性变为平移,因此可以从单个图像中学习给定场景的视觉上不同但其他等同的旋转版本。我们展示了两个基于视觉的太阳辐照性预测挑战(即使用地面拍摄的天空图像或卫星图像),即该预处理步骤通过标准化场景表示来显着提高预测结果,同时将培训时间减少4倍4倍。使用旋转增强数据。此外,该变换放大了围绕旋转中心的区域,导致更准确的短期辐照度预测。
translated by 谷歌翻译
对象视觉导航旨在基于代理的视觉观察来转向目标对象。非常希望合理地感知环境并准确控制代理。在导航任务中,我们引入了一个以代理为中心的关系图(ACRG),用于基于环境中的关系学习视觉表示。 ACRG是一种高效且合理的结构,包括两个关系,即物体之间的关系以及代理与目标之间的关系。一方面,我们设计了存储物体之间的相对水平位置的对象水平关系图(OHRG)。请注意,垂直关系不涉及OHRG,我们认为OHRG适合控制策略。另一方面,我们提出了代理 - 目标深度关系图(ATDRG),使代理能够将距离视为目标的距离。为了实现ATDRG,我们利用图像深度来表示距离。鉴于上述关系,代理可以察觉到环境和输出导航操作。鉴于ACRG和位置编码的全局功能构造的可视表示,代理可以捕获目标位置以执行导航操作。人工环境中的实验结果AI2-Thor表明ACRG显着优于看不见的检测环境中的其他最先进的方法。
translated by 谷歌翻译
经常性神经网络语言模型(RNNLMS)的高存储器消耗和计算成本限制了它们对资源受限设备的更广泛的应用。近年来,能够产生极低比特压缩的神经网络量化技术,例如二值化的RNNLMS正在获得增加的研究兴趣。直接培训量化神经网络是困难的。通过将量化的RNNLMS培训作为优化问题的制定,使用乘法器(ADMM)的交替方向方法从头开始训练量化RNNLMS的新方法。使用捆绑的低比特量化表,此方法还可以灵活地调整压缩率和模型性能之间的权衡。两项任务的实验:Penn TreeBank(PTB)和交换机(SWBD)建议所提出的ADMM量化在全精密基线RNNLMS上实现了高达31次的模型尺寸压缩因子。还获得了在基线二值化RNNLM量化上模型训练中的5倍的更快收敛性。索引项:语言模型,经常性神经网络,量化,乘法器的交替方向方法。
translated by 谷歌翻译