对于许多技术领域的专业用户,例如医学,遥感,精密工程和科学研究,无损和近乎无情的图像压缩至关重要。但是,尽管在基于学习的图像压缩方面的研究兴趣迅速增长,但没有发表的方法提供无损和近乎无情的模式。在本文中,我们提出了一个统一而强大的深层损失加上残留(DLPR)编码框架,以实现无损和近乎无情的图像压缩。在无损模式下,DLPR编码系统首先执行有损压缩,然后执行残差的无损编码。我们在VAE的方法中解决了关节损失和残留压缩问题,并添加残差的自回归上下文模型以增强无损压缩性能。在近乎荒谬的模式下,我们量化了原始残差以满足给定的$ \ ell_ \ infty $错误绑定,并提出了可扩展的近乎无情的压缩方案,该方案适用于可变$ \ ell_ \ infty $ bunds而不是训练多个网络。为了加快DLPR编码,我们通过新颖的编码环境设计提高了算法并行化的程度,并以自适应残留间隔加速熵编码。实验结果表明,DLPR编码系统以竞争性的编码速度实现了最先进的无损和近乎无效的图像压缩性能。
translated by 谷歌翻译
基于视觉的机器人组装是一项至关重要但具有挑战性的任务,因为与多个对象的相互作用需要高水平的精度。在本文中,我们提出了一个集成的6D机器人系统,以感知,掌握,操纵和组装宽度,以紧密的公差。为了提供仅在现成的RGB解决方案的情况下,我们的系统建立在单眼6D对象姿势估计网络上,该估计网络仅使用合成图像训练,该图像利用了基于物理的渲染。随后,提出了姿势引导的6D转换以及无碰撞组装来构建具有任意初始姿势的任何设计结构。我们的新型3轴校准操作通过解开6D姿势估计和机器人组件进一步提高了精度和鲁棒性。定量和定性结果都证明了我们提出的6D机器人组装系统的有效性。
translated by 谷歌翻译
类别级别的姿势估计是由于类内形状变化而导致的一个具有挑战性的问题。最近的方法变形了预计的形状先验,将观察到的点云映射到归一化对象坐标空间中,然后通过后处理(即Umeyama的算法)检索姿势。这种两阶段策略的缺点在于两个方面:1)中间结果的替代监督无法直接指导姿势的学习,从而导致后期处理后造成了较大的姿势错误。 2)推理速度受后处理步骤的限制。在本文中,为了处理这些缺点,我们为类别级别的姿势估计提出了一个可端到端的可训练网络SSP置换,该网络将Shape Priors整合到直接的姿势回归网络中。 SSP置位堆栈在共享特征提取器上的四个单独分支,其中两个分支旨在变形和匹配先前的模型与观察到的实例,并应用了其他两个分支,以直接回归完全9度的自由度姿势和分别执行对称性重建和点对上的掩码预测。然后,自然利用一致性损失项,以对齐不同分支的产出并促进性能。在推断期间,仅需要直接姿势回归分支。通过这种方式,SSP置态不仅学习类别级别的姿势敏感特征以提高性能,而且还可以保持实时推理速度。此外,我们利用每个类别的对称信息来指导形状事先变形,并提出一种新颖的对称性损失来减轻匹配的歧义。公共数据集的广泛实验表明,与竞争对手相比,SSP置孔在约25Hz的实时推理速度中产生了出色的性能。
translated by 谷歌翻译
类别级的对象姿势估计旨在预测已知类别集的任意对象的6D姿势以及3D度量大小。最近的方法利用了先验改编的形状,以将观察到的点云映射到规范空间中,并应用Umeyama算法以恢复姿势和大小。然而,它们的形状先验整合策略间接增强了姿势估计,从而导致姿势敏感的特征提取和推理速度缓慢。为了解决这个问题,在本文中,我们提出了一个新颖的几何形状引导的残留对象边界框投影网络RBP置rbp置置,该框架共同预测对象的姿势和残留的矢量,描述了从形状优先指示的对象表面投影中的位移迈向真实的表面投影。残留矢量的这种定义本质上是零均值且相对较小,并且明确封装了3D对象的空间提示,以进行稳健和准确的姿势回归。我们强制执行几何学意识的一致性项,以使预测的姿势和残留向量对齐以进一步提高性能。
translated by 谷歌翻译
虽然最近出现了类别级的9DOF对象姿势估计,但由于较大的对象形状和颜色等类别内差异,因此,先前基于对应的或直接回归方法的准确性均受到限制。 - 级别的物体姿势和尺寸炼油机Catre,能够迭代地增强点云的姿势估计以产生准确的结果。鉴于初始姿势估计,Catre通过对齐部分观察到的点云和先验的抽象形状来预测初始姿势和地面真理之间的相对转换。具体而言,我们提出了一种新颖的分离体系结构,以了解旋转与翻译/大小估计之间的固有区别。广泛的实验表明,我们的方法在REAL275,Camera25和LM基准测试中的最先进方法高达〜85.32Hz,并在类别级别跟踪上取得了竞争成果。我们进一步证明,Catre可以对看不见的类别进行姿势改进。可以使用代码和训练有素的型号。
translated by 谷歌翻译
深度神经网络的成功在很大程度上取决于大量高质量注释的数据的可用性,但是这些数据很难或昂贵。由此产生的标签可能是类别不平衡,嘈杂或人类偏见。从不完美注释的数据集中学习无偏分类模型是一项挑战,我们通常会遭受过度拟合或不足的折磨。在这项工作中,我们彻底研究了流行的软马克斯损失和基于保证金的损失,并提供了一种可行的方法来加强通过最大化最小样本余量来限制的概括误差。我们为此目的进一步得出了最佳条件,该条件指示了类原型应锚定的方式。通过理论分析的激励,我们提出了一种简单但有效的方法,即原型锚定学习(PAL),可以轻松地将其纳入各种基于学习的分类方案中以处理不完美的注释。我们通过对合成和现实世界数据集进行广泛的实验来验证PAL对班级不平衡学习和降低噪声学习的有效性。
translated by 谷歌翻译
基于深度学习的分类中特征表示的主要挑战之一是设计表现出强大歧视力的适当损失功能。经典的SoftMax损失并不能明确鼓励对特征的歧视性学习。研究的一个流行方向是将边缘纳入良好的损失中,以实施额外的课内紧凑性和阶层间的可分离性,但是,这是通过启发式手段而不是严格的数学原则来开发的。在这项工作中,我们试图通过将原则优化目标提出为最大的利润率来解决这一限制。具体而言,我们首先将类别的边缘定义为级别间的可分离性的度量,而样品边缘是级别的紧凑性的度量。因此,为了鼓励特征的歧视性表示,损失函数应促进类和样品的最大可能边缘。此外,我们得出了广义的保证金软损失,以得出现有基于边缘的损失的一般结论。这个原则性的框架不仅提供了新的观点来理解和解释现有的基于保证金的损失,而且还提供了新的见解,可以指导新工具的设计,包括样本保证金正则化和最大的平衡案例的最大保证金损失,和零中心的正则化案例。实验结果证明了我们的策略对各种任务的有效性,包括视觉分类,分类不平衡,重新识别和面部验证。
translated by 谷歌翻译
大规模数据集上的视觉语言预训练(VLP)在各种下游任务上表现出了首要性能。对于VLP来说,完整且公平的基准(即包括大规模的预训练数据集和各种下游任务)是必不可少的。尽管有很多具有英语语料库的基准,但使用其他语言(例如中文)为VLP建立丰富的基准是一个关键问题。为此,我们为研究界建立了一个称为零的中国跨模式基准,以比较VLP模型。我们发布两个用于下游任务的预训练数据集和五个微调数据集。旁边,我们提出了一个新的预训练前训练框架,用于跨模式学习。具体而言,我们应用全局对比度预级分别学习图像和文本的各个表示。然后,我们通过图像文本交叉编码器和文本图像交叉编码器以细粒度的排名方式融合表示形式。为了进一步增强模型的能力,我们提出了一种由目标引导的蒸馏和特征引导的蒸馏组成的双向蒸馏策略。对于简洁起见,我们将型号r2d2命名。我们在四个公共跨模式数据集和拟议的五个下游数据集上实现最先进的性能。在Flickr30k-CN,可可-CN和Muge进行零射击任务时,与最平均召回的R2D2进行了2.5亿个数据集的R2D2,在2.5亿个数据集中进行了4.7%,5.4%和6.3%的均值改善,而与最新的召回相比艺术。数据集,模型和代码可在https://github.com/yuxie11/r2d2上找到
translated by 谷歌翻译
本文为表格马尔可夫决策过程(MDP)提供了第一种多项式时间算法,该算法享受了遗憾的界限\ emph {独立于计划范围}。具体来说,我们考虑具有$ S $州的表格MDP,$ A $ ACTICY,计划范围$ h $,总奖励为$ 1 $,代理商播放$ K $ evipodes。我们设计了一种实现$ o \ left(\ mathrm {poly}(s,a,a,\ log k)\ sqrt {k} \ right)$遗憾的算法(\ mathrm {poly}(s,a,a,\ log k)polylog}(h)$依赖项〜\ citep {zhang2020 reininforcement}或对$ s $〜\ citep {li2021settling}具有指数依赖关系。我们的结果依赖于一系列新的结构引理,从而建立了固定策略的近似能力,稳定性和浓度特性,这些策略可以在与马尔可夫链有关的其他问题中应用。
translated by 谷歌翻译
我们提出了一种与变压器的端到端图像压缩和分析模型,针对基于云的图像分类应用程序。代替将现有的变换器的图像分类模型直接放置在图像编解码器之后,我们的目的是重新设计视觉变换器(VIV)模型,以从压缩特征执行图像分类,并促进来自变压器的长期信息的图像压缩。具体而言,我们首先用由卷积神经网络建模的轻量级图像编码器更换vit模型的涂抹杆(即图像分裂和嵌入)。由图像编码器产生的压缩特征被注入卷积电感偏压,并被馈送到变压器,用于绕过图像重建。同时,我们提出了一种特征聚合模块,使压缩特征熔断具有变压器的所选中间特征,并将聚合特征馈送到用于图像重建的解卷积神经网络。聚合特征可以从变压器的自我关注机构获得长期信息,并提高压缩性能。速率 - 失真准确度优化问题最终通过两步培训策略解决。实验结果证明了所提出的模型在图像压缩和分类任务中的有效性。
translated by 谷歌翻译