基于深度学习的图像质量评估(IQA)模型通常会学会从单个数据集中预测图像质量,从而导致该模型过度适合特定的场景。为此,混合的数据集培训可以是增强模型概括能力的有效方法。但是,将不同的iQA数据集组合在一起是无聊的,因为它们的质量评估标准,评分范围,视图条件以及在图像质量注释期间通常不共享主题。在本文中,我们没有对注释对准注释,而是为IQA模型学习提供了一个单调的神经网络,其中包括不同的数据集。特别是,我们的模型由数据集共享的质量回归器和几个特定于数据集的质量变压器组成。质量回归器旨在获得每个数据集的感知质量,而每个质量变压器则将感知质量映射到相应的数据集注释及其单调性。实验结果验证了提出的学习策略的有效性,我们的代码可在https://github.com/fzp0424/monotoniciqa上获得。
translated by 谷歌翻译
最近,深度加固学习(RL)在机器人操作应用中表现出了一些令人印象深刻的成功。但是,由于样本效率和安全性问题,现实世界中的培训机器人是不平凡的。提出了SIM到现实的转移来解决上述问题,但引入了一个名为“现实差距”的新问题。在这项工作中,我们通过使用单个摄像头的输入来解决上述问题,为基于视觉的组装任务引入SIM模型学习框架,并在模拟环境中进行培训。我们提出了一种基于循环一致的生成对抗网络(CycleGAN)和力量控制转移方法来弥合现实差距的域适应方法。我们证明,在模拟环境中训练有训练的拟议框架可以成功地转移到真实的孔洞设置中。
translated by 谷歌翻译
在现代制造环境中,对接触式任务的需求正在迅速增长。但是,很少有传统的机器人组装技能考虑任务执行过程中的环境限制,并且大多数人将这些限制作为终止条件。在这项研究中,我们提出了基于推动的混合位置/力组装技能,该技能可以在任务执行过程中最大化环境限制。据我们所知,这是在执行程序集任务期间使用推动操作考虑的第一项工作。我们已经证明,我们的技能可以使用移动操纵器系统组装任务实验最大化环境约束的利用,并在执行中实现100 \%的成功率。
translated by 谷歌翻译
我们提出了一个新颖的圆锥视觉探针仪框架,称为PVO,以对场景的运动,几何形状和泛型分割信息进行更全面的建模。 PVO在统一的视图中模拟视觉探光仪(VO)和视频全景分割(VPS),从而使这两个任务能够相互促进。具体来说,我们将一个泛型更新模块引入VO模块,该模块在图像泛型分段上运行。该泛型增强的VO模块可以通过调整优化的相机姿势的权重来修剪相机姿势估计中动态对象的干扰。另一方面,使用摄像头姿势,深度和光流,通过将当前帧的圆形分割结果融合到相邻框架中,从而提高了VO-增强VPS模块,从而提高了分割精度。模块。这两个模块通过反复的迭代优化互相贡献。广泛的实验表明,PVO在视觉景观和视频综合分割任务中的最先进方法均优于最先进的方法。代码和数据可在项目网页上找到:\ urlstyle {tt} \ textColor {url_color} {\ url {https://zju3dv.github.io/pvo/pvo/}}}。
translated by 谷歌翻译
我们研究了强化学习(RL)中的策略扩展值函数近似器(PEVFA),其扩展了传统的价值函数近似器(VFA),不仅将输入的输入(和动作)而且是一个显式策略表示。这样的扩展使PEVFA能够同时保留多个策略的值,并带来吸引人的特性,即\ \ emph {策略之间的值泛化}。我们正式分析了广义政策迭代(GPI)下的价值概括。从理论和经验镜头来看,PEVFA提供的广义值估计值可能对连续策略的真实值较低的初始近似误差,这预计将在GPI期间提高连续值近似。基于上述线索,我们介绍了一种新的GPI形式,PEVFA,利用了政策改进路径的价值泛化。此外,我们向RL策略提出了一个表示学习框架,提供了从策略网络参数或状态操作对中学习有效策略嵌入的几种方法。在我们的实验中,我们评估了PEVFA和政策代表学习在几个Openai健身房连续控制任务中提供的价值概括的效果。对于算法实现的代表性实例,在GPI的GPI范式下重新实现的近端策略优化(PPO)在大多数环境中对其VANILLA对应物的绩效改进约为40 \%。
translated by 谷歌翻译
This paper proposes a deep recurrent Rotation Averaging Graph Optimizer (RAGO) for Multiple Rotation Averaging (MRA). Conventional optimization-based methods usually fail to produce accurate results due to corrupted and noisy relative measurements. Recent learning-based approaches regard MRA as a regression problem, while these methods are sensitive to initialization due to the gauge freedom problem. To handle these problems, we propose a learnable iterative graph optimizer minimizing a gauge-invariant cost function with an edge rectification strategy to mitigate the effect of inaccurate measurements. Our graph optimizer iteratively refines the global camera rotations by minimizing each node's single rotation objective function. Besides, our approach iteratively rectifies relative rotations to make them more consistent with the current camera orientations and observed relative rotations. Furthermore, we employ a gated recurrent unit to improve the result by tracing the temporal information of the cost graph. Our framework is a real-time learning-to-optimize rotation averaging graph optimizer with a tiny size deployed for real-world applications. RAGO outperforms previous traditional and deep methods on real-world and synthetic datasets. The code is available at https://github.com/sfu-gruvi-3dv/RAGO
translated by 谷歌翻译
In this paper, we are interested in learning a generalizable person re-identification (re-ID) representation from unlabeled videos. Compared with 1) the popular unsupervised re-ID setting where the training and test sets are typically under the same domain, and 2) the popular domain generalization (DG) re-ID setting where the training samples are labeled, our novel scenario combines their key challenges: the training samples are unlabeled, and collected form various domains which do no align with the test domain. In other words, we aim to learn a representation in an unsupervised manner and directly use the learned representation for re-ID in novel domains. To fulfill this goal, we make two main contributions: First, we propose Cycle Association (CycAs), a scalable self-supervised learning method for re-ID with low training complexity; and second, we construct a large-scale unlabeled re-ID dataset named LMP-video, tailored for the proposed method. Specifically, CycAs learns re-ID features by enforcing cycle consistency of instance association between temporally successive video frame pairs, and the training cost is merely linear to the data size, making large-scale training possible. On the other hand, the LMP-video dataset is extremely large, containing 50 million unlabeled person images cropped from over 10K Youtube videos, therefore is sufficient to serve as fertile soil for self-supervised learning. Trained on LMP-video, we show that CycAs learns good generalization towards novel domains. The achieved results sometimes even outperform supervised domain generalizable models. Remarkably, CycAs achieves 82.2% Rank-1 on Market-1501 and 49.0% Rank-1 on MSMT17 with zero human annotation, surpassing state-of-the-art supervised DG re-ID methods. Moreover, we also demonstrate the superiority of CycAs under the canonical unsupervised re-ID and the pretrain-and-finetune scenarios.
translated by 谷歌翻译
轻巧的飞行时间(TOF)深度传感器很小,便宜,低能量,并且已在移动设备上大量部署在移动设备上,以进行自动对焦,障碍物检测等。但是,由于其特定的测量值(深度分布)在某个像素时的区域而不是深度值,并且分辨率极低,它们不足以用于需要高保真深度(例如3D重建)的应用。在本文中,我们提出了Deltar,这是一种新颖的方法,可以通过与颜色图像合作来赋予高分辨率和准确深度的能力。作为Deltar的核心,提出了一种用于深度分布的特征提取器,并提出了基于注意力的神经体系结构,以有效地从颜色和TOF域中融合信息。为了在现实世界中评估我们的系统,我们设计了一个数据收集设备,并提出了一种校准RGB摄像头和TOF传感器的新方法。实验表明,我们的方法比旨在使用商品级RGB-D传感器的PAR性能实现的现有框架比现有的框架产生更准确的深度。代码和数据可在https://zju3dv.github.io/deltar/上获得。
translated by 谷歌翻译
我们提出了一个我们命名肖像解释的任务,并为其构建一个名为Portrait250k的数据集。当前关于人类属性认可和人重新识别等肖像的研究取得了许多成功,但通常,它们:1)可能缺乏各种任务与可能带来的可能利益之间的相互关系; 2)专门为每个任务设计的深层模型,这效率低下; 3)可能无法满足统一模型的需求和实际场景中的全面感知。在本文中,拟议的肖像解释从新的系统角度认识到人类的感知。我们将肖像的感知分为三个方面,即外观,姿势和情感,以及设计相应的子任务。基于多任务学习的框架,肖像解释需要对静态属性和肖像的动态状态进行全面描述。为了激发有关这项新任务的研究,我们构建了一个新数据集,其中包含25万张图像,上面标有身份,性别,年龄,体质,身高,表达和整个身体和手臂的姿势。我们的数据集是从51部电影中收集的,因此涵盖了广泛的多样性。此外,我们专注于表示肖像解释的表示,并提出了反映我们系统观点的基线。我们还为此任务提出了适当的指标。我们的实验结果表明,结合与肖像解释有关的任务可以产生好处。代码和数据集将公开。
translated by 谷歌翻译
最近,神经隐式渲染技术已经迅速发展,并在新型视图合成和3D场景重建中显示出很大的优势。但是,用于编辑目的的现有神经渲染方法提供了有限的功能,例如刚性转换,或不适用于日常生活中的一般物体的细粒度编辑。在本文中,我们通过编码神经隐性字段,并在网格顶点上编码神经隐式字段,并在网格顶点上编码纹理代码,从而促进了一组编辑功能,包括网格引导的几何形状编辑,指定的纹理编辑,纹理交换,纹理交换,,纹理交换,,纹理编辑,,纹理编辑,,纹理编辑,,纹理编辑,,纹理编辑,,纹理编辑,,纹理编辑,,纹理编辑。填充和绘画操作。为此,我们开发了几种技术,包括可学习的符号指标,以扩大基于网格的表示,蒸馏和微调机制的空间区分性,以稳定地收敛,以及空间感知的优化策略,以实现精确的纹理编辑。关于真实和合成数据的广泛实验和编辑示例都证明了我们方法在表示质量和编辑能力上的优越性。代码可在项目网页上找到:https://zju3dv.github.io/neumesh/。
translated by 谷歌翻译