尽管机器学习在视觉对象跟踪的任务上进行了广泛采用,但最近基于学习的方法在很大程度上忽略了一个事实,即视觉跟踪是其本质上的序列级任务。他们在很大程度上依赖框架级训练,这不可避免地会导致数据分布和任务目标的培训和测试之间的不一致。这项工作介绍了基于强化学习的视觉跟踪序列训练策略,并讨论了数据采样,学习目标和数据增强的序列级设计如何提高跟踪算法的准确性和稳健性。我们对包括LASOT,TrackingNet和GoT-10K在内的标准基准测试的实验表明,四个代表性跟踪模型,SiamRPN ++,Siamattn,Transt和TRDIMP,通过在不修改建筑架构的情况下将提出的方法纳入训练中,从而不断改进。
translated by 谷歌翻译
我们为机器人素描剂提供了一个自动学习框架,该框架能够同时学习基于中风的渲染和运动控制。我们将机器人的草图问题提出为深度分离的分层增强学习;独立学习了基于中风的渲染和电动机控制的两种政策,以实现绘画的子任务,并在合作进行现实世界绘图时形成层次结构。没有手工制作的特征,绘制序列或轨迹以及逆运动学,该方法将从刮擦上训练机器人素描剂。我们用带有2F抓手的6多机器人臂进行了实验,以素描涂鸦。我们的实验结果表明,这两个策略成功地学习了子任务并合作绘制目标图像。此外,通过不同的绘图工具和表面来检查鲁棒性和灵活性。
translated by 谷歌翻译
与手语识别(SLR)相比,手语翻译(SLT)是一项尚未相对较多研究的任务。但是,SLR是一项认识到手语的独特语法的研究,该语言与口语不同,并且存在一个非障碍者无法轻易解释的问题。因此,我们将解决在手语视频中直接翻译口语的问题。为此,我们提出了一种基于签名者的骨架点执行翻译的新关键标准化方法,并在手语翻译中稳健地将这些点标准化。根据身体部位的不同,它通过定制的标准化方法有助于提高性能。此外,我们提出了一种随机框架选择方法,该方法可以同时实现框架增强和采样。最后,通过基于注意力的翻译模型将其转化为口语。我们的方法可以应用于可以无光泽的数据集应用于数据集的各种数据集。此外,定量实验评估证明了我们方法的卓越性。
translated by 谷歌翻译
对图形卷积网络(GCN)的兴趣激增,已经产生了数千种GCN变体,每年引入数百种。相比之下,许多GCN模型仅重复使用少数基准数据集,因为人们的兴趣图(例如社交或商业网络)都是专有的。我们提出了一个新的图生成问题,以使源图分布之后,为GCN生成各种基准图(可能是专有的),具有三个要求:1)基准有效性作为GCN研究源图的替代品, 2)可扩展性处理大型现实图形,以及3)最终用户的隐私保证。借助新的图形编码方案,我们将大规模的图生成问题重新构架为中长长序列生成问题,并将变压器体系结构的强生成功率应用于图形域。跨大量图生成模型进行的广泛实验表明,我们的模型可以成功生成基准图,并具有实际的图形结构,节点属性和基准GCNS在节点分类任务上所需的节点标签。
translated by 谷歌翻译
从社会或商业平台等工业生态系统连续发出的数据通常表示为由多种节点/边缘类型组成的异质图(HG)。使用称为异质图神经网络(HGNN)的HGS的最先进的图形学习方法用于学习深层上下文信息形式表示。但是,来自工业应用程序的许多HG数据集都遭受节点类型之间的标签失衡。由于没有直接学习使用扎根于不同节点类型的标签的直接方法,因此HGNN仅应用于具有丰富标签的几个节点类型。我们为HGNN提出了一个称为知识转移网络(KTN)的零射击传输学习模块,该模块通过HG中给出的丰富关系信息将知识从标签的源节点类型转移到零标记的节点类型。 KTN源自我们在这项工作中引入的理论关系,在HGNN模型中给出的每个节点类型的不同特征提取器之间。 KTN将6种不同类型的HGNN模型的性能提高了960%,以推断零标记的节点类型,并且在HGS上的18个不同的转移学习任务中,最高的最先进的转移学习基线胜过最高的最高转移学习基线。
translated by 谷歌翻译
多图像超分辨率旨在融合和恢复同一位置的多个图像的高分辨率图像,对于利用卫星图像至关重要。卫星图像通常会被诸如云等大气干扰所阻断,而干扰的位置随图像而变化。提出了许多辐射方法和几何方法来检测大气干扰。尽管如此,对检测结果的利用,即深度学习中的质量图仅限于预处理或计算损失。在本文中,我们提出了与地图相关的质量相关的注意网络(QA-NET),该网络首次将QMS完全融合到深度学习方案中。我们提议的注意模块与低分辨率图像一起处理QMS,并利用QM功能来区分干扰并注意图像功能。结果,QA-NET在Proba-V数据集中实现了最先进的结果。
translated by 谷歌翻译
我们提出了一个新型的多体动力学仿真框架,该框架可以有效地处理较大的维度和互补性多接触条件。典型的接触模拟方法执行接触式脉冲级的固定点迭代(IL-FPI),该迭代具有高度的矩阵反转和乘法以及对不良条件接触情况的敏感性。为了避免这种情况,我们提出了一个基于速​​度级固定点迭代(VL-FPI)的新颖框架,该迭代通过利用特定的替代动力学和接触淋巴结(带有虚拟节点),它不仅可以实现互联网脱钩,而且可以实现他们的轴间轴解耦合(即接触对角线化)。然后,这使我们能够在每个VL-FPI迭代环过程中单次/并行解决接触问题,而替代动态结构使我们能够规避大型/密度矩阵反转/乘法,从而显着加快了仿真的加快。有改进的收敛属性的时间。从理论上讲,我们的框架解决方案与原始问题的解决方案是一致的,进一步阐明了我们提出的求解器收敛的数学条件。我们提出的仿真框架的性能和性能也得到了证明,并针对包括可变形物体在内的各种大维/多接触场景进行了实验验证。
translated by 谷歌翻译
The 3D-aware image synthesis focuses on conserving spatial consistency besides generating high-resolution images with fine details. Recently, Neural Radiance Field (NeRF) has been introduced for synthesizing novel views with low computational cost and superior performance. While several works investigate a generative NeRF and show remarkable achievement, they cannot handle conditional and continuous feature manipulation in the generation procedure. In this work, we introduce a novel model, called Class-Continuous Conditional Generative NeRF ($\text{C}^{3}$G-NeRF), which can synthesize conditionally manipulated photorealistic 3D-consistent images by projecting conditional features to the generator and the discriminator. The proposed $\text{C}^{3}$G-NeRF is evaluated with three image datasets, AFHQ, CelebA, and Cars. As a result, our model shows strong 3D-consistency with fine details and smooth interpolation in conditional feature manipulation. For instance, $\text{C}^{3}$G-NeRF exhibits a Fr\'echet Inception Distance (FID) of 7.64 in 3D-aware face image synthesis with a $\text{128}^{2}$ resolution. Additionally, we provide FIDs of generated 3D-aware images of each class of the datasets as it is possible to synthesize class-conditional images with $\text{C}^{3}$G-NeRF.
translated by 谷歌翻译
In both terrestrial and marine ecology, physical tagging is a frequently used method to study population dynamics and behavior. However, such tagging techniques are increasingly being replaced by individual re-identification using image analysis. This paper introduces a contrastive learning-based model for identifying individuals. The model uses the first parts of the Inception v3 network, supported by a projection head, and we use contrastive learning to find similar or dissimilar image pairs from a collection of uniform photographs. We apply this technique for corkwing wrasse, Symphodus melops, an ecologically and commercially important fish species. Photos are taken during repeated catches of the same individuals from a wild population, where the intervals between individual sightings might range from a few days to several years. Our model achieves a one-shot accuracy of 0.35, a 5-shot accuracy of 0.56, and a 100-shot accuracy of 0.88, on our dataset.
translated by 谷歌翻译
Feature selection helps reduce data acquisition costs in ML, but the standard approach is to train models with static feature subsets. Here, we consider the dynamic feature selection (DFS) problem where a model sequentially queries features based on the presently available information. DFS is often addressed with reinforcement learning (RL), but we explore a simpler approach of greedily selecting features based on their conditional mutual information. This method is theoretically appealing but requires oracle access to the data distribution, so we develop a learning approach based on amortized optimization. The proposed method is shown to recover the greedy policy when trained to optimality and outperforms numerous existing feature selection methods in our experiments, thus validating it as a simple but powerful approach for this problem.
translated by 谷歌翻译