了解来自第一人称观点的社交互动对于许多应用来说至关重要,从辅助机器人到AR / VR。谈论相互作用的第一步是理解人类的姿势和形状。但是,该领域的研究目前受到数据缺乏的阻碍。现有数据集根据大小,注释,地面真实捕获方式或相互作用的多样性有限。我们通过提出EGOBODY来解决这一缺点,这是一个用于复杂3D场景中的社交交互的新型大规模数据集。我们采用Microsoft Hololens2耳机来记录富裕的EGEntric数据流(包括RGB,深度,眼睛凝视,头部和手动跟踪)。为了获得准确的3D地面真理,我们将耳机用多kinect钻机校准并配合富有呈现的SMPL-X体网格到多视图RGB-D帧,重建3D人类姿势和相对于场景的形状。我们收集68个序列,跨越不同的社会学互动类别,并提出了从自我监视视图的3D全体姿态和形状估计的第一个基准。我们的数据集和代码将在https://sanweiliti.github.io/egobody/egobody.html中进行研究。
translated by 谷歌翻译
以准确的,稳健和快速的方式拟合人体,手或面对稀疏输入信号的参数模型,这具有重要的是在AR和VR场景中显着改善浸入。解决这些问题的系统中的一个常见的第一步是直接从输入数据重新分配参数模型的参数。这种方法是快速,稳健的,并且是迭代最小化算法的良好起点。后者搜索最小的能量函数,通常由编码关于问题的结构的知识的数据项和前沿组成。虽然这无疑是一个非常成功的食谱,但前锋往往是手工定义的启发式,发现不同术语之间的正确平衡,以实现高质量的结果是一个非琐碎的任务。此外,转换和优化这些系统以表现方式运行,需要定制实现,要求从工程师和域专家进行大量时间投资。在这项工作中,我们建立了近期学习优化的进步,并提出了由Classic Levenberg-Marquardt算法启发的更新规则。我们展示了所提出的神经优化器对从2D地标的头戴式装置和面部配件的3D体表估计问题的有效性。我们的方法可以很容易地应用于新的模型拟合问题,并提供竞争替代方案,在准确性和速度方面都提供了良好的调谐“传统”模型拟合管道。
translated by 谷歌翻译
具有注释的缺乏大规模的真实数据集使转移学习视频活动的必要性。我们的目标是为少数行动分类开发几次拍摄转移学习的有效方法。我们利用独立培训的本地视觉提示来学习可以从源域传输的表示,该源域只能使用少数示例来从源域传送到不同的目标域。我们使用的视觉提示包括对象 - 对象交互,手掌和地区内的动作,这些地区是手工位置的函数。我们采用了一个基于元学习的框架,以提取部署的视觉提示的独特和域不变组件。这使得能够在使用不同的场景和动作配置捕获的公共数据集中传输动作分类模型。我们呈现了我们转让学习方法的比较结果,并报告了阶级阶级和数据间数据间际传输的最先进的行动分类方法。
translated by 谷歌翻译
需要对连续随机过程的离散化进行数字地模拟它们或从实验时间序列推断模型。然而,根据过程的性质,如果不够准确,则相同的离散化方案可以对这两个任务非常不同。在任何规模上同样良好工作的精确离散化是在粗晶体下的不变性的特征。通过这种观察,我们为自动回归模型产生的高斯时间序列构建了一种明确的重整化组方法。我们表明RG固定点对应于线性SDE的离散化,并且仅以第一阶马尔可夫进程或非马尔可夫人的形式出现。这一事实提供了对重建部分观察到的噪声驱动系统的标准延迟矢量嵌入过程失败的原因的替代说明。我们还建议基于对爱因斯坦关系的开采部分观察到的受损均衡过程的可能有效的马尔可道离散化。
translated by 谷歌翻译