我们提出了一种新颖的方法,可以将3D人类动画放入3D场景中,同时保持动画中的任何人类场景相互作用。我们使用计算动画中最重要的网格的概念,以与场景进行交互,我们称之为“键框”。这些关键框架使我们能够更好地优化动画在场景中的位置,从而使动画中的互动(站立,铺设,坐着等)与场景的负担相匹配(例如,站在地板上或躺在床上)。我们将我们称为PAAK的方法与先前的方法进行了比较,包括POSA,Prox地面真理和运动合成方法,并通过感知研究突出了我们方法的好处。人类评估者更喜欢我们的PAAK方法,而不是Prox地面真相数据64.6 \%。此外,在直接比较中,与POSA相比,评估者比竞争方法比包括61.5%的竞争方法更喜欢PAAK。
translated by 谷歌翻译
研究表明,自治车辆(AVS)在由人类驱动因素组成的交通环境中保守,不适应当地条件和社会文化规范。众所周知,如果存在理解人类驱动程序的行为,则可以设计社会意识的AVS。我们提出了一种利用机器学习来预测人类驱动程序的行为的方法。这类似于人类如何隐含地解释道路上司机的行为,只能观察其车辆的轨迹。我们使用图形理论工具从轨迹和机器学习中提取驾驶员行为特征,以在流量和驾驶员行为中获得车辆的提取轨迹之间的计算映射。与此域中的现有方法相比,我们证明我们的方法是强大的,一般的,并且可扩展到广泛的应用程序,如自主导航。我们评估我们在美国,印度,中国和新加坡捕获的现实世界交通数据集以及模拟中的方法。
translated by 谷歌翻译
我们提出了一种新方法,用于在使用机器人运动计划中使用技术的静态和动态场景中的重定向方法来计算转向用户在物理空间中的无碰撞路径上的重定向增益。我们的第一个贡献是使用来自运动规划和配置空间的概念重定向的数学框架。该框架突出了各种几何和感知的限制,倾向于使无碰撞重定向行走困难。我们使用我们的框架提出了一个有效的解决方案,以便重定向问题使用可见性多边形的概念来计算物理环境和虚拟环境中的自由空间。可见性多边形提供了可见的整个空间的简明表示,并且因此可以从环境内的位置到用户。使用可行性空间的表示,我们应用重定向步行以将用户转向物理环境中的可见性多边形区域,该区域与用户占据虚拟环境中的可见性多边形中的区域密切相关。我们表明我们的算法能够沿着路径转向用户,这些路径导致比静态和动态场景中的现有最先进的算法显着更少的重置。我们的项目网站可在https://gamma.umd.edu/vis_poly/提供。
translated by 谷歌翻译
我们提出了一种基于对齐的新型重定向步行控制器,允许用户探索大型和复杂的虚拟环境,同时最小化物理环境中的障碍物的碰撞次数。我们基于对齐的重定向控制器,弧形,使用户带动,使其对物理环境中的障碍物的邻近符合虚拟环境中的障碍物尽可能接近。为了在复杂环境中量化控制器的性能,我们引入了新的公制,复杂度(CR),以测量相对环境复杂性,并表征物理和虚拟环境之间的导航复杂性差异。通过广泛的仿真实验,我们表明电弧显着优于最新的最先进的控制器,其能够将用户转向无碰撞路径。我们还通过对具有许多障碍物的复杂环境中的具有稳健性的定量和定性措施来展示。我们的方法适用于任意环境,并且除了环境布局之外,没有任何用户输入或参数调整。我们在Oculus Quest头戴式显示器上实施了我们的算法,并在具有不同复杂性的环境中进行了评估其性能。我们的项目网站是在https://gamma.umd.edu/arc/提供的。
translated by 谷歌翻译
为了帮助现有的Telemental Mechanical服务,我们提出Deeptmh,这是一种通过提取对应于心理学文献经常使用的情感和认知特征的潜视和认知特征来模拟Telemental Mealth Session视频的新框架。我们的方法利用半监督学习的进步来解决Telemental Healts Sessience视频领域的数据稀缺,包括多模式半监督GaN,以检测Telemental卫生课程中的重要心理健康指标。我们展示了我们框架的有用性和与现有工作中的两项任务对比:参与回归和价值回归,这两者都对心理学家在眼药性健康会议期间对心理学家很重要。我们的框架报告了RMSE在参与回归中的RMSE方法的40%,并在价值唤醒回归中的SOTA方法中的50%改善。为了解决Telemental Health空间中公开的数据集的稀缺性,我们发布了一个新的数据集,Medica,用于心理健康患者参与检测。我们的数据集,Medica由1299个视频组成,每节3秒长。据我们所知,我们的方法是基于心理驱动的情感和认知功能来模拟Telemental Healts会话数据的第一种方法,这也通过利用半监督设置来解决数据稀疏性。
translated by 谷歌翻译
我们提出了一种新的广义零射算法,以识别来自手势的感知情绪。我们的任务是将手势映射到培训中未遇到的新颖情感类别。我们介绍了一个对抗的基于AutoEncoder的表示学习,将3D运动捕获的手势序列与使用Word2Vec嵌入的自然语言感知情绪术语的矢量化表示相关联。语言 - 语义嵌入提供了情感标签空间的表示,我们利用这种底层分布将手势序列映射到适当的分类情绪标签。我们使用具有已知情绪术语的手势组合培训我们的方法,并且没有用任何情绪注释的手势。我们在MPI情绪体表达式数据库(EBEDB)上评估我们的方法,并获得58.43 \%$的准确性。这提高了当前最先进的算法的性能,以便在绝对的25美元 - 27 \%$ 27 \%$ 27 \%。
translated by 谷歌翻译
Several self-supervised representation learning methods have been proposed for reinforcement learning (RL) with rich observations. For real-world applications of RL, recovering underlying latent states is crucial, particularly when sensory inputs contain irrelevant and exogenous information. In this work, we study how information bottlenecks can be used to construct latent states efficiently in the presence of task-irrelevant information. We propose architectures that utilize variational and discrete information bottlenecks, coined as RepDIB, to learn structured factorized representations. Exploiting the expressiveness bought by factorized representations, we introduce a simple, yet effective, bottleneck that can be integrated with any existing self-supervised objective for RL. We demonstrate this across several online and offline RL benchmarks, along with a real robot arm task, where we find that compressed representations with RepDIB can lead to strong performance improvements, as the learned bottlenecks help predict only the relevant state while ignoring irrelevant information.
translated by 谷歌翻译
We address the problem of few-shot classification where the goal is to learn a classifier from a limited set of samples. While data-driven learning is shown to be effective in various applications, learning from less data still remains challenging. To address this challenge, existing approaches consider various data augmentation techniques for increasing the number of training samples. Pseudo-labeling is commonly used in a few-shot setup, where approximate labels are estimated for a large set of unlabeled images. We propose DiffAlign which focuses on generating images from class labels. Specifically, we leverage the recent success of the generative models (e.g., DALL-E and diffusion models) that can generate realistic images from texts. However, naive learning on synthetic images is not adequate due to the domain gap between real and synthetic images. Thus, we employ a maximum mean discrepancy (MMD) loss to align the synthetic images to the real images minimizing the domain gap. We evaluate our method on the standard few-shot classification benchmarks: CIFAR-FS, FC100, miniImageNet, tieredImageNet and a cross-domain few-shot classification benchmark: miniImageNet to CUB. The proposed approach significantly outperforms the stateof-the-art in both 5-shot and 1-shot setups on these benchmarks. Our approach is also shown to be effective in the zero-shot classification setup
translated by 谷歌翻译
Soft actuators have attracted a great deal of interest in the context of rehabilitative and assistive robots for increasing safety and lowering costs as compared to rigid-body robotic systems. During actuation, soft actuators experience high levels of deformation, which can lead to microscale fractures in their elastomeric structure, which fatigues the system over time and eventually leads to macroscale damages and eventually failure. This paper reports finite element modeling (FEM) of pneu-nets at high angles, along with repetitive experimentation at high deformation rates, in order to study the effect and behavior of fatigue in soft robotic actuators, which would result in deviation from the ideal behavior. Comparing the FEM model and experimental data, we show that FEM can model the performance of the actuator before fatigue to a bending angle of 167 degrees with ~96% accuracy. We also show that the FEM model performance will drop to 80% due to fatigue after repetitive high-angle bending. The results of this paper objectively highlight the emergence of fatigue over cyclic activation of the system and the resulting deviation from the computational FEM model. Such behavior can be considered in future controllers to adapt the system with time-variable and non-autonomous response dynamics of soft robots.
translated by 谷歌翻译
近年来,多任务学习在各种应用程序中都取得了巨大的成功。尽管这些年来,单个模型培训已承诺取得出色的成果,但它忽略了有价值的信息,这些信息可能有助于我们更好地估计一个指标。在与学习相关的任务下,多任务学习能够更好地概括模型。我们试图通过在相关任务和归纳转移学习之间共享功能来增强多任务模型的功能映射。此外,我们的兴趣是学习各种任务之间的任务关系,以从多任务学习中获得更好的收益。在本章中,我们的目标是可视化现有的多任务模型,比较其性能,用于评估多任务模型性能的方法,讨论在各个领域的设计和实施过程中所面临的问题,以及他们实现的优势和里程碑
translated by 谷歌翻译