Current Virtual Reality (VR) environments lack the rich haptic signals that humans experience during real-life interactions, such as the sensation of texture during lateral movement on a surface. Adding realistic haptic textures to VR environments requires a model that generalizes to variations of a user's interaction and to the wide variety of existing textures in the world. Current methodologies for haptic texture rendering exist, but they usually develop one model per texture, resulting in low scalability. We present a deep learning-based action-conditional model for haptic texture rendering and evaluate its perceptual performance in rendering realistic texture vibrations through a multi part human user study. This model is unified over all materials and uses data from a vision-based tactile sensor (GelSight) to render the appropriate surface conditioned on the user's action in real time. For rendering texture, we use a high-bandwidth vibrotactile transducer attached to a 3D Systems Touch device. The result of our user study shows that our learning-based method creates high-frequency texture renderings with comparable or better quality than state-of-the-art methods without the need for learning a separate model per texture. Furthermore, we show that the method is capable of rendering previously unseen textures using a single GelSight image of their surface.
translated by 谷歌翻译
人类可以利用身体互动来教机器人武器。当人类的动力学通过示范引导机器人时,机器人学习了所需的任务。尽管先前的工作重点是机器人学习方式,但对于人类老师来说,了解其机器人正在学习的内容同样重要。视觉显示可以传达此信息;但是,我们假设仅视觉反馈就错过了人与机器人之间的物理联系。在本文中,我们介绍了一类新颖的软触觉显示器,这些显示器包裹在机器人臂上,添加信号而不会影响相互作用。我们首先设计一个气动驱动阵列,该阵列在安装方面保持灵活。然后,我们开发了这种包裹的触觉显示的单一和多维版本,并在心理物理测试和机器人学习过程中探索了人类对渲染信号的看法。我们最终发现,人们以11.4%的韦伯(Weber)分数准确区分单维反馈,并以94.5%的精度确定多维反馈。当物理教授机器人臂时,人类利用单维反馈来提供比视觉反馈更好的演示:我们包装的触觉显示会降低教学时间,同时提高演示质量。这种改进取决于包裹的触觉显示的位置和分布。您可以在此处查看我们的设备和实验的视频:https://youtu.be/ypcmgeqsjdm
translated by 谷歌翻译
将触觉反馈从指尖转移到手腕上的重新定位被认为是使与混合现实虚拟环境的触觉相互作用的一种方式,同时使手指免费完成其他任务。我们介绍了一对腕触觉触觉设备以及一个虚拟环境,以研究手指和触觉者之间的各种映射如何影响任务性能。腕部呈现的触觉反馈反映了由食指和拇指控制的虚拟物体和虚拟化头像之间发生的相互作用。我们进行了一项用户研究,比较了四个不同的手指触觉反馈映射和一个无反馈条件作为对照。我们评估了用户通过任务完成时间的指标,手指和虚拟立方体的路径长度以及在指尖处的正常和剪切力的大小来评估了用户执行简单的选择任务的能力。我们发现多次映射是有效的,并且当视觉提示受到限制时会产生更大的影响。我们讨论了方法的局限性,并描述了朝着腕部磨损设备进行多重自由度触觉渲染的下一步步骤,以改善虚拟环境中的任务性能。
translated by 谷歌翻译
机器人辅助的微创手术(RMI)缺乏触觉反馈是在手术过程中安全组织处理的潜在障碍。贝叶斯建模理论表明,与没有经验的外科医生相比,在RMIS期间,具有开放或腹腔镜手术经验的外科医生可以发展为组织刚度的先验。为了测试先前的触觉经验是否导致远程操作的力估计能力提高,将33名参与者分配到三个训练条件之一:手动操纵,用力反馈的远程操作或无力反馈的远程操作,并学会了将硅胶样品张紧到一套力值。然后,他们被要求执行张力任务,以及先前未经触觉的任务,而无需反馈而在远程操作下进行不同的力量值。与远程操作组相比,手动组在训练的力量范围之外的张力任务中具有较高的力误差,但在低力水平下,在触诊任务中显示出更好的速度准确性功能。这表明训练方式的动力学会影响远程操作过程中的力估计能力,如果在与任务相同的动态下形成,则可以访问先前的触觉体验。
translated by 谷歌翻译
随着消费者显示和商业VR平台的兴起,虚拟现实(VR)变得无处不在。这样的显示器需要低潜伏期和高质量的合成成像,并减少了计算开销。神经渲染的最新进展显示出通过虚拟或物理环境的基于图像的表示,可以在3D计算机图形中解锁新的可能性。具体而言,神经辐射场(NERF)表明,可以实现光真逼真的质量和连续的3D场景变化,而不会丧失依赖观点的效果。尽管NERF可以显着利益VR应用程序的渲染,但它面临着高度视野,高分辨率和立体/中心观看的独特挑战,通常会导致渲染图像的低质量和高潜伏期。在VR中,这不仅会损害互动经历,还可能引起疾病。为了解决VR中的六级自由主义者和立体声的问题,我们介绍了第一个注视 - 矛盾的3D神经表示和视图合成方法。我们将视觉和立体声音的人类心理物理学融入了3D风景的以自我为中心的神经表示中。然后,我们共同优化了延迟/性能和视觉质量,同时相互弥合人类的感知和神经场景合成以实现感知高质量的沉浸式相互作用。我们进行了客观分析和主观研究,以评估方法的有效性。我们发现,我们的方法显着降低了潜伏期(与NERF相比,时间降低了99%),而不会损失高保真渲染(感知上与完整的地面真相相同)。提出的方法可以作为迈向未来VR/AR系统的第一步,该系统可实时捕获,传送和可视化远程环境。
translated by 谷歌翻译
VirtualCube系统是一个尝试克服传统技术的一些限制的3D视频会议系统。关键的成分是VirtualCube,一种用RGBD摄像机录制的现实世界隔间的抽象表示,用于捕获用户的3D几何和纹理。我们设计VirtualCube,以便数据捕获的任务是标准化和显着简化的,并且所有内容都可以使用现成的硬件构建。我们将VirtualCubes用作虚拟会议环境的基本构建块,我们为每个VirtualCube用户提供一个周围的显示,显示远程参与者的寿命型视频。为了实现远程参与者的实时渲染,我们开发了V-Cube视图算法,它使用多视图立体声进行更精确的深度估计和Lumi-Net渲染,以便更好地渲染质量。 VirtualCube系统正确保留了参与者之间的相互眼睛凝视,使他们能够建立目光接触并意识到谁在视觉上关注它们。该系统还允许参与者与远程参与者具有侧面讨论,就像他们在同一个房间一样。最后,系统揭示了如何支持如何支持工作项的共享空间(例如,文档和应用程序),并跟踪参与者的视觉注意工作项目。
translated by 谷歌翻译
在这项工作中,我们通过混合现实(MR)应用中的视频传球来探讨自幻想的创建。我们介绍了我们的端到端系统,包括:在商业头部安装显示器(HMD)上进行自定义MR视频通行证实现,我们基于深度学习的实时egpocentric身体细分算法以及我们优化的卸载体系结构,以交流使用HMD分割服务器。为了验证这项技术,我们设计了一种身临其境的VR体验,用户必须在活跃的火山火山口中穿过狭窄的瓷砖路径。这项研究是在三个身体表示条件下进行的:虚拟手,带有颜色的全身分割的视频传递以及深度学习全身分割的视频通行。这种身临其境的经历由30名女性和28名男性进行。据我们所知,这是首次旨在评估基于视频的自我avatar的用户研究,以代表用户在MR场景中。结果表明,不同身体表示在存在方面没有显着差异,虚拟手和全身表示之间的某些实施方案中等改善。视觉质量结果表明,就整个身体感知和整体分割质量而言,深入学习算法的结果更好。我们提供了一些关于使用基于视频的自我幻想的讨论,以及对评估方法的一些思考。提出的E2E解决方案处于最新技术状态的边界,因此在达到成熟之前仍有改进的空间。但是,该溶液是新型MR分布式溶液的关键起点。
translated by 谷歌翻译
人类的物体感知能力令人印象深刻,当试图开发具有类似机器人的解决方案时,这变得更加明显。从人类如何将视觉和触觉用于对象感知和相关任务的灵感中,本文总结了机器人应用的多模式对象感知的当前状态。它涵盖了生物学灵感,传感器技术,数据集以及用于对象识别和掌握的感觉数据处理的各个方面。首先,概述了多模式对象感知的生物学基础。然后讨论了传感技术和数据收集策略。接下来,介绍了主要计算方面的介绍,突出显示了每个主要应用领域的一些代表性文章,包括对象识别,传输学习以及对象操纵和掌握。最后,在每个领域的当前进步中,本文概述了有希望的新研究指示。
translated by 谷歌翻译
为了在高移动性虚拟环境中实现柔软物体的高富度触觉渲染,我们提出了一种新颖的触觉显示dandeliontouch。一群无人机将触觉执行器传递给用户的指尖。 DandelionTouch的用户能够在不受设备工作区域限制的大空间中体验触觉反馈。重要的是,在与虚拟物体的长时间互动中,他们不会经历肌肉疲劳。手动跟踪和群控制算法允许用手动运动引导群,并避免在编队内部发生冲突。在这项研究中,研究了群体之间的阻抗连接的几种拓扑结构。该实验在实时在正方形轨迹上执行了一个遵循的实验,该实验表明,在恒星拓扑中连接的无人机执行了平均位置误差较低的轨迹(与其他阻抗拓扑相比,RMSE降低了20.6 \%与潜在的基于现场的群体控制相比,为40.9 \%。在所有具有阻抗行为的地层中,无人机的达到的速度比通过潜在场算法控制的群体高28%。此外,在与7名参与者的用户研究中评估了几种纤维骨架模式的感知。该研究表明,提议的时间延迟和频率调制的组合使用户可以同时成功识别VR中的表面特性和运动方向(平均识别率为70 \%,最大为93 \%)。 DandelionTouch建议在VR系统中提出一种新型的触觉反馈,无需手持或可穿戴界面。
translated by 谷歌翻译
尽管当前的视觉算法在许多具有挑战性的任务上都表现出色,但尚不清楚他们如何理解现实世界环境的物理动态。在这里,我们介绍了Physion,一种数据集和基准,用于严格评估预测物理场景如何随着时间而发展的能力。我们的数据集具有对各种物理现象的现实模拟,包括刚性和软体体碰撞,稳定的多对象配置,滚动,滑动和弹丸运动,因此比以前的基准提供了更全面的挑战。我们使用Physion来基准一套模型,其体系结构,学习目标,投入输出结构和培训数据各不相同。同时,我们在同一场景上获得了人类预测行为的精确测量,从而使我们能够直接评估任何模型能够近似人类行为的效果。我们发现,学习以对象为中心的表示的视觉算法通常优于那些没有人的表现,但仍未达到人类绩效。另一方面,绘制具有直接访问物理状态信息的神经网络的表现效果更好,并且做出与人类制作的预测更相似。这些结果表明,提取场景的物理表征是在视力算法中实现人类水平和类似人类的物理理解的主要瓶颈。我们已公开发布了所有数据和代码,以促进使用物理以完全可重现的方式对其他模型进行基准测试,从而使对视觉算法的进度进行系统的评估,这些算法像人们一样坚固地了解物理环境。
translated by 谷歌翻译
传统上,本征成像或内在图像分解被描述为将图像分解为两层:反射率,材料的反射率;和一个阴影,由光和几何之间的相互作用产生。近年来,深入学习技术已广泛应用,以提高这些分离的准确性。在本调查中,我们概述了那些在知名内在图像数据集和文献中使用的相关度量的结果,讨论了预测所需的内在图像分解的适用性。虽然Lambertian的假设仍然是许多方法的基础,但我们表明,对图像形成过程更复杂的物理原理组件的潜力越来越意识到,这是光学准确的材料模型和几何形状,更完整的逆轻型运输估计。考虑使用的前瞻和模型以及驾驶分解过程的学习架构和方法,我们将这些方法分类为分解的类型。考虑到最近神经,逆和可微分的渲染技术的进步,我们还提供了关于未来研究方向的见解。
translated by 谷歌翻译
综合照片 - 现实图像和视频是计算机图形的核心,并且是几十年的研究焦点。传统上,使用渲染算法(如光栅化或射线跟踪)生成场景的合成图像,其将几何形状和材料属性的表示为输入。统称,这些输入定义了实际场景和呈现的内容,并且被称为场景表示(其中场景由一个或多个对象组成)。示例场景表示是具有附带纹理的三角形网格(例如,由艺术家创建),点云(例如,来自深度传感器),体积网格(例如,来自CT扫描)或隐式曲面函数(例如,截短的符号距离)字段)。使用可分辨率渲染损耗的观察结果的这种场景表示的重建被称为逆图形或反向渲染。神经渲染密切相关,并将思想与经典计算机图形和机器学习中的思想相结合,以创建用于合成来自真实观察图像的图像的算法。神经渲染是朝向合成照片现实图像和视频内容的目标的跨越。近年来,我们通过数百个出版物显示了这一领域的巨大进展,这些出版物显示了将被动组件注入渲染管道的不同方式。这种最先进的神经渲染进步的报告侧重于将经典渲染原则与学习的3D场景表示结合的方法,通常现在被称为神经场景表示。这些方法的一个关键优势在于它们是通过设计的3D-一致,使诸如新颖的视点合成捕获场景的应用。除了处理静态场景的方法外,我们还涵盖了用于建模非刚性变形对象的神经场景表示...
translated by 谷歌翻译
人类和机器人之间的物理互动可以帮助机器人学习执行复杂的任务。机器人臂通过观察人类在整个任务中指导它的方式来获得信息。虽然先前的作品专注于机器人如何学习,但它同样重要的是,这种学习对人类教师透明。显示机器人不确定性的视觉显示可能会传达此信息;然而,我们假设视觉反馈机制错过了人类和机器人之间的物理连接。在这项工作中,我们提出了一种柔软的触觉显示,它缠绕在机器人臂的表面并符合机器人臂的表面,在现有的触点点添加触觉信号,而不会显着影响相互作用。我们展示了软致动力如何产生突出的触觉信号,同时仍然允许在设备安装中的灵活性。使用心理物理学实验,我们表明用户可以准确地区分包裹展示的通胀水平,平均韦伯分数为11.4%。当我们在机器人操纵器的ARM周围放置包裹的显示器时,用户能够在样本机器人学习任务中解释和利用触觉信号,从而改善机器人需要更多培训的区域的识别,并使用户能够提供更好的演示。查看我们的设备和用户学习的视频:https://youtu.be/tx-2tqeb9nw
translated by 谷歌翻译
我们介绍了ThreedWorld(TDW),是交互式多模态物理模拟的平台。 TDW能够模拟高保真感官数据和富裕的3D环境中的移动代理和对象之间的物理交互。独特的属性包括:实时近光 - 真实图像渲染;对象和环境库,以及他们定制的例程;有效构建新环境课程的生成程序;高保真音频渲染;各种材料类型的现实物理相互作用,包括布料,液体和可变形物体;可定制的代理体现AI代理商;并支持与VR设备的人类交互。 TDW的API使多个代理能够在模拟中进行交互,并返回一系列表示世界状态的传感器和物理数据。我们在计算机视觉,机器学习和认知科学中的新兴的研究方向上提供了通过TDW的初始实验,包括多模态物理场景理解,物理动态预测,多代理交互,像孩子一样学习的模型,并注意研究人类和神经网络。
translated by 谷歌翻译
可接受的是指对象允许的可能动作的感知。尽管其与人计算机相互作用有关,但没有现有理论解释了支撑无力形成的机制;也就是说,通过交互发现和适应的充分性。基于认知科学的加固学习理论,提出了一种综合性的无力形成理论。关键假设是用户学习在存在增强信号(成功/故障)时将有前途的电机动作与经验相关联。他们还学会分类行动(例如,“旋转”拨号),使他们能够命名和理由的能力。在遇到新颖的小部件时,他们概括这些行动的能力决定了他们感受到的能力。我们在虚拟机器人模型中实现了这个理论,它展示了在交互式小部件任务中的人性化适应性。虽然其预测与人类数据的趋势对齐,但人类能够更快地适应能力,表明存在额外机制。
translated by 谷歌翻译
在人类居住的环境中使用机器人的挑战是设计对人类互动引起的扰动且鲁棒的设计行为。我们的想法是用内在动机(IM)拟订机器人,以便它可以处理新的情况,并作为人类的真正社交,因此对人类互动伙伴感兴趣。人机互动(HRI)实验主要关注脚本或远程机器人,这是模拟特性,如IM来控制孤立的行为因素。本文介绍了一个“机器人学家”的研究设计,允许比较自主生成的行为彼此,而且首次评估机器人中基于IM的生成行为的人类感知。我们在受试者内部用户学习(n = 24),参与者与具有不同行为制度的完全自主的Sphero BB8机器人互动:一个实现自适应,本质上动机的行为,另一个是反应性的,但不是自适应。机器人及其行为是故意最小的,以专注于IM诱导的效果。与反应基线行为相比,相互作用后问卷的定量分析表明对尺寸“温暖”的显着提高。温暖被认为是人类社会认知中社会态度形成的主要维度。一种被认为是温暖(友好,值得信赖的)的人体验更积极的社交互动。
translated by 谷歌翻译
We present Habitat, a platform for research in embodied artificial intelligence (AI). Habitat enables training embodied agents (virtual robots) in highly efficient photorealistic 3D simulation. Specifically, Habitat consists of: (i) Habitat-Sim: a flexible, high-performance 3D simulator with configurable agents, sensors, and generic 3D dataset handling. Habitat-Sim is fast -when rendering a scene from Matterport3D, it achieves several thousand frames per second (fps) running single-threaded, and can reach over 10,000 fps multi-process on a single GPU. (ii) Habitat-API: a modular high-level library for end-toend development of embodied AI algorithms -defining tasks (e.g. navigation, instruction following, question answering), configuring, training, and benchmarking embodied agents.These large-scale engineering contributions enable us to answer scientific questions requiring experiments that were till now impracticable or 'merely' impractical. Specifically, in the context of point-goal navigation: (1) we revisit the comparison between learning and SLAM approaches from two recent works [20,16] and find evidence for the opposite conclusion -that learning outperforms SLAM if scaled to an order of magnitude more experience than previous investigations, and (2) we conduct the first cross-dataset generalization experiments {train, test} × {Matterport3D, Gibson} for multiple sensors {blind, RGB, RGBD, D} and find that only agents with depth (D) sensors generalize across datasets. We hope that our open-source platform and these findings will advance research in embodied AI.
translated by 谷歌翻译
我们描述了更改 - 联系机器人操作任务的框架,要求机器人与对象和表面打破触点。这种任务的不连续交互动态使得难以构建和使用单个动力学模型或控制策略,并且接触变化期间动态的高度非线性性质可能对机器人和物体造成损害。我们提出了一种自适应控制框架,使机器人能够逐步学习以预测更改联系人任务中的接触变化,从而了解了碎片连续系统的交互动态,并使用任务空间可变阻抗控制器提供平滑且精确的轨迹跟踪。我们通过实验比较我们框架的表现,以确定所需的代表性控制方法,以确定我们框架的自适应控制和增量学习组件需要在变化 - 联系机器人操纵任务中存在不连续动态的平稳控制。
translated by 谷歌翻译
我们探索Calico是一种微型可重新定位的可穿戴系统,具有快速,精确的运动,用于体内相互作用,驱动和感应。印花布由两轮机器人和一条轨道机制或“铁路”组成,机器人在其上行驶。机器人具有独立的,尺寸很小,并且具有其他传感器扩展选项。轨道系统允许机器人沿着用户的身体移动并到达任何预定位置。它还包括旋转开关以启用复杂的路由选项,当提出发散轨道时。我们报告了印花布的设计和实施,并通过一系列的系统性能评估。然后,我们介绍一些应用程序方案和用户研究,以了解印花布作为舞蹈教练的潜力,并探索对我们情景的定性感知,以告知该领域未来的研究。
translated by 谷歌翻译
The ability to associate touch with sight is essential for tasks that require physically interacting with objects in the world. We propose a dataset with paired visual and tactile data called Touch and Go, in which human data collectors probe objects in natural environments using tactile sensors, while simultaneously recording egocentric video. In contrast to previous efforts, which have largely been confined to lab settings or simulated environments, our dataset spans a large number of "in the wild" objects and scenes. To demonstrate our dataset's effectiveness, we successfully apply it to a variety of tasks: 1) self-supervised visuo-tactile feature learning, 2) tactile-driven image stylization, i.e., making the visual appearance of an object more consistent with a given tactile signal, and 3) predicting future frames of a tactile signal from visuo-tactile inputs.
translated by 谷歌翻译