目前,针对沉浸式增强现实(AR)应用程序设计用户界面(UI)的指南有限。设计师必须反思他们为台式机和移动应用程序设计UI的经验,并猜测UI将如何影响AR用户的性能。在这项工作中,我们介绍了一个预测模型,用于确定用户对目标UI的性能,而无需参与者参与用户研究。该模型对参与者对客观绩效指标的反应进行了培训,例如消耗耐力(CE)和使用层次下拉菜单的指向时间(PT)。通过从词汇数据库WordNet中包含的单词中随机和动态创建层次下拉菜单和相关用户任务来确保菜单深度和上下文的巨大变化。通过在模型培训期间合并用户的非语言标准性能WAIS-IV,可以减少主观性能偏见。菜单的语义信息是使用通用句子编码器编码的。我们介绍了一项用户研究的结果,该研究表明,提出的预测模型在预测具有各种认知能力的用户的层次菜单方面具有很高的准确性。据我们所知,这是预测为沉浸式AR应用设计UI的第一项工作。
translated by 谷歌翻译
关于人类阅读的研究长期以来一直记录在阅读行为表明特定于任务的效果,但是建立一个通用模型来预测人类在给定任务中将显示什么的通用模型。我们介绍了Neat,这是人类阅读中注意力分配的计算模型,基于人类阅读优化了一项任务中关注经济和成功之间的权衡。我们的模型是使用当代神经网络建模技术实施的,并对注意力分配的分配方式在不同任务中如何变化做出明确的测试预测。我们在一项针对阅读理解任务的两个版本的眼影研究中对此进行了测试,发现我们的模型成功说明了整个任务的阅读行为。因此,我们的工作提供了证据表明,任务效果可以建模为对任务需求的最佳适应。
translated by 谷歌翻译
Covid19 Pandemary已经证明了需要远程学习和虚拟学习应用,如虚拟现实(VR)和基于平板电脑的解决方案。开发人员创建复杂的学习情景是非常耗时的,可能需要一年多。使用系统分析师,开发人员和3D艺术家的团队也是昂贵的。有要求提供简单的方法,使讲师能够为其实验室教程创建自己的内容。已经开发了开发通用模型的研究,以便为需要与实验室资源进行实际交互的科目的半自动创建虚拟学习工具。除了用于创建数字双胞胎的系统之外,还提出了一种描述为电动实验室教程创建虚拟学习应用程序的案例研究。
translated by 谷歌翻译
In this chapter, we review and discuss the transformation of AI technology in HCI/UX work and assess how AI technology will change how we do the work. We first discuss how AI can be used to enhance the result of user research and design evaluation. We then discuss how AI technology can be used to enhance HCI/UX design. Finally, we discuss how AI-enabled capabilities can improve UX when users interact with computing systems, applications, and services.
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
自我跟踪可以提高人们对他们不健康的行为的认识,为行为改变提供见解。事先工作探索了自动跟踪器如何反映其记录数据,但它仍然不清楚他们从跟踪反馈中学到多少,以及哪些信息更有用。实际上,反馈仍然可以压倒,并简明扼要可以通过增加焦点和减少解释负担来改善学习。为了简化反馈,我们提出了一个自动跟踪反馈显着框架,以定义提供反馈的特定信息,为什么这些细节以及如何呈现它们(手动引出或自动反馈)。我们从移动食品跟踪的实地研究中收集了调查和膳食图像数据,并实施了Salientrack,一种机器学习模型,以预测用户从跟踪事件中学习。使用可解释的AI(XAI)技术,SalientRack识别该事件的哪些特征是最突出的,为什么它们导致正面学习结果,并优先考虑如何根据归属分数呈现反馈。我们展示了用例,并进行了形成性研究,以展示Salientrack的可用性和有用性。我们讨论自动跟踪中可读性的影响,以及如何添加模型解释性扩大了提高反馈体验的机会。
translated by 谷歌翻译
框架已开始出现,以对提供沉浸式,直观的接口提供沉浸式,直观的界面的虚拟,增强和混合现实(VAM)技术来促进人机互动。然而,这些框架未能捕获VAM-HRI的生长子场的关键特性,并且由于连续尺度而难以持续应用。这项工作通过创建用于组织VAM-HRI系统(TOKC)的关键特征来构建这些先前的框架。 Tokcs离散地分离出现在先前作品中使用的连续尺度,以获得更一致的分类,并增加与机器人的内部模型,锚点位置,可操纵性和系统的软件相关的额外特征。为了展示工具的能力,TOKCS应用于来自第四届VAM-HRI车间的十篇论文,并检查了关键趋势和外卖。这些趋势突出了TOKCS的表现能力,同时还帮助框架更新的趋势和VAM-HRI研究的未来工作建议。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 2nd International Workshop on Reading Music Systems, held in Delft on the 2nd of November 2019.
translated by 谷歌翻译
手语是聋人和听力受损社区中使用的沟通语言的主要形式。在听力障碍和听力社区之间进行简单互相的沟通,建立一个能够将口语翻译成手语的强大系统,反之亦然是基本的。为此,标志语言识别和生产是制作这种双向系统的两个必要零件。手语识别和生产需要应对一些关键挑战。在这项调查中,我们审查了使用深度学习的手语制作(SLP)和相关领域的最近进展。为了有更现实的观点来签署语言,我们介绍了聋人文化,聋人中心,手语的心理视角,口语和手语之间的主要差异。此外,我们介绍了双向手语翻译系统的基本组成部分,讨论了该领域的主要挑战。此外,简要介绍了SLP中的骨干架构和方法,并提出了拟议的SLP分类物。最后,介绍了SLP和绩效评估的一般框架,也讨论了SLP最近的发展,优势和限制,评论可能的未来研究的可能线条。
translated by 谷歌翻译
Any organization needs to improve their products, services, and processes. In this context, engaging with customers and understanding their journey is essential. Organizations have leveraged various techniques and technologies to support customer engagement, from call centres to chatbots and virtual agents. Recently, these systems have used Machine Learning (ML) and Natural Language Processing (NLP) to analyze large volumes of customer feedback and engagement data. The goal is to understand customers in context and provide meaningful answers across various channels. Despite multiple advances in Conversational Artificial Intelligence (AI) and Recommender Systems (RS), it is still challenging to understand the intent behind customer questions during the customer journey. To address this challenge, in this paper, we study and analyze the recent work in Conversational Recommender Systems (CRS) in general and, more specifically, in chatbot-based CRS. We introduce a pipeline to contextualize the input utterances in conversations. We then take the next step towards leveraging reverse feature engineering to link the contextualized input and learning model to support intent recognition. Since performance evaluation is achieved based on different ML models, we use transformer base models to evaluate the proposed approach using a labelled dialogue dataset (MSDialogue) of question-answering interactions between information seekers and answer providers.
translated by 谷歌翻译
这是第两部分综合调查的第二部分,专门用于计算框架,最常见于名称超高规范计算和矢量符号架构(HDC / VSA)。这两个名称都指的是一系列使用高维分布式表示的计算模型,并依赖于其关键操作的代数属性来结合结构化符号表示和矢量分布式表示的优点。全息减少的表示是一种有影响力的HDC / VSA模型,在机器学习域中是众所周知的,通常用于指整个家庭。但是,为了一致性,我们使用HDC / VSA来参考该区域。该调查的第I部分涵盖了该地区的基本方面,例如历史背景,导致HDC / VSA的开发,任何HDC / VSA模型的关键要素,已知的HDC / VSA模型,以及将各种类型的输入数据转换为高 - 适用于HDC / VSA的尺寸载体。第二部分调查现有的应用程序,HDC / VSA在认知计算和架构中的作用,以及未来工作的方向。大多数应用程序位于机器学习/人工智能域内,但我们还涵盖其他应用程序来提供彻底的照片。该调查是对新人和从业者有用的。
translated by 谷歌翻译
双相情感障碍是一种心理健康障碍,导致情绪波动,从令人沮丧到狂热。双相障碍的诊断通常是根据患者访谈进行的,并从患者的护理人员获得的报告。随后,诊断取决于专家的经验,并且可以与其他精神障碍的疾病混淆。双极性障碍诊断中的自动化过程可以帮助提供定量指标,并让患者的更容易观察较长的时间。此外,在Covid-19大流行期间,对遥控和诊断的需求变得尤为重要。在本论文中,我们根据声学,语言和视觉方式的患者录制来创建一种多模态决策系统。该系统培养在双极障碍语料库上。进行综合分析单峰和多模式系统,以及各种融合技术。除了使用单向特征处理整个患者会话外,还研究了剪辑的任务级调查。在多模式融合系统中使用声学,语言和视觉特征,我们实现了64.8%的未加权平均召回得分,这提高了在该数据集上实现的最先进的性能。
translated by 谷歌翻译
增强现实(AR)透明视觉是一个有趣的研究主题,因为它使用户能够通过墙壁看到并查看被遮挡的对象。大多数现有研究的重点是透明视觉的视觉效果,而相互作用方法的研究较少。但是,我们认为,使用常见的互动方式,例如,空中点击和语音,可能不是控制透明视觉的最佳方法。这是因为当我们想浏览某些东西时,它与我们的目光深度/狂热有关,因此应由眼睛自然控制。遵循这个想法,本文提出了一种新颖的目光控制(GVC)AR中的透明视觉技术。由于需要凝视深度,因此我们使用两个红外摄像机和相应的算法构建了一个凝视跟踪模块,然后将其组装到Microsoft Hololens 2中,以实现凝视深度估计。然后,我们提出了两种不同的GVC模式,以供透明视觉拟合不同的情况。广泛的实验结果表明,我们的凝视深度估计是有效而准确的。通过与常规互动方式进行比较,我们的GVC技术在效率方面也很出色,用户更喜欢。最后,我们提出了凝视控制的透明视觉的四个示例应用。
translated by 谷歌翻译
在过去的几年中,围绕种族类人体机器人的有问题实践的讨论已经上升。为了彻底理解机器人在人类机器人互动(HRI)社区中如何理解机器人的“性别” - 即如何被操纵,在哪些环境中以及其对人们的看法和人们产生哪些影响的影响,为基础建立基础。与机器人的互动 - 我们对文献进行了范围的评论。我们确定了553篇与我们从5个不同数据库中检索的评论相关的论文。审查论文的最终样本包括2005年至2021年之间的35篇论文,其中涉及3902名参与者。在本文中,我们通过报告有关其性别的目标和假设的信息(即操纵性别的定义和理由),对机器人的“性别”(即性别提示和操纵检查),对性别的定义和理由进行彻底总结这些论文。 (例如,参与者的人口统计学,受雇的机器人)及其结果(即主要和互动效应)。该评论表明,机器人的“性别”不会影响HRI的关键构建,例如可爱和接受,而是对刻板印象产生最强烈的影响。我们利用社会机器人技术和性别研究中的不同认识论背景来提供有关审查结果的全面跨学科观点,并提出了在HRI领域前进的方法。
translated by 谷歌翻译
这篇理论文章研究了如何在计算机中构建类似人类的工作记忆和思维过程。应该有两个工作记忆存储,一个类似于关联皮层中的持续点火,另一个类似于大脑皮层中的突触增强。这些商店必须通过环境刺激或内部处理产生的新表示不断更新。它们应该连续更新,并以一种迭代的方式进行更新,这意味着在下一个状态下,应始终保留一组共同工作中的某些项目。因此,工作记忆中的一组概念将随着时间的推移逐渐发展。这使每个状态都是对先前状态的修订版,并导致连续的状态与它们所包含的一系列表示形式重叠和融合。随着添加新表示形式并减去旧表示形式,在这些更改过程中,有些保持活跃几秒钟。这种持续活动,类似于人工复发性神经网络中使用的活动,用于在整个全球工作区中传播激活能量,以搜索下一个关联更新。结果是能够朝着解决方案或目标前进的联想连接的中间状态链。迭代更新在这里概念化为信息处理策略,一种思想流的计算和神经生理决定因素以及用于设计和编程人工智能的算法。
translated by 谷歌翻译
我们提出了一种新的四管齐下的方法,在文献中首次建立消防员的情境意识。我们构建了一系列深度学习框架,彼此之叠,以提高消防员在紧急首次响应设置中进行的救援任务的安全性,效率和成功完成。首先,我们使用深度卷积神经网络(CNN)系统,以实时地分类和识别来自热图像的感兴趣对象。接下来,我们将此CNN框架扩展了对象检测,跟踪,分割与掩码RCNN框架,以及具有多模级自然语言处理(NLP)框架的场景描述。第三,我们建立了一个深入的Q学习的代理,免受压力引起的迷失方向和焦虑,能够根据现场消防环境中观察和存储的事实来制定明确的导航决策。最后,我们使用了一种低计算无监督的学习技术,称为张量分解,在实时对异常检测进行有意义的特征提取。通过这些临时深度学习结构,我们建立了人工智能系统的骨干,用于消防员的情境意识。要将设计的系统带入消防员的使用,我们设计了一种物理结构,其中处理后的结果被用作创建增强现实的投入,这是一个能够建议他们所在地的消防员和周围的关键特征,这对救援操作至关重要在手头,以及路径规划功能,充当虚拟指南,以帮助迷彩的第一个响应者恢复安全。当组合时,这四种方法呈现了一种新颖的信息理解,转移和综合方法,这可能会大大提高消防员响应和功效,并降低寿命损失。
translated by 谷歌翻译
可穿戴设备,不断收集用户的各种传感器数据,增加了无意和敏感信息的推论的机会,例如在物理键盘上键入的密码。我们彻底看看使用电拍摄(EMG)数据的潜力,这是一个新的传感器模式,这是市场新的,但最近在可穿戴物的上下文中受到关注,用于增强现实(AR),用于键盘侧通道攻击。我们的方法是基于使用Myo Armband收集传感器数据的逼真场景中对象攻击之间的神经网络。在我们的方法中,与加速度计和陀螺相比,EMG数据被证明是最突出的信息来源,增加了击键检测性能。对于我们对原始数据的端到端方法,我们报告了击键检测的平均平衡准确性,击键检测的平均高度高精度为52级,为不同优势密码的密钥识别约32% 。我们创建了一个广泛的数据集,包括从37个志愿者录制的310 000次击键,它可作为开放式访问,以及用于创建给定结果的源代码。
translated by 谷歌翻译
密切的人类机器人互动(HRI),尤其是在工业场景中,已经对结合人类和机器人技能的优势进行了广泛的研究。对于有效的HRI,应质疑当前可用的人机通信媒体或工具的有效性,并应探讨新的交流方式。本文提出了一个模块化体系结构,允许人类操作员通过不同的方式与机器人互动。特别是,我们使用智能手表和平板电脑分别实施了架构来分别处理手势和触摸屏输入。最后,我们在这两种方式之间进行了比较用户体验研究。
translated by 谷歌翻译
MetaVerse,巨大的虚拟物理网络空间,为艺术家带来了前所未有的机会,将我们的身体环境的每个角落与数字创造力混合。本文对计算艺术进行了全面的调查,其中七个关键主题与成权相关,描述了混合虚拟物理现实中的新颖艺术品。主题首先涵盖了MetaVerse的建筑元素,例如虚拟场景和字符,听觉,文本元素。接下来,已经反映了诸如沉浸式艺术,机器人艺术和其他用户以其他用户的方法提供了沉浸式艺术,机器人艺术和其他用户中心的若干非凡类型的新颖创作。最后,我们提出了几项研究议程:民主化的计算艺术,数字隐私和搬迁艺术家的安全性,为数字艺术品,技术挑战等等的所有权认可。该调查还担任艺术家和搬迁技术人员的介绍材料,以开始在超现实主义网络空间领域创造。
translated by 谷歌翻译
眼目光分析是计算机视觉和人类计算机相互作用领域的重要研究问题。即使在过去十年中取得了显着进展,由于眼睛外观,眼头相互作用,遮挡,图像质量和照明条件的独特性,自动凝视分析仍然具有挑战性。有几个开放的问题,包括在没有先验知识的情况下,在不受限制的环境中解释凝视方向的重要提示以及如何实时编码它们。我们回顾了一系列目光分析任务和应用程序的进展,以阐明这些基本问题,确定凝视分析中的有效方法并提供可能的未来方向。我们根据其优势和报告的评估指标分析了最近的凝视估计和分割方法,尤其是在无监督和弱监督的领域中。我们的分析表明,强大而通用的凝视分析方法的开发仍然需要解决现实世界中的挑战,例如不受限制的设置和学习,并减少了监督。最后,我们讨论了设计现实的目光分析系统的未来研究方向,该系统可以传播到其他领域,包括计算机视觉,增强现实(AR),虚拟现实(VR)和人类计算机交互(HCI)。项目页面:https://github.com/i-am-shreya/eyegazesurvey} {https://github.com/i-am-shreya/eyegazesurvey
translated by 谷歌翻译