Reliable and robust user identification and authentication are important and often necessary requirements for many digital services. It becomes paramount in social virtual reality (VR) to ensure trust, specifically in digital encounters with lifelike realistic-looking avatars as faithful replications of real persons. Recent research has shown that the movements of users in extended reality (XR) systems carry user-specific information and can thus be used to verify their identities. This article compares three different potential encodings of the motion data from head and hands (scene-relative, body-relative, and body-relative velocities), and the performances of five different machine learning architectures (random forest, multi-layer perceptron, fully recurrent neural network, long-short term memory, gated recurrent unit). We use the publicly available dataset "Talking with Hands" and publish all code to allow reproducibility and to provide baselines for future work. After hyperparameter optimization, the combination of a long-short term memory architecture and body-relative data outperformed competing combinations: the model correctly identifies any of the 34 subjects with an accuracy of 100% within 150 seconds. Altogether, our approach provides an effective foundation for behaviometric-based identification and authentication to guide researchers and practitioners. Data and code are published under https://go.uniwue.de/58w1r.
translated by 谷歌翻译
可穿戴设备,不断收集用户的各种传感器数据,增加了无意和敏感信息的推论的机会,例如在物理键盘上键入的密码。我们彻底看看使用电拍摄(EMG)数据的潜力,这是一个新的传感器模式,这是市场新的,但最近在可穿戴物的上下文中受到关注,用于增强现实(AR),用于键盘侧通道攻击。我们的方法是基于使用Myo Armband收集传感器数据的逼真场景中对象攻击之间的神经网络。在我们的方法中,与加速度计和陀螺相比,EMG数据被证明是最突出的信息来源,增加了击键检测性能。对于我们对原始数据的端到端方法,我们报告了击键检测的平均平衡准确性,击键检测的平均高度高精度为52级,为不同优势密码的密钥识别约32% 。我们创建了一个广泛的数据集,包括从37个志愿者录制的310 000次击键,它可作为开放式访问,以及用于创建给定结果的源代码。
translated by 谷歌翻译
我们表明,如果基于深度学习的插值器使用球形线性插值器作为基线,可以更准确,有效地求解在一组关键帧上进行人类运动的任务。我们从经验上证明了我们在实现最新性能的公开数据集上的方法的实力。我们通过证明$ \ delta $ - 优势相对于最后已知帧(也称为零速度模型)的参考,进一步概括了这些结果。这支持了一个更一般的结论,即在参考框架本地对输入帧的工作比以前的工作中主张的全球(世界)参考框架更准确,更强大。我们的代码可在https://github.com/boreshkinai/delta-interpolator上公开获取。
translated by 谷歌翻译
基于惯性传感器的姿态估计是各种应用中的重要技术,来自人类运动跟踪到自主空中和地面车辆。应用场景在执行运动的特征,扰动和环境条件的存在方面不同。由于最先进的态度估计器不概括在这些特征上,因此必须对其参数进行调整以用于各个运动特性和情况。我们提出了RIANN,即立即使用,基于神经网络,无参数,实时功能的惯性态度估计器,其横跨不同的运动动态,环境和采样率概括,而无需特定于应用程序适应。我们收集六个公开的数据集,其中我们利用了两个数据集进行了方法开发和培训,并使用四个数据集进行三种不同的测试场景评估培训的估计,不同的实际相关性。结果表明,RIANN优于最先进的态度估算过滤器,以至于它在不同应用中的各种动作和条件上遍历了更好的方式,具有不同的传感器硬件和不同的采样频率。即使在每个单独的测试数据集上调整过滤器,也是如此,而RANN在完全分开的数据上培训,并且从未见过任何这些测试数据集。 RIANN可以直接应用,没有适应或培训,预计将在许多应用中启用即插即用解决方案,特别是当准确性至关重要时,没有地理数据可以调整或运动和扰动特性不确定。我们宣传了Riann。
translated by 谷歌翻译
由于几个因素之间的微妙权衡:参与者的隐私,生态有效性,数据保真度和后勤开销,记录野外未脚本人类互动的动态是具有挑战性的。为了解决这些问题,在社区精神上为社区的“数据集”之后,我们提出了会议生活实验室(Conflab):一个新的概念,用于多模式多模式数据收集,野生野外社交对话。对于此处描述的Conflab的首次实例化,我们在一次大型国际会议上组织了现实生活中的专业网络活动。该数据集涉及48个会议参与者,捕捉了地位,熟人和网络动机的各种组合。我们的捕获设置改善了先前野外数据集的数据保真度,同时保留隐私敏感性:从非侵入性的架空视图中获得8个视频(1920x1080,60 fps),并具有定制的可穿戴传感器,并带有车载记录(完整9) - 轴IMU),具有隐私性的低频音频(1250 Hz)和基于蓝牙的接近度。此外,我们开发了用于采集时分布式硬件同步的自定义解决方案,并以高采样速率对身体关键点和动作进行了及时的连续注释。我们的基准测试展示了与野外隐私保护社交数据分析有关的一些开放研究任务:从高架摄像头视图,基于骨架的No-Audio扬声器检测和F-Formation检测中的关键点检测。
translated by 谷歌翻译
我们提出了一种新的四管齐下的方法,在文献中首次建立消防员的情境意识。我们构建了一系列深度学习框架,彼此之叠,以提高消防员在紧急首次响应设置中进行的救援任务的安全性,效率和成功完成。首先,我们使用深度卷积神经网络(CNN)系统,以实时地分类和识别来自热图像的感兴趣对象。接下来,我们将此CNN框架扩展了对象检测,跟踪,分割与掩码RCNN框架,以及具有多模级自然语言处理(NLP)框架的场景描述。第三,我们建立了一个深入的Q学习的代理,免受压力引起的迷失方向和焦虑,能够根据现场消防环境中观察和存储的事实来制定明确的导航决策。最后,我们使用了一种低计算无监督的学习技术,称为张量分解,在实时对异常检测进行有意义的特征提取。通过这些临时深度学习结构,我们建立了人工智能系统的骨干,用于消防员的情境意识。要将设计的系统带入消防员的使用,我们设计了一种物理结构,其中处理后的结果被用作创建增强现实的投入,这是一个能够建议他们所在地的消防员和周围的关键特征,这对救援操作至关重要在手头,以及路径规划功能,充当虚拟指南,以帮助迷彩的第一个响应者恢复安全。当组合时,这四种方法呈现了一种新颖的信息理解,转移和综合方法,这可能会大大提高消防员响应和功效,并降低寿命损失。
translated by 谷歌翻译
由于价格合理的可穿戴摄像头和大型注释数据集的可用性,在过去几年中,Egintric Vision(又名第一人称视觉-FPV)的应用程序在过去几年中蓬勃发展。可穿戴摄像机的位置(通常安装在头部上)允许准确记录摄像头佩戴者在其前面的摄像头,尤其是手和操纵物体。这种内在的优势可以从多个角度研究手:将手及其部分定位在图像中;了解双手涉及哪些行动和活动;并开发依靠手势的人类计算机界面。在这项调查中,我们回顾了使用以自我为中心的愿景专注于手的文献,将现有方法分类为:本地化(其中的手或部分在哪里?);解释(手在做什么?);和应用程序(例如,使用以上为中心的手提示解决特定问题的系统)。此外,还提供了带有手基注释的最突出的数据集的列表。
translated by 谷歌翻译
基于签名的技术使数学洞察力洞悉不断发展的数据的复杂流之间的相互作用。这些见解可以自然地转化为理解流数据的数值方法,也许是由于它们的数学精度,已被证明在数据不规则而不是固定的情况下分析流的数据以及数据和数据的尺寸很有用样本量均为中等。了解流的多模式数据是指数的:$ d $ d $的字母中的$ n $字母中的一个单词可以是$ d^n $消息之一。签名消除了通过采样不规则性引起的指数级噪声,但仍然存在指数量的信息。这项调查旨在留在可以直接管理指数缩放的域中。在许多问题中,可伸缩性问题是一个重要的挑战,但需要另一篇调查文章和进一步的想法。这项调查描述了一系列环境集足够小以消除大规模机器学习的可能性,并且可以有效地使用一小部分免费上下文和原则性功能。工具的数学性质可以使他们对非数学家的使用恐吓。本文中介绍的示例旨在弥合此通信差距,并提供从机器学习环境中绘制的可进行的工作示例。笔记本可以在线提供这些示例中的一些。这项调查是基于伊利亚·雪佛兰(Ilya Chevryev)和安德烈·科米利津(Andrey Kormilitzin)的早期论文,它们在这种机械开发的较早时刻大致相似。本文说明了签名提供的理论见解是如何在对应用程序数据的分析中简单地实现的,这种方式在很大程度上对数据类型不可知。
translated by 谷歌翻译
我们展示了一个新的数据集和基准,其目的是在大脑活动和眼球运动的交叉口中推进研究。我们的数据集EEGEYENET包括从三种不同实验范式中收集的356个不同受试者的同时脑电图(EEG)和眼睛跟踪(ET)录像。使用此数据集,我们还提出了一种评估EEG测量的凝视预测的基准。基准由三个任务组成,难度越来越高:左右,角度幅度和绝对位置。我们在该基准测试中运行大量实验,以便根据经典机器学习模型和大型神经网络提供实心基线。我们释放了我们的完整代码和数据,并提供了一种简单且易于使用的界面来评估新方法。
translated by 谷歌翻译
我们的工作重点是开发人类姿势的可学习神经代表,用于先进的AI辅助动画工具。具体而言,我们解决了基于稀疏和可变的用户输入(例如,身体关节子集的位置和/或方向)构建完整静态人姿势的问题。为了解决这个问题,我们提出了一种新型的神经结构,将残留连接与部分指定姿势编码的原型结合在一起,以从学习的潜在空间中创建一个新的完整姿势。我们表明,在准确性和计算效率方面,我们的体系结构的表现优于基准基线。此外,我们开发了一个用户界面,以将我们的神经模型集成到Unity,这是一个实时3D开发平台。此外,我们基于高质量的人类运动捕获数据,介绍了代表静态人类姿势建模问题的两个新数据集,该数据将与模型代码一起公开发布。
translated by 谷歌翻译
通常,基于生物谱系的控制系统可能不依赖于各个预期行为或合作适当运行。相反,这种系统应该了解未经授权的访问尝试的恶意程序。文献中提供的一些作品建议通过步态识别方法来解决问题。这些方法旨在通过内在的可察觉功能来识别人类,尽管穿着衣服或配件。虽然该问题表示相对长时间的挑战,但是为处理问题的大多数技术存在与特征提取和低分类率相关的几个缺点,以及其他问题。然而,最近的深度学习方法是一种强大的一组工具,可以处理几乎任何图像和计算机视觉相关问题,为步态识别提供最重要的结果。因此,这项工作提供了通过步态认可的关于生物识别检测的最近作品的调查汇编,重点是深入学习方法,强调他们的益处,暴露出弱点。此外,它还呈现用于解决相关约束的数据集,方法和体系结构的分类和表征描述。
translated by 谷歌翻译
眼目光信息的收集为人类认知,健康和行为的许多关键方面提供了一个窗口。此外,许多神经科学研究补充了从眼睛跟踪中获得的行为信息,以及脑电图(EEG)提供的高时间分辨率和神经生理学标记。必不可少的眼睛跟踪软件处理步骤之一是将连续数据流的分割为与扫视,固定和眨眼等眼睛跟踪应用程序相关的事件。在这里,我们介绍了Detrtime,这是一个新颖的时间序列分割框架,该框架创建了不需要额外记录的眼睛跟踪模式并仅依靠脑电图数据的眼部事件检测器。我们的端到端基于深度学习的框架将计算机视觉的最新进展带到了脑电图数据的《时代》系列分割的最前沿。 Detr Time在各种眼睛追踪实验范式上实现眼部事件检测中的最新性能。除此之外,我们还提供了证据表明我们的模型在脑电图阶段分割的任务中很好地概括了。
translated by 谷歌翻译
步态识别是从步行或跑步等两足动力中识别人类的过程。因此,步态数据是隐私敏感信息,应在可能的情况下匿名化。随着高质量步态记录技术的兴起,例如深度摄像头或运动捕获西服,捕获和处理越来越多的详细步态数据。 Metaverse的介绍和崛起只是一种流行的应用程序场景,在该方案中,用户步态被转移到数字化头像上。作为开发高质量步态数据有效匿名技术的第一步,我们研究了运动数据的不同方面,以量化其对步态识别的贡献。我们首先从有关人步态感知的文献中提取特征类别,然后为每个类别设计实验,以评估它们所包含的信息有助于识别成功。我们的结果表明,步态匿名化将具有挑战性,因为数据是高度冗余和相互依存的。
translated by 谷歌翻译
闭环大脑刺激是指捕获诸如脑电图(EEG)之类的神经生理学措施,迅速识别感兴趣的神经事件,并产生听觉,磁性或电刺激,从而精确地与大脑过程相互作用。这是一种基本神经科学的新方法,也许是临床应用,例如恢复降解记忆功能;但是,现有工具很昂贵,繁琐,并且具有有限的实验灵活性。在本文中,我们提出了Portiloop,这是一种基于深度学习的,便携式和低成本的闭环刺激系统,能够靶向特定的脑振荡。我们首先记录可以从市售组件构建的开放式软件实现。我们还提供了快速,轻巧的神经网络模型和探索算法,该算法自动优化了所需的脑振荡的模型超参数。最后,我们在实时睡眠主轴检测的具有挑战性的测试案例中验证了该技术,结果可与大规模在线数据注释主轴数据集(MODA;组共识)上的离线专家绩效相当。社区可以提供软件和计划,作为开放科学计划,旨在鼓励进一步开发并推动闭环神经科学研究。
translated by 谷歌翻译
第五代(5G)网络和超越设想巨大的东西互联网(物联网)推出,以支持延长现实(XR),增强/虚拟现实(AR / VR),工业自动化,自主驾驶和智能所有带来的破坏性应用一起占用射频(RF)频谱的大规模和多样化的IOT设备。随着频谱嘎嘎和吞吐量挑战,这种大规模的无线设备暴露了前所未有的威胁表面。 RF指纹识别是预约的作为候选技术,可以与加密和零信任安全措施相结合,以确保无线网络中的数据隐私,机密性和完整性。在未来的通信网络中,在这项工作中,在未来的通信网络中的相关性,我们对RF指纹识别方法进行了全面的调查,从传统观点到最近的基于深度学习(DL)的算法。现有的调查大多专注于无线指纹方法的受限制呈现,然而,许多方面仍然是不可能的。然而,在这项工作中,我们通过解决信号智能(SIGINT),应用程序,相关DL算法,RF指纹技术的系统文献综述来缓解这一点,跨越过去二十年的RF指纹技术的系统文献综述,对数据集和潜在研究途径的讨论 - 必须以百科全书的方式阐明读者的必要条件。
translated by 谷歌翻译
近年来,随着传感器和智能设备的广泛传播,物联网(IoT)系统的数据生成速度已大大增加。在物联网系统中,必须经常处理,转换和分析大量数据,以实现各种物联网服务和功能。机器学习(ML)方法已显示出其物联网数据分析的能力。但是,将ML模型应用于物联网数据分析任务仍然面临许多困难和挑战,特别是有效的模型选择,设计/调整和更新,这给经验丰富的数据科学家带来了巨大的需求。此外,物联网数据的动态性质可能引入概念漂移问题,从而导致模型性能降解。为了减少人类的努力,自动化机器学习(AUTOML)已成为一个流行的领域,旨在自动选择,构建,调整和更新机器学习模型,以在指定任务上实现最佳性能。在本文中,我们对Automl区域中模型选择,调整和更新过程中的现有方法进行了审查,以识别和总结将ML算法应用于IoT数据分析的每个步骤的最佳解决方案。为了证明我们的发现并帮助工业用户和研究人员更好地实施汽车方法,在这项工作中提出了将汽车应用于IoT异常检测问题的案例研究。最后,我们讨论并分类了该领域的挑战和研究方向。
translated by 谷歌翻译
非语言交流在人类机器人相互作用(HRI)的各种场景中起着特别重要的作用。因此,这项工作解决了人类手势识别的问题。特别是,我们专注于头部和眼睛手势,并使用眼镜摄像头采用以自我为中心的(第一人称)观点。我们认为,这种自我为中心的观点可能对场景或以机器人为中心的观点提供了许多概念和技术利益。提出了一种基于运动的识别方法,该方法以两个时间粒度运行。在本地,框架到框架的同谱是通过卷积神经网络(CNN)估算的。该CNN的输出输入了长期记忆(LSTM)以捕获与表征手势相关的长期时间视觉关系。关于网络体系结构的配置,一个特别有趣的发现是,使用同型CNN的内部层的输出增加了使用同型矩阵本身的识别率。尽管这项工作侧重于行动识别,并且尚未进行机器人或用户研究,但该系统旨在满足实时限制。令人鼓舞的结果表明,所提出的以自我为中心的观点是可行的,这项概念验证工作为HRI令人兴奋的领域提供了新颖而有用的贡献。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
数据驱动的字符动画技术依赖于存在正确建立的运动模型,能够描述其丰富的上下文。然而,常用的运动表示通常不能准确地编码运动的完全铰接,或者存在伪影。在这项工作中,我们解决了寻找运动建模的强大姿势表示的根本问题,适用于深色字符动画,可以更好地限制姿势和忠实地捕获与骨骼特征相关的细微差别。我们的表示基于双季度,具有明确定义的操作的数学抽象,它同时编码旋转和位置方向,使得能够围绕根居中的层次结构感知编码。我们证明我们的代表克服了普通的运动伪影,并与其他流行的表现相比评估其性能。我们进行消融研究,以评估可以在学习期间融入的各种损失的影响。利用我们的表示隐含地编码骨架运动属性,我们在包含具有不同比例的数据集上培训一个数据集,而无需将它们重新排列到通用骨架上,这导致待忽略的微妙运动元素。我们表明可以实现光滑和自然的姿势,为迷人的应用铺平道路。
translated by 谷歌翻译
仇恨言论是一种在线骚扰的形式,涉及使用滥用语言,并且在社交媒体帖子中通常可以看到。这种骚扰主要集中在诸如宗教,性别,种族等的特定群体特征上,如今它既有社会和经济后果。文本文章中对滥用语言的自动检测一直是一项艰巨的任务,但最近它从科学界获得了很多兴趣。本文解决了在社交媒体中辨别仇恨内容的重要问题。我们在这项工作中提出的模型是基于LSTM神经网络体系结构的现有方法的扩展,我们在短文中适当地增强和微调以检测某些形式的仇恨语言,例如种族主义或性别歧视。最重要的增强是转换为由复发性神经网络(RNN)分类器组成的两阶段方案。将第一阶段的所有一Vs式分类器(OVR)分类器的输出组合在一起,并用于训练第二阶段分类器,最终决定了骚扰的类型。我们的研究包括对在16K推文的公共语料库中评估的第二阶段提出的几种替代方法的性能比较,然后对另一个数据集进行了概括研究。报道的结果表明,与当前的最新技术相比,在仇恨言论检测任务中,所提出的方案的分类质量出色。
translated by 谷歌翻译