智能论文笔记

Accoustate: Auto-annotation of IMU-generated Activity Signatures under Smart Infrastructure

Soumyajit Chatterjee , Arun Singh , Bivas Mitra , Sandip Chakraborty

分类：人工智能 | 机器学习

2021-12-08

智能基础设施中的人类活动从个人穿着的可穿戴设备中产生大量IMU数据。许多现有的研究依赖于人类活动识别（HAR）的这种感觉数据；但是，主要的瓶颈之一是它们依赖预先注销或标记的数据。手动人工驱动的注释既不是可扩展的，也不是有效的，而现有的自动通量技术在很大程度上取决于视频签名。尽管如此，基于视频的自动保管仍需要高度的计算资源，并且当将来自智能家庭（智能家庭）的数据转移到云中时，仍存在隐私问题。本文利用了人类活动产生的声学标志，以标记可穿戴设备的IMU数据，从而减轻资源需求和数据隐私问题。即使两个人在相同的环境环境下执行同时但不同的活动，我们也利用基于声学的预训练的HAR模型来对IMU数据进行跨模式标记。我们观察到，在环境声学环境中两个人执行的同时活动中，存在非重叠的声学差距，这有助于我们解决重叠的活动签名以单独标记它们。对两个现实生活中的内部数据集的拟议方法的原则评估进一步增强以创建双重乘员设置，表明该框架可以正确注释来自两个人的大量未标记的IMU数据，这些数据具有$ \ mathbf { 82.59 \％} $（$ \ Mathbf {\ pm 17.94 \％} $）和$ \ Mathbf {98.32 \％} $（$ \ Mathbf {\ Mathbf {\ PM 3.68 \％} $）环境。

translated by 谷歌翻译

Human Activity Recognition on wrist-worn accelerometers using self-supervised neural networks

Niranjan Sridhar , Lance Myers

分类：机器学习 | 计算机视觉

2021-12-22

日常生活的活动措施（ADL）是整体健康状况的重要指标，但难以测量诊所。使用手腕磨损的加速度计自动和准确的人类活动识别（HAR）可以实现ADL的实用和成本高效的远程监控。开发高质量Har中的关键障碍是缺乏大型标记的数据集和在将小型策级数据集培训的模型应用于现实生活中的不均匀数据的连续流时缺乏大型标记数据集和性能损失。在这项工作中，我们设计了一个自我监督的学习范例，以创建可以跨设备和主题概括的加速度计数据的强大表示。我们展示了这种代表可以使用很少的标签分离日常生活活动并实现强大的RAR准确性（在多个基准数据集上）。我们还提出了一种分割算法，可以识别突出活动的段，并在连续的现实生活数据上升高掌握。

translated by 谷歌翻译

Cadence: A Practical Time-series Partitioning Algorithm for Unlabeled IoT Sensor Streams

Tahiya Chowdhury , Murtadha Aldeer , Shantanu Laghate , Jorge Ortiz

分类：机器学习

2021-12-06

TimeSeries Partitioning是大多数机器学习驱动的传感器的IOT应用程序的重要步骤。本文介绍了一种采样效率，鲁棒，时序分割模型和算法。我们表明，通过基于最大平均差异（MMD）的分割目标来学习特定于分割目标的表示，我们的算法可以鲁布布地检测不同应用程序的时间序列事件。我们的损耗功能允许我们推断是否从相同的分布（空假设）中绘制了连续的样本序列，并确定拒绝零假设的对之间的变化点（即，来自不同的分布）。我们展示了其在基于环境传感的活动识别的实际IOT部署中的适用性。此外，虽然文献中存在许多关于变更点检测的作品，但我们的模型明显更简单，匹配或优于最先进的方法。我们可以平均地在9-93秒内完全培训我们的模型，而在不同应用程序上的数据的差异很小。

translated by 谷歌翻译

Inconsistencies in Measuring Student Engagement in Virtual Learning -- A Critical Review

Shehroz S. Khan , Ali Abedi , Tracey Colella

分类：计算机视觉

2022-08-09

近年来，虚拟学习已成为传统课堂教学的替代方法。学生参与虚拟学习可能会对满足学习目标和计划辍学风险产生重大影响。在虚拟学习环境中，有许多专门针对学生参与度（SE）的测量工具。在这项关键综述中，我们分析了这些作品，并从不同的参与定义和测量量表上突出了不一致之处。现有研究人员之间的这种多样性在比较不同的注释和构建可推广的预测模型时可能会出现问题。我们进一步讨论了有关参与注释和设计缺陷的问题。我们根据我们定义的七个参与注释的七个维度分析现有的SE注释量表，包括来源，用于注释的数据模式，注释发生的时间，注释发生的时间段，抽象，组合和组合水平的时间段，定量。令人惊讶的发现之一是，在SE测量中，很少有审查的数据集使用了现有的精神法法学验证量表中的注释中。最后，我们讨论了除虚拟学习以外的其他一些范围，这些量表具有用于测量虚拟学习中SE的潜力。

translated by 谷歌翻译

Face-to-Face Co-Located Human-Human Social Interaction Analysis using Nonverbal Cues: A Survey

Cigdem Beyan , Alessandro Vinciarelli , Alessio Del Bue

分类：人工智能 | 计算机视觉 | 机器学习

2022-07-20

这项工作对最近的努力进行了系统的综述（自2010年以来），旨在自动分析面对面共同关联的人类社交互动中显示的非语言提示。专注于非语言提示的主要原因是，这些是社会和心理现象的物理，可检测到的痕迹。因此，检测和理解非语言提示至少在一定程度上意味着检测和理解社会和心理现象。所涵盖的主题分为三个：a）建模社会特征，例如领导力，主导，人格特质，b）社会角色认可和社会关系检测以及c）群体凝聚力，同情，rapport和so的互动动态分析向前。我们针对共同的相互作用，其中相互作用的人永远是人类。该调查涵盖了各种各样的环境和场景，包括独立的互动，会议，室内和室外社交交流，二元对话以及人群动态。对于他们每个人，调查都考虑了非语言提示分析的三个主要要素，即数据，传感方法和计算方法。目的是突出显示过去十年的主要进步，指出现有的限制并概述未来的方向。

translated by 谷歌翻译

Beyond Just Vision: A Review on Self-Supervised Representation Learning on Multimodal and Temporal Data

Shohreh Deldari , Hao Xue , Aaqib Saeed , Jiayuan He , Daniel V. Smith , Flora D. Salim

分类：机器学习 | 计算机视觉

2022-06-06

最近，自我监督的表示学习（SSRL）在计算机视觉，语音，自然语言处理（NLP）以及最近的其他类型的模式（包括传感器的时间序列）中引起了很多关注。自我监督学习的普及是由传统模型通常需要大量通知数据进行培训的事实所驱动的。获取带注释的数据可能是一个困难且昂贵的过程。已经引入了自我监督的方法，以通过使用从原始数据自由获得的监督信号对模型进行判别预训练来提高训练数据的效率。与现有的对SSRL的评论不同，该评论旨在以单一模式为重点介绍CV或NLP领域的方法，我们旨在为时间数据提供对多模式自我监督学习方法的首次全面审查。为此，我们1）提供现有SSRL方法的全面分类，2）通过定义SSRL框架的关键组件来引入通用管道，3）根据其目标功能，网络架构和潜在应用程序，潜在的应用程序，潜在的应用程序，比较现有模型， 4）查看每个类别和各种方式中的现有多模式技术。最后，我们提出了现有的弱点和未来的机会。我们认为，我们的工作对使用多模式和/或时间数据的域中SSRL的要求有了一个观点

translated by 谷歌翻译

Proceedings of the 3rd International Workshop on Reading Music Systems

Jorge Calvo-Zaragoza , Alexander Pacha

分类：计算机视觉 | 机器学习

2022-12-01

The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.

translated by 谷歌翻译

Integrating Deep Learning and Augmented Reality to Enhance Situational Awareness in Firefighting Environments

Manish Bhattarai

分类：计算机视觉

2021-07-23

我们提出了一种新的四管齐下的方法，在文献中首次建立消防员的情境意识。我们构建了一系列深度学习框架，彼此之叠，以提高消防员在紧急首次响应设置中进行的救援任务的安全性，效率和成功完成。首先，我们使用深度卷积神经网络（CNN）系统，以实时地分类和识别来自热图像的感兴趣对象。接下来，我们将此CNN框架扩展了对象检测，跟踪，分割与掩码RCNN框架，以及具有多模级自然语言处理（NLP）框架的场景描述。第三，我们建立了一个深入的Q学习的代理，免受压力引起的迷失方向和焦虑，能够根据现场消防环境中观察和存储的事实来制定明确的导航决策。最后，我们使用了一种低计算无监督的学习技术，称为张量分解，在实时对异常检测进行有意义的特征提取。通过这些临时深度学习结构，我们建立了人工智能系统的骨干，用于消防员的情境意识。要将设计的系统带入消防员的使用，我们设计了一种物理结构，其中处理后的结果被用作创建增强现实的投入，这是一个能够建议他们所在地的消防员和周围的关键特征，这对救援操作至关重要在手头，以及路径规划功能，充当虚拟指南，以帮助迷彩的第一个响应者恢复安全。当组合时，这四种方法呈现了一种新颖的信息理解，转移和综合方法，这可能会大大提高消防员响应和功效，并降低寿命损失。

translated by 谷歌翻译

Modeling Live Video Streaming: Real-Time Classification, QoE Inference, and Field Evaluation

Sharat Chandra Madanapalli , Alex Mathai , Hassan Habibi Gharakheili , Vijay Sivaraman

分类：人工智能 | 机器学习

2021-12-05

社交媒体，职业运动和视频游戏正在推动实时视频流的快速增长，在抽搐和YouTube Live等平台上。自动流媒体经验非常易于短时间级网络拥塞，因为客户端播放缓冲区通常不超过几秒钟。不幸的是，识别这些流和测量他们的QoE进行网络管理是具有挑战性的，因为内容提供商在很大程度上使用相同的交付基础设施来用于实时和视频点播（VOD）流，并且不能提供数据包检查技术（包括SNI / DNS查询监控）始终区分两者。在本文中，我们设计，构建和部署康复：基于网络级行为特征的实时视频检测和QoE测量的机器学习方法。我们的贡献是四倍：（1）我们从抽搐和YouTube分析约23,000个视频流，并在其流量配置文件中识别区分实时和按需流的关键功能。我们将我们的交通迹线释放为公众的开放数据; （2）我们开发基于LSTM的二进制分类器模型，该模型将Live从按需流实时区分，在提供商的高度超过95％的准确度; （3）我们开发了一种方法，估计实时流动流动的QoE度量，分辨率和缓冲率分别分别为93％和90％的总体精度; （4）最后，我们将我们的解决方案原型，将其培训在实验室中，并在服务于7,000多名订阅者的Live ISP网络中部署它。我们的方法提供了ISP，具有细粒度的可视性，进入实时视频流，使它们能够测量和改善用户体验。

translated by 谷歌翻译

ConfLab: A Rich Multimodal Multisensor Dataset of Free-Standing Social Interactions in the Wild

Chirag Raman , Jose Vargas-Quiros , Stephanie Tan , Ekin Gedik , Ashraful Islam , Hayley Hung

分类：机器学习

2022-05-10

由于几个因素之间的微妙权衡：参与者的隐私，生态有效性，数据保真度和后勤开销，记录野外未脚本人类互动的动态是具有挑战性的。为了解决这些问题，在社区精神上为社区的“数据集”之后，我们提出了会议生活实验室（Conflab）：一个新的概念，用于多模式多模式数据收集，野生野外社交对话。对于此处描述的Conflab的首次实例化，我们在一次大型国际会议上组织了现实生活中的专业网络活动。该数据集涉及48个会议参与者，捕捉了地位，熟人和网络动机的各种组合。我们的捕获设置改善了先前野外数据集的数据保真度，同时保留隐私敏感性：从非侵入性的架空视图中获得8个视频（1920x1080，60 fps），并具有定制的可穿戴传感器，并带有车载记录（完整9） - 轴IMU），具有隐私性的低频音频（1250 Hz）和基于蓝牙的接近度。此外，我们开发了用于采集时分布式硬件同步的自定义解决方案，并以高采样速率对身体关键点和动作进行了及时的连续注释。我们的基准测试展示了与野外隐私保护社交数据分析有关的一些开放研究任务：从高架摄像头视图，基于骨架的No-Audio扬声器检测和F-Formation检测中的关键点检测。

translated by 谷歌翻译

Outlier Detection using AI: A Survey

Md Nazmul Kabir Sikder , Feras A. Batarseh

分类：机器学习 | 人工智能 | (统计)机器学习

2021-12-01

异常值是一个事件或观察，其被定义为不同于距群体的不规则距离的异常活动，入侵或可疑数据点。然而，异常事件的定义是主观的，取决于应用程序和域（能量，健康，无线网络等）。重要的是要尽可能仔细地检测异常事件，以避免基础设施故障，因为异常事件可能导致对基础设施的严重损坏。例如，诸如微电网的网络物理系统的攻击可以发起电压或频率不稳定性，从而损坏涉及非常昂贵的修复的智能逆变器。微电网中的不寻常活动可以是机械故障，行为在系统中发生变化，人体或仪器错误或恶意攻击。因此，由于其可变性，异常值检测（OD）是一个不断增长的研究领域。在本章中，我们讨论了使用AI技术的OD方法的进展。为此，通过多个类别引入每个OD模型的基本概念。广泛的OD方法分为六大类：基于统计，基于距离，基于密度的，基于群集的，基于学习的和合奏方法。对于每个类别，我们讨论最近最先进的方法，他们的应用领域和表演。之后，关于对未来研究方向的建议提供了关于各种技术的优缺点和挑战的简要讨论。该调查旨在指导读者更好地了解OD方法的最新进展，以便保证AI。

translated by 谷歌翻译

My(o) Armband Leaks Passwords: An EMG and IMU Based Keylogging Side-Channel Attack

Matthias Gazzari , Annemarie Mattmann , Max Maass , Matthias Hollick

分类：机器学习

2021-12-04

可穿戴设备，不断收集用户的各种传感器数据，增加了无意和敏感信息的推论的机会，例如在物理键盘上键入的密码。我们彻底看看使用电拍摄（EMG）数据的潜力，这是一个新的传感器模式，这是市场新的，但最近在可穿戴物的上下文中受到关注，用于增强现实（AR），用于键盘侧通道攻击。我们的方法是基于使用Myo Armband收集传感器数据的逼真场景中对象攻击之间的神经网络。在我们的方法中，与加速度计和陀螺相比，EMG数据被证明是最突出的信息来源，增加了击键检测性能。对于我们对原始数据的端到端方法，我们报告了击键检测的平均平衡准确性，击键检测的平均高度高精度为52级，为不同优势密码的密钥识别约32％。我们创建了一个广泛的数据集，包括从37个志愿者录制的310 000次击键，它可作为开放式访问，以及用于创建给定结果的源代码。

translated by 谷歌翻译

MECCANO: A Multimodal Egocentric Dataset for Humans Behavior Understanding in the Industrial-like Domain

Francesco Ragusa , Antonino Furnari , Giovanni Maria Farinella

分类：计算机视觉

2022-09-19

可穿戴摄像机可以从用户的角度获取图像和视频。可以处理这些数据以了解人类的行为。尽管人类的行为分析已在第三人称视野中进行了彻底的研究，但仍在以自我为中心的环境中，尤其是在工业场景中进行了研究。为了鼓励在该领域的研究，我们介绍了Meccano，这是一个以自我为中心视频的多式模式数据集来研究类似工业的环境中的人类行为理解。多模式的特征是凝视信号，深度图和RGB视频同时使用自定义耳机获得。该数据集已在从第一人称视角的人类行为理解的背景下明确标记为基本任务，例如识别和预测人类对象的相互作用。使用MECCANO数据集，我们探索了五个不同的任务，包括1）动作识别，2）活动对象检测和识别，3）以自我为中心的人类对象互动检测，4）动作预期和5）下一步活动对象检测。我们提出了一个旨在研究人类行为的基准，该基准在被考虑的类似工业的情况下，表明所研究的任务和所考虑的方案对于最先进的算法具有挑战性。为了支持该领域的研究，我们在https://iplab.dmi.unict.it/meccano/上公开发布数据集。

translated by 谷歌翻译

CovidAlert -- A Wristwatch-based System to Alert Users from Face Touching

Mrinmoy Roy , Venkata Devesh Reddy Seethi , Pratool Bharti

分类：机器学习

2021-11-30

全球2019百万人被感染，450万失去了持续的Covid-19大流行病。直到疫苗变得广泛的可用，预防措施和安全措施，如戴着面具，身体疏远，避免面对面触摸是一些抑制病毒传播的主要手段。脸部触摸是一种强迫性的人Begvior，在不进行持续派生的情况下，不能防止，即使那么它是不可避免的。为了解决这个问题，我们设计了一种基于SmartWatch的解决方案，Covidalert，利用了随机森林算法，从SmartWatch训练了加速度计和陀螺数据，以检测到面部的手动转换，并向用户发送快速触觉警报。 Covidalert是高能量的，因为它使用STA / LTA算法作为网守，在用户处于非活动状态时缩短手表上随机林模型的使用。我们的系统的整体准确性为88.4％，具有低假阴性和误报。我们还通过在商业化石Gen 5 Smartwatch上实现了系统的活力。

translated by 谷歌翻译

COCOA: Cross Modality Contrastive Learning for Sensor Data

Shohreh Deldari , Hao Xue , Aaqib Saeed , Daniel V. Smith , Flora D. Salim

分类：计算机视觉 | 机器学习

2022-07-31

自我监督学习（SSL）是一个新的范式，用于学习判别性表示没有标记的数据，并且与受监督的对手相比，已经达到了可比甚至最新的结果。对比度学习（CL）是SSL中最著名的方法之一，试图学习一般性的信息表示数据。 CL方法主要是针对仅使用单个传感器模态的计算机视觉和自然语言处理应用程序开发的。但是，大多数普遍的计算应用程序都从各种不同的传感器模式中利用数据。虽然现有的CL方法仅限于从一个或两个数据源学习，但我们提出了可可（Crockoa）（交叉模态对比度学习），这是一种自我监督的模型，该模型采用新颖的目标函数来通过计算多功能器数据来学习质量表示形式不同的数据方式，并最大程度地减少了无关实例之间的相似性。我们评估可可对八个最近引入最先进的自我监督模型的有效性，以及五个公共数据集中的两个受监督的基线。我们表明，可可与所有其他方法相比，可可的分类表现出色。同样，可可比其他可用标记数据的十分之一的基线（包括完全监督的模型）的标签高得多。

translated by 谷歌翻译

PALMAR: Towards Adaptive Multi-inhabitant Activity Recognition in Point-Cloud Technology

Mohammad Arif Ul Alam , Md Mahmudur Rahman , Jared Q Widberg

分类：计算机视觉 | 人工智能

2021-06-22

With the advancement of deep neural networks and computer vision-based Human Activity Recognition, employment of Point-Cloud Data technologies (LiDAR, mmWave) has seen a lot interests due to its privacy preserving nature. Given the high promise of accurate PCD technologies, we develop, PALMAR, a multiple-inhabitant activity recognition system by employing efficient signal processing and novel machine learning techniques to track individual person towards developing an adaptive multi-inhabitant tracking and HAR system. More specifically, we propose (i) a voxelized feature representation-based real-time PCD fine-tuning method, (ii) efficient clustering (DBSCAN and BIRCH), Adaptive Order Hidden Markov Model based multi-person tracking and crossover ambiguity reduction techniques and (iii) novel adaptive deep learning-based domain adaptation technique to improve the accuracy of HAR in presence of data scarcity and diversity (device, location and population diversity). We experimentally evaluate our framework and systems using (i) a real-time PCD collected by three devices (3D LiDAR and 79 GHz mmWave) from 6 participants, (ii) one publicly available 3D LiDAR activity data (28 participants) and (iii) an embedded hardware prototype system which provided promising HAR performances in multi-inhabitants (96%) scenario with a 63% improvement of multi-person tracking than state-of-art framework without losing significant system performances in the edge computing device.

translated by 谷歌翻译

Machine Learning for Stuttering Identification: Review, Challenges and Future Directions

Shakeel Ahmad Sheikh , Md Sahidullah , Fabrice Hirsch , Slim Ouni

分类：机器学习

2021-07-08

口吃是一种言语障碍，在此期间，语音流被非自愿停顿和声音重复打断。口吃识别是一个有趣的跨学科研究问题，涉及病理学，心理学，声学和信号处理，使检测很难且复杂。机器和深度学习的最新发展已经彻底彻底改变了语音领域，但是对口吃的识别受到了最小的关注。这项工作通过试图将研究人员从跨学科领域聚集在一起来填补空白。在本文中，我们回顾了全面的声学特征，基于统计和深度学习的口吃/不足分类方法。我们还提出了一些挑战和未来的指示。

translated by 谷歌翻译

Towards trustworthy Energy Disaggregation: A review of challenges, methods and perspectives for Non-Intrusive Load Monitoring

Maria Kaselimi , Eftychios Protopapadakis , Athanasios Voulodimos , Nikolaos Doulamis , Anastasios Doulamis

分类：机器学习 | 人工智能

2022-07-05

非侵入性负载监控（NILM）是将总功率消耗分为单个子组件的任务。多年来，已经合并了信号处理和机器学习算法以实现这一目标。关于最先进的方法，进行了许多出版物和广泛的研究工作，以涉及最先进的方法。科学界最初使用机器学习工具的尼尔姆问题制定和描述的最初兴趣已经转变为更实用的尼尔姆。如今，我们正处于成熟的尼尔姆时期，在现实生活中的应用程序方案中尝试使用尼尔姆。因此，算法的复杂性，可转移性，可靠性，实用性和普遍的信任度是主要的关注问题。这篇评论缩小了早期未成熟的尼尔姆时代与成熟的差距。特别是，本文仅对住宅电器的尼尔姆方法提供了全面的文献综述。本文分析，总结并介绍了大量最近发表的学术文章的结果。此外，本文讨论了这些方法的亮点，并介绍了研究人员应考虑的研究困境，以应用尼尔姆方法。最后，我们表明需要将传统分类模型转移到一个实用且值得信赖的框架中。

translated by 谷歌翻译

A Review of Speaker Diarization: Recent Advances with Deep Learning

Tae Jin Park , Naoyuki Kanda , Dimitrios Dimitriadis , Kyu J. Han , Shinji Watanabe , Shrikanth Narayanan

分类：自然语言处理

2021-01-24

扬声器日流是一个标签音频或视频录制的任务，与扬声器身份或短暂的任务标记对应于扬声器标识的类，以识别“谁谈到何时发表讲话”。在早期，对MultiSpeaker录音的语音识别开发了扬声器日益衰退算法，以使扬声器自适应处理能够实现扬声器自适应处理。这些算法还将自己的价值作为独立应用程序随着时间的推移，为诸如音频检索等下游任务提供特定于扬声器的核算。最近，随着深度学习技术的出现，这在讲话应用领域的研究和实践中引起了革命性的变化，对扬声器日益改善已经进行了快速进步。在本文中，我们不仅审查了扬声器日益改善技术的历史发展，而且还审查了神经扬声器日益改善方法的最新进步。此外，我们讨论了扬声器日复速度系统如何与语音识别应用相结合，以及最近深度学习的激增是如何引领联合建模这两个组件互相互补的方式。通过考虑这种令人兴奋的技术趋势，我们认为本文对社区提供了有价值的贡献，以通过巩固具有神经方法的最新发展，从而促进更有效的扬声器日益改善进一步进展。

translated by 谷歌翻译

Toyota Smarthome Untrimmed: Real-World Untrimmed Videos for Activity Detection

Rui Dai , Srijan Das , Saurav Sharma , Luca Minciullo , Lorenzo Garattoni , Francois Bremond , Gianpiero Francesca

分类：计算机视觉

2020-10-28

设计可以成功部署在日常生活环境中的活动检测系统需要构成现实情况典型挑战的数据集。在本文中，我们介绍了一个新的未修剪日常生存数据集，该数据集具有几个现实世界中的挑战：Toyota Smarthome Untrimmed（TSU）。 TSU包含以自发方式进行的各种活动。数据集包含密集的注释，包括基本的，复合活动和涉及与对象相互作用的活动。我们提供了对数据集所需的现实世界挑战的分析，突出了检测算法的开放问题。我们表明，当前的最新方法无法在TSU数据集上实现令人满意的性能。因此，我们提出了一种新的基线方法，以应对数据集提供的新挑战。此方法利用一种模态（即视线流）生成注意力权重，以指导另一种模态（即RGB）以更好地检测活动边界。这对于检测以高时间差异为特征的活动特别有益。我们表明，我们建议在TSU和另一个受欢迎的挑战数据集Charades上优于最先进方法的方法。

translated by 谷歌翻译