智能论文笔记

Human Activity Recognition Using 3D Orthogonally-projected EfficientNet on Radar Time-Range-Doppler Signature

Zeyu Wang , Chenglin Yao , Jianfeng Ren , Xudong Jiang

分类：计算机视觉

2021-11-24

在雷达活动识别中，通常利用诸如谱图，克斯特劳和节奏速度图的2D信号表示，而范围信息通常被忽略。在这项工作中，我们建议利用3D时间范围 - 多普勒（TRD）表示，并设计3D正交投影的有效网络（3D-OPEN），以有效地捕获嵌入在3D TRD立方体中的判别信息以进行准确分类。该建议的模型从3D特征空间投影的三个正交平面中汇总判别信息。它减轻了3D CNNS在利用高维3D表示中利用稀疏语义抽象中的困难。在毫米波雷达步行数据集上评估所提出的方法。它显着且始终如一地优于雷达活动识别的最先进方法。

translated by 谷歌翻译

Attention-based Dual-stream Vision Transformer for Radar Gait Recognition

Shiliang Chen , Wentao He , Jianfeng Ren , Xudong Jiang

分类：计算机视觉

2021-11-24

雷达步态识别对于轻微的变化和侵犯隐私的侵权是强大的。以前的研究通常利用谱图或节奏速度图。虽然前者显示时频模式，但后者编码重复频率模式。在这项工作中，提出了一种具有基于注意力的融合的双流神经网络，以完全聚合来自这两个表示的判别信息。这两个流都是基于视觉变压器设计的，该变压器很好地捕获嵌入这些表示中的步态特性。该方法在大型基准数据集上验证了雷达步态识别，这表明它显着优于最先进的解决方案。

translated by 谷歌翻译

Eat-Radar: Continuous Fine-Grained Eating Gesture Detection Using FMCW Radar and 3D Temporal Convolutional Network

Chunzhuo Wang , T. Sunil Kumar , Walter De Raedt , Guido Camps , Hans Hallez , Bart Vanrumste

分类：计算机视觉

2022-11-08

Unhealthy dietary habits are considered as the primary cause of multiple chronic diseases such as obesity and diabetes. The automatic food intake monitoring system has the potential to improve the quality of life (QoF) of people with dietary related diseases through dietary assessment. In this work, we propose a novel contact-less radar-based food intake monitoring approach. Specifically, a Frequency Modulated Continuous Wave (FMCW) radar sensor is employed to recognize fine-grained eating and drinking gestures. The fine-grained eating/drinking gesture contains a series of movement from raising the hand to the mouth until putting away the hand from the mouth. A 3D temporal convolutional network (3D-TCN) is developed to detect and segment eating and drinking gestures in meal sessions by processing the Range-Doppler Cube (RD Cube). Unlike previous radar-based research, this work collects data in continuous meal sessions. We create a public dataset that contains 48 meal sessions (3121 eating gestures and 608 drinking gestures) from 48 participants with a total duration of 783 minutes. Four eating styles (fork & knife, chopsticks, spoon, hand) are included in this dataset. To validate the performance of the proposed approach, 8-fold cross validation method is applied. Experimental results show that our proposed 3D-TCN outperforms the model that combines a convolutional neural network and a long-short-term-memory network (CNN-LSTM), and also the CNN-Bidirectional LSTM model (CNN-BiLSTM) in eating and drinking gesture detection. The 3D-TCN model achieves a segmental F1-score of 0.887 and 0.844 for eating and drinking gestures, respectively. The results of the proposed approach indicate the feasibility of using radar for fine-grained eating and drinking gesture detection and segmentation in meal sessions.

translated by 谷歌翻译

Towards Domain-Independent and Real-Time Gesture Recognition Using mmWave Signal

Yadong Li , Dongheng Zhang , Jinbo Chen , Jinwei Wan , Dong Zhang , Yang Hu , Qibin Sun , Yan Chen

分类：计算机视觉 | 机器学习

2021-11-11

使用毫米波（MMWAVE）信号的人类手势识别提供有吸引力的应用，包括智能家居和车载界面。虽然现有的作品在受控设置下实现有前途的性能，但实际应用仍然有限，因为需要密集数据收集，适应新域时的额外培训努力（即环境，人员和地点）和实时识别的表现不佳。在本文中，我们提出了Di-Gesture，一个独立于域和实时MMWAVE手势识别系统。具体地，我们首先导出与具有空间时间处理的人体手势对应的信号变化。为了增强系统的稳健性并减少数据收集工作，我们根据信号模式与手势变化之间的相关性设计数据增强框架。此外，我们提出了一种动态窗口机制来自动且准确地执行手势分割，从而能够实时识别。最后，我们建立了一种轻量级神经网络，以从用于手势分类的数据中提取空间信息。广泛的实验结果表明，Di-Gesture分别为新用户，环境和地点的平均精度为97.92％，99.18％和98.76％。在实时场景中，Di-Gesutre的准确性达到97％以上，平均推断时间为2.87ms，这表明了我们系统的优越稳健性和有效性。

translated by 谷歌翻译

CubeLearn: End-to-end Learning for Human Motion Recognition from Raw mmWave Radar Signals

Peijun Zhao , Chris Xiaoxuan Lu , Bing Wang , Niki Trigoni , Andrew Markham

分类：机器学习

2021-11-07

近年来，MMWave FMCW雷达吸引了人类居中应用的大量研究兴趣，例如人类姿态/活动识别。大多数现有的管道由传统的离散傅立叶变换（DFT）预处理和深神经网络分类器混合方法建立，其中大多数以前的作品专注于设计下游分类器以提高整体精度。在这项工作中，我们返回返回并查看预处理模块。为了避免传统DFT预处理的缺点，我们提出了一个名为Cubelearn的学习预处理模块，直接从原始雷达信号中提取特征，并为MMWAVE FMCW雷达运动识别应用构建端到端的深神经网络。广泛的实验表明，我们的立方体模块一直提高不同管道的分类准确性，特别是利益以前较弱的模型。我们提供关于所提出的模块的初始化方法和结构的消融研究，以及对PC和边缘设备上运行时间的评估。这项工作也用作不同方法对数据立方体切片的比较。通过我们的任务无关设计，我们向雷达识别问题提出了一步迈向通用端到端解决方案。

translated by 谷歌翻译

RFGAN: RF-Based Human Synthesis

Cong Yu , Zhi Wu , Dongheng Zhang , Zhi Lu , Yang Hu , Yan Chen

分类：人工智能

2021-12-07

本文展示了基于射频（RF）信号的人为合成，该信号利用RF信号可以通过从人体的信号反射记录人类运动的事实。与现有的RF传感作品不同，只能粗略地感知人类，本文旨在通过引入新颖的跨模型RFGAN模型来产生细粒度的光学人体图像。具体地，我们首先构建一个配备有水平和垂直天线阵列的无线电系统以收发RF信号。由于反射的RF信号被处理为水平和垂直平面上的模糊信号投影加热器，因此我们在RFGAN中设计RF提取器，用于RF热图编码并组合以获得人类活动信息。然后，我们使用所提出的基于RF的自适应训练注入由RF-Extrutioner和RNN提取的信息作为GaN中的条件。最后，我们以端到端的方式训练整个模型。为了评估我们所提出的模型，我们创建了两个跨模型数据集（RF-Walk＆RF-Activity），其包含数千个光学人类活动帧和相应的RF信号。实验结果表明，RFGAN可以使用RF信号产生目标人类活动帧。据我们所知，这是基于RF信号生成光学图像的第一个工作。

translated by 谷歌翻译

DroneAttention: Sparse Weighted Temporal Attention for Drone-Camera Based Activity Recognition

Santosh Kumar Yadav , Achleshwar Luthra , Esha Pahwa , Kamlesh Tiwari , Heena Rathore , Hari Mohan Pandey , Peter Corcoran

分类：计算机视觉

2022-12-07

Human activity recognition (HAR) using drone-mounted cameras has attracted considerable interest from the computer vision research community in recent years. A robust and efficient HAR system has a pivotal role in fields like video surveillance, crowd behavior analysis, sports analysis, and human-computer interaction. What makes it challenging are the complex poses, understanding different viewpoints, and the environmental scenarios where the action is taking place. To address such complexities, in this paper, we propose a novel Sparse Weighted Temporal Attention (SWTA) module to utilize sparsely sampled video frames for obtaining global weighted temporal attention. The proposed SWTA is comprised of two parts. First, temporal segment network that sparsely samples a given set of frames. Second, weighted temporal attention, which incorporates a fusion of attention maps derived from optical flow, with raw RGB images. This is followed by a basenet network, which comprises a convolutional neural network (CNN) module along with fully connected layers that provide us with activity recognition. The SWTA network can be used as a plug-in module to the existing deep CNN architectures, for optimizing them to learn temporal information by eliminating the need for a separate temporal stream. It has been evaluated on three publicly available benchmark datasets, namely Okutama, MOD20, and Drone-Action. The proposed model has received an accuracy of 72.76%, 92.56%, and 78.86% on the respective datasets thereby surpassing the previous state-of-the-art performances by a margin of 25.26%, 18.56%, and 2.94%, respectively.

translated by 谷歌翻译

A MIMO Radar-Based Metric Learning Approach for Activity Recognition

Fady Aziz , Omar Metwally , Pascal Weller , Urs Schneider , Marco F. Huber

分类：机器学习

2021-11-02

人类的活动识别在医学和监视领域具有重要意义。基于捕获的微多普勒（{\ mu} -d）签名，雷达对该字段表示了很大的可行性。在本文中，MIMO雷达用于制定用于非切向方案中的角速度（{\ mu} - {\ omega}）的新型微动谱图。组合{\ mu} -d和{\ mu} - {\ omega}签名表现出更好的性能。基于公制学习方法实现了88.9％的分类准确性。实验设置旨在捕获不同方面角度和视线（LOS）上的微观运动签名。与最先进的技术相比，利用的训练数据集具有较小的尺寸，其中捕获了八项活动。几次拍摄的学习方法用于调整预训练模型进行崩溃检测。最终模型显示了十项活动的分类准确性为86.42％。

translated by 谷歌翻译

Cross Vision-RF Gait Re-identification with Low-cost RGB-D Cameras and mmWave Radars

Dongjiang Cao , Ruofeng Liu , Hao Li , Shuai Wang , Wenchao Jiang , Chris Xiaoxuan Lu

分类：计算机视觉

2022-07-16

人类身份是对日常生活中许多应用的关键要求，例如个性化服务，自动监视，连续身份验证和大流行期间的接触跟踪等。这项工作研究了跨模式人类重新识别（REID）的问题，对跨摄像机允许区域（例如街道）和摄像头限制区域（例如办公室）的常规人类运动的反应。通过利用新出现的低成本RGB-D摄像机和MMWave雷达，我们提出了同时跨模式多人REID的首个视觉RF系统。首先，为了解决基本模式间差异，我们提出了一种基于人体观察到的镜面反射模型的新型签名合成算法。其次，引入了有效的跨模式深度度量学习模型，以应对在雷达和相机之间由非同步数据引起的干扰。通过在室内和室外环境中进行的广泛实验，我们证明了我们所提出的系统能够达到约92.5％的TOP-1准确性，而在56名志愿者中，〜97.5％的前5位精度。我们还表明，即使传感器的视野中存在多个主题，我们提出的系统也能够重新识别受试者。

translated by 谷歌翻译

A recurrent CNN for online object detection on raw radar frames

Colin Decourt , Rufin VanRullen , Didier Salle , Thomas Oberlin

分类：计算机视觉

2022-12-21

Automotive radar sensors provide valuable information for advanced driving assistance systems (ADAS). Radars can reliably estimate the distance to an object and the relative velocity, regardless of weather and light conditions. However, radar sensors suffer from low resolution and huge intra-class variations in the shape of objects. Exploiting the time information (e.g., multiple frames) has been shown to help to capture better the dynamics of objects and, therefore, the variation in the shape of objects. Most temporal radar object detectors use 3D convolutions to learn spatial and temporal information. However, these methods are often non-causal and unsuitable for real-time applications. This work presents RECORD, a new recurrent CNN architecture for online radar object detection. We propose an end-to-end trainable architecture mixing convolutions and ConvLSTMs to learn spatio-temporal dependencies between successive frames. Our model is causal and requires only the past information encoded in the memory of the ConvLSTMs to detect objects. Our experiments show such a method's relevance for detecting objects in different radar representations (range-Doppler, range-angle) and outperform state-of-the-art models on the ROD2021 and CARRADA datasets while being less computationally expensive. The code will be available soon.

translated by 谷歌翻译

Unsupervised Doppler Radar-Based Activity Recognition for e-Healthcare

Yordanka Karayaneva , Sara Sharifzadeh , Wenda Li , Yanguo Jing , Bo Tan

分类：机器学习

2021-03-18

被动射频（RF）感测和对老年护理房屋的人类日常活动监测是一个新兴的话题。微多普勒雷达是一种吸引人的解决方案，考虑到它们的非侵入性，深渗透和高距离范围。尽管在真实情景中未标记或较差的活动的情况下，但是使用多普勒雷达数据的无监督活动识别尚未得到注意。本研究提出了使用多普勒流的人类活动监测的两个无监督特征提取方法。这些包括基于局部离散余弦变换（DCT）的特征提取方法和基于局部熵的特征提取方法。此外，对于多普勒雷达数据，首次采用了卷积变分性自动化器（CVAE）特征提取的新应用。将三种特征提取架构与先前使用的卷积AutoEncoder（CAE）和基于主成分分析（PCA）和2DPCA的线性特征提取进行比较。使用K-Means和K-METOIDS进行无监督的聚类。结果表明，与CAE，PCA和2DPCA相比，基于DCT的方法，基于熵的方法和CVAE特征的优越性，具有超过5 \％-20 \％的平均精度。关于计算时间，两个提出的方法明显比现有的CVAE快得多。此外，对于高维数据可视化，考虑了三种歧管学习技术。比较方法，以对原始数据的投影以及编码的CVAE特征进行比较。当应用于编码的CVAE特征时，所有三种方法都显示出改善的可视化能力。

translated by 谷歌翻译

GaitFi: Robust Device-Free Human Identification via WiFi and Vision Multimodal Learning

Lang Deng , Jianfei Yang , Shenghai Yuan , Han Zou , Chris Xiaoxuan Lu , Lihua Xie

分类：计算机视觉 | 人工智能

2022-08-30

作为人类识别的重要生物标志物，可以通过被动传感器在没有主题合作的情况下以远距离收集人步态，这在预防犯罪，安全检测和其他人类识别应用中起着至关重要的作用。目前，大多数研究工作都是基于相机和计算机视觉技术来执行步态识别的。但是，在面对不良的照明时，基于视觉的方法并不可靠，导致性能降解。在本文中，我们提出了一种新型的多模式步态识别方法，即gaitfi，该方法利用WiFi信号和视频进行人类识别。在GAITFI中，收集了反映WiFi多路径传播的通道状态信息（CSI），以捕获人体步态，而视频则由相机捕获。为了了解强大的步态信息，我们建议使用轻量级残留卷积网络（LRCN）作为骨干网络，并通过集成WiFi和Vision功能来进一步提出两流性gaitfi，以进行步态检索任务。通过在不同级别的特征上的三胞胎损失和分类损失进行训练。广泛的实验是在现实世界中进行的，该实验表明，基于单个WiFi或摄像机的GAITFI优于最先进的步态识别方法，对于12个受试者的人类识别任务而达到94.2％。

translated by 谷歌翻译

HTML版本

AFE-CNN: 3D Skeleton-based Action Recognition with Action Feature Enhancement

Shannan Guan , Haiyan Lu , Linchao Zhu , Gengfa Fang

分类：计算机视觉

2022-08-06

现有的基于3D骨架的动作识别方法通过将手工制作的动作功能编码为图像格式和CNN解码，从而达到了令人印象深刻的性能。但是，这种方法在两种方面受到限制：a）手工制作的动作功能很难处理具有挑战性的动作，b）通常需要复杂的CNN模型来提高动作识别精度，这通常会发生重大计算负担。为了克服这些局限性，我们引入了一种新颖的AFE-CNN，它致力于增强基于3D骨架的动作的特征，以适应具有挑战性的动作。我们提出了功能增强从关键关节，骨向量，关键框架和时间视角的模块，因此，AFE-CNN对摄像头视图和车身大小变化更为强大，并显着提高了对挑战性动作的识别精度。此外，我们的AFE-CNN采用了轻巧的CNN模型以增强动作功能来解码图像，从而确保了比最新方法低得多的计算负担。我们在三个基于基准骨架的动作数据集上评估了AFE-CNN：NTU RGB+D，NTU RGB+D 120和UTKINECT-ACTION3D，并取得了广泛的实验结果，这表明我们对AFE-CNN的出色表现。

translated by 谷歌翻译

MDPose: Human Skeletal Motion Reconstruction Using WiFi Micro-Doppler Signatures

Chong Tang , Wenda Li , Shelly Vishwakarma , Fangzhan Shi , Simon Julier , Kevin Chetty

分类：计算机视觉

2022-01-11

基于光学传感器的运动跟踪系统通常遭受问题，例如差的照明条件，遮挡，有限的覆盖，并且可以提高隐私问题。最近，已经出现了使用商业WiFi设备的基于射频（RF）的方法，这些方法提供了低成本的普遍感感知，同时保留隐私。然而，RF感测系统的输出，例如范围多普勒谱图，不能直观地代表人类运动，并且通常需要进一步处理。在本研究中，提出了基于WiFi微多普勒签名的人类骨骼运动重建的新颖框架。它提供了一种有效的解决方案，通过重建具有17个关键点的骨架模型来跟踪人类活动，这可以帮助以更易于理解的方式解释传统的RF感测输出。具体地，MDPose具有各种增量阶段来逐渐地解决一系列挑战：首先，实现去噪算法以去除可能影响特征提取的任何不需要的噪声，并增强弱多普勒签名。其次，应用卷积神经网络（CNN）-Recurrent神经网络（RNN）架构用于从清洁微多普勒签名和恢复关键点的速度信息学习时间空间依赖性。最后，采用姿势优化机制来估计骨架的初始状态并限制误差的增加。我们在各种环境中使用了许多受试者进行了全面的测试，其中许多受试者具有单个接收器雷达系统，以展示MDPOST的性能，并在所有关键点位置报告29.4mm的绝对误差，这优于最先进的RF-基于姿势估计系统。

translated by 谷歌翻译

FuTH-Net: Fusing Temporal Relations and Holistic Features for Aerial Video Classification

Pu Jin , Lichao Mou , Yuansheng Hua , Gui-Song Xia , Xiao Xiang Zhu

分类：计算机视觉

2022-09-22

由于其低成本和快速移动性，无人驾驶汽车（UAV）现在已广泛应用于数据获取。随着航空视频量的增加，对这些视频自动解析的需求正在激增。为了实现这一目标，当前的研究主要集中于在空间和时间维度沿着卷积的整体特征提取整体特征。但是，这些方法受到小时接收场的限制，无法充分捕获长期的时间依赖性，这对于描述复杂动力学很重要。在本文中，我们提出了一个新颖的深神经网络，称为futh-net，不仅为整体特征建模，而且还模拟了空中视频分类的时间关系。此外，在新型融合模块中，多尺度的时间关系可以完善整体特征，以产生更具歧视性的视频表示。更特别地，FUTH-NET采用了两条道路架构：（1）学习框架外观和短期时间变化的一般特征的整体代表途径，以及（2）捕获跨任意跨越任意时间关系的时间关系途径框架，提供长期的时间依赖性。之后，提出了一个新型的融合模块，以时空整合从这两种途径中学到的两个特征。我们的模型对两个航空视频分类数据集进行了评估，即ERA和无人机操作，并实现了最新结果。这表明了其在不同识别任务（事件分类和人类行动识别）之间的有效性和良好的概括能力。为了促进进一步的研究，我们在https://gitlab.lrz.de/ai4eo/reasoning/futh-net上发布该代码。

translated by 谷歌翻译

A Review of Indoor Millimeter Wave Device-based Localization and Device-free Sensing Technologies

Anish Shastri , Neharika Valecha , Enver Bashirov , Harsh Tataria , Michael Lentmaier , Fredrik Tufvesson , Michele Rossi , Paolo Casari

分类：机器学习

2021-12-10

低成本毫米波（MMWAVE）通信和雷达设备的商业可用性开始提高消费市场中这种技术的渗透，为第五代（5G）的大规模和致密的部署铺平了道路（5G） - 而且以及6G网络。同时，普遍存在MMWAVE访问将使设备定位和无设备的感测，以前所未有的精度，特别是对于Sub-6 GHz商业级设备。本文使用MMWAVE通信和雷达设备在基于设备的定位和无设备感应中进行了现有技术的调查，重点是室内部署。我们首先概述关于MMWAVE信号传播和系统设计的关键概念。然后，我们提供了MMWaves启用的本地化和感应方法和算法的详细说明。我们考虑了在我们的分析中的几个方面，包括每个工作的主要目标，技术和性能，每个研究是否达到了一定程度的实现，并且该硬件平台用于此目的。我们通过讨论消费者级设备的更好算法，密集部署的数据融合方法以及机器学习方法的受过教育应用是有前途，相关和及时的研究方向的结论。

translated by 谷歌翻译

Raw High-Definition Radar for Multi-Task Learning

Julien Rebut , Arthur Ouaknine , Waqas Malik , Patrick Pérez

分类：计算机视觉

2021-12-20

凭借其恶劣天气条件和测量速度的能力，雷达传感器已经成为汽车景观的一部分超过二十年的鲁棒性。最近的高清晰度（HD）成像雷达的进展使角分辨率低于程度，从而接近激光扫描性能。然而，数据量为HD雷达提供和计算成本来估计角度位置仍然是一个挑战。在本文中，我们提出了一种新颖的高清雷达传感模型FFT-RADNET，其消除了计算范围 - 方位角多普勒3D张量的开销，从而从范围多普勒频谱恢复角度。 FFT-RADNET培训均以检测车辆和分段免费驾驶空间。在两个任务中，它与最新的基于雷达的模型竞争，同时需要更少的计算和内存。此外，我们在各种环境（城市街道，公路，农村路）中，从同步汽车级传感器（相机，激光，高清雷达）收集和注释了2小时的原始数据。这个独特的数据集，“雷达，lidar等人”的inc-命名的radial是在https://github.com/valeoai/radial上获得的。

translated by 谷歌翻译

Video-based Human Action Recognition using Deep Learning: A Review

Hieu H. Pham , Louahdi Khoudour , Alain Crouzil , Pablo Zegers , Sergio A. Velastin

分类：计算机视觉

2022-08-07

人类行动识别是计算机视觉中的重要应用领域。它的主要目的是准确地描述人类的行为及其相互作用，从传感器获得的先前看不见的数据序列中。识别，理解和预测复杂人类行动的能力能够构建许多重要的应用，例如智能监视系统，人力计算机界面，医疗保健，安全和军事应用。近年来，计算机视觉社区特别关注深度学习。本文使用深度学习技术的视频分析概述了当前的动作识别最新识别。我们提出了识别人类行为的最重要的深度学习模型，并分析它们，以提供用于解决人类行动识别问题的深度学习算法的当前进展，以突出其优势和缺点。基于文献中报道的识别精度的定量分析，我们的研究确定了动作识别中最新的深层体系结构，然后为该领域的未来工作提供当前的趋势和开放问题。

translated by 谷歌翻译

Attention-Based Sensor Fusion for Human Activity Recognition Using IMU Signals

Wenjin Tao , Haodong Chen , Md Moniruzzaman , Ming C. Leu , Zhaozheng Yi , Ruwen Qin

分类：计算机视觉

2021-12-20

使用诸如嵌入惯性测量单元（IMU）传感器的可穿戴设备（如智能手表）的人类活动识别（Har）具有与我们日常生活相关的各种应用，例如锻炼跟踪和健康监控。在本文中，我们使用在不同身体位置佩戴的多个IMU传感器提出了一种基于人类活动识别的新颖性方法。首先，设计传感器设计特征提取模块以提取具有卷积神经网络（CNNS）的各个传感器的最辨别特征。其次，开发了一种基于注意的融合机制，以了解不同车身位置处的传感器的重要性，并产生细节特征表示。最后，应用传感器间特征提取模块来学习与分类器连接的传感器间相关性以输出预测的活动。所提出的方法是使用五个公共数据集进行评估，并且在各种活动类别上优于最先进的方法。

translated by 谷歌翻译

Toyota Smarthome Untrimmed: Real-World Untrimmed Videos for Activity Detection

Rui Dai , Srijan Das , Saurav Sharma , Luca Minciullo , Lorenzo Garattoni , Francois Bremond , Gianpiero Francesca

分类：计算机视觉

2020-10-28

设计可以成功部署在日常生活环境中的活动检测系统需要构成现实情况典型挑战的数据集。在本文中，我们介绍了一个新的未修剪日常生存数据集，该数据集具有几个现实世界中的挑战：Toyota Smarthome Untrimmed（TSU）。 TSU包含以自发方式进行的各种活动。数据集包含密集的注释，包括基本的，复合活动和涉及与对象相互作用的活动。我们提供了对数据集所需的现实世界挑战的分析，突出了检测算法的开放问题。我们表明，当前的最新方法无法在TSU数据集上实现令人满意的性能。因此，我们提出了一种新的基线方法，以应对数据集提供的新挑战。此方法利用一种模态（即视线流）生成注意力权重，以指导另一种模态（即RGB）以更好地检测活动边界。这对于检测以高时间差异为特征的活动特别有益。我们表明，我们建议在TSU和另一个受欢迎的挑战数据集Charades上优于最先进方法的方法。

translated by 谷歌翻译