像许多团队运动一样,篮球涉及两组球员,他们从事合作和对抗性活动以赢得比赛。球员和团队正在执行各种复杂的策略,以比对手获得优势。定义,识别和分析不同类型的活动是体育分析中的一项重要任务,因为它可以导致球员和教练人员更好地策略和决策。本文的目的是自动识别篮球小组的活动,从跟踪代表玩家和球的位置的数据。我们在团队运动中提出了一种新颖的深度学习方法,以称为NETS。为了有效地对团队运动中的玩家关系进行建模,我们将基于变压器的体系结构与LSTM嵌入结合在一起,以及一个团队合并层以识别小组活动。培训这样的神经网络通常需要大量注释数据,这会产生高标签成本。为了解决手动标签的稀缺性,我们在自我监督的轨迹预测任务上生成弱标签并预处理神经网络。我们使用了从632个NBA游戏中的大型跟踪数据集来评估我们的方法。结果表明,NET能够以高准确性学习小组活动,并且网络中的自我监督训练对GAR的准确性产生了积极影响。
translated by 谷歌翻译
这项研究旨在实现两个目标:第一个目标是策划一个大型且信息丰富的数据集,其中包含有关球员的行动和位置的关键和简洁的摘要,以及在专业和NCAA中排球的来回旅行模式Div-i室内排球游戏。尽管几项先前的研究旨在为其他运动创建类似的数据集(例如羽毛球和足球),但尚未实现为室内排球创建这样的数据集。第二个目标是引入排球描述性语言,以充分描述游戏中的集会过程并将语言应用于我们的数据集。基于精选的数据集和我们的描述性运动语言,我们使用我们的数据集介绍了三项用于自动化排球行动和战术分析的任务:(1)排球拉力赛预测,旨在预测集会的结果,并帮助球员和教练改善决策制定决策在实践中,(2)设置类型和命中类型预测,以帮助教练和球员更有效地为游戏做准备,以及(3)排球策略和进攻区统计,以提供高级排球统计数据,并帮助教练了解游戏和对手的策略更好的。我们进行了案例研究,以展示实验结果如何为排球分析社区提供见解。此外,基于现实世界数据的实验评估为我们的数据集和语言的未来研究和应用建立了基准。这项研究弥合了室内排球场与计算机科学之间的差距。
translated by 谷歌翻译
预测体育运动对球队,联赛,投注者,媒体和球迷来说很重要。鉴于越来越多的播放器跟踪数据,体育分析模型越来越多地利用在播放器跟踪数据上构建的空间衍生功能。但是,由于常见的建模技术依赖于矢量输入,因此不能轻易地将特定于玩家的信息作为功能本身包含。因此,通过空间衍生的特征是根据锚定对象(例如,通过全球功能聚合或通过角色签名方案)构建的,例如,球员在游戏中被指定在游戏中具有独特的作用。在这样做的过程中,我们牺牲了人际关系和地方关系,而是支持全球关系。为了解决这个问题,我们介绍了基于运动的图形表示游戏状态。然后,我们将建议的图表表示作为图形神经网络的输入来预测运动结果。我们的方法可以保留置换不变性,并允许灵活的播放互动权重。我们展示了我们的方法如何为美术和电子竞技的预测任务提供对艺术的统计学显着改善,从而将测试套装损失分别减少了9%和20%。此外,我们展示了如何使用我们的模型来回答运动中的“如果”问题并可视化玩家之间的关系。
translated by 谷歌翻译
一些小组活动,例如团队运动和编排的舞蹈,涉及参与者之间的互动。在这里,我们研究了在这种情况下,根据运动路径和行动来推断和预测参与者行为的任务。我们将问题范围缩小到估计集合目标参与者对其他观察到的参与者的行为的反应。我们的关键思想是以一种在框架推断和预测期间对误差积累的稳健积累的方式建模参与者之间的时空关系。我们提出了一种新型的入门变压器(EF-Transformer),该变压器通过在空间和时间域上的注意机制来对参与者的关系进行建模。与典型的变压器不同,我们通过翻转查询,钥匙和价值条目的顺序来解决错误积累的问题,以提高当前框架中观察到的特征的重要性和保真度。比较实验表明,我们的EF转换器在新收集的网球双打数据集,一个CEILIDH舞蹈数据集和两个行人数据集上实现了最佳性能。此外,还证明我们的EF转换器更好地限制了累积错误并从错误的估计中恢复。
translated by 谷歌翻译
跟踪和识别玩家是基于计算机视觉冰球分析的基本步骤。跟踪生成的数据用于许多其他下游任务,例如游戏事件检测和游戏策略分析。播放器跟踪和识别是一个具有挑战性的问题,因为与行人相比,曲棍球运动员的运动是快节奏和非线性的。还有显着的摄像头淘气和放大曲棍球广播视频。识别冰球中的玩家是挑战,因为同一团队的球员几乎相同,泽西号码是玩家之间唯一的鉴别因素。本文介绍了一种用于跟踪和识别广播NHL曲棍球视频中的玩家的自动化系统。该系统由三个组件(1)播放器跟踪组成,(2)团队识别和(3)播放器识别。由于没有公开可用的数据集,用于培训三个组件的数据集手动注释。利用艺术跟踪算法的状态来执行播放器跟踪,从而获得多目标跟踪精度(MOTA)得分为94.5%。对于团队识别,Away-Team Jerseys被分组为单一课程,并根据他们的泽西颜色在课堂上分组。然后在团队识别数据集上培训卷积神经网络。团队识别网络在测试集中获得97%的准确性。引入了一种新颖的播放器识别模型,其利用时间一维卷积网络来识别来自玩家边界框序列的玩家。播放器识别模型进一步利用了可用的NHL游戏名册数据,以获得83%的玩家识别精度。
translated by 谷歌翻译
防御性通行干扰(DPI)是NFL中最有影响力的处罚之一。 DPI是一个犯规的犯规,首先是自动的,该团队拥有。有了对游戏的影响,裁判没有犯错的余地。这也是一个非常罕见的事件,每100次通行证尝试发生1-2次。随着技术的改进,将许多物联网可穿戴设备放在运动员那里以收集有价值的数据,因此,应用机器学习(ML)技术有一个坚实的基础来改善游戏的各个方面。这里介绍的工作是使用播放器跟踪GPS数据预测DPI的首次尝试。在2018年常规赛中,NFL的下一个Gen Stats收集了我们使用的数据。我们提出了高度不平衡时间序列分类的ML模型:LSTM,GRU,ANN和多元LSTM-FCN。结果表明,使用GPS跟踪数据预测DPI的成功有限。最佳性能模型的召回率很高,因此导致许多假阳性示例的分类。仔细观察数据证实,没有足够的信息来确定是否犯规。这项研究可能是用于视频序列分类的多步管道的过滤器,可以解决此问题。
translated by 谷歌翻译
Current learning machines have successfully solved hard application problems, reaching high accuracy and displaying seemingly "intelligent" behavior. Here we apply recent techniques for explaining decisions of state-of-the-art learning machines and analyze various tasks from computer vision and arcade games. This showcases a spectrum of problem-solving behaviors ranging from naive and short-sighted, to wellinformed and strategic. We observe that standard performance evaluation metrics can be oblivious to distinguishing these diverse problem solving behaviors. Furthermore, we propose our semi-automated Spectral Relevance Analysis that provides a practically effective way of characterizing and validating the behavior of nonlinear learning machines. This helps to assess whether a learned model indeed delivers reliably for the problem that it was conceived for. Furthermore, our work intends to add a voice of caution to the ongoing excitement about machine intelligence and pledges to evaluate and judge some of these recent successes in a more nuanced manner.
translated by 谷歌翻译
Interacting systems are prevalent in nature, from dynamical systems in physics to complex societal dynamics. The interplay of components can give rise to complex behavior, which can often be explained using a simple model of the system's constituent parts. In this work, we introduce the neural relational inference (NRI) model: an unsupervised model that learns to infer interactions while simultaneously learning the dynamics purely from observational data. Our model takes the form of a variational auto-encoder, in which the latent code represents the underlying interaction graph and the reconstruction is based on graph neural networks. In experiments on simulated physical systems, we show that our NRI model can accurately recover ground-truth interactions in an unsupervised manner. We further demonstrate that we can find an interpretable structure and predict complex dynamics in real motion capture and sports tracking data.
translated by 谷歌翻译
识别视频中的玩家是基于计算机视觉的体育分析的基础步骤。获得播放器标识对于分析游戏至关重要,并且用于游戏事件识别等下游任务。变压器是自然语言处理(NLP)的现有标准,并在计算机视觉中迅速获得牵引力。在计算机愿景中的变压器成功增加的推动,在本文中,我们介绍了一种通过广播国家曲棍球联赛(NHL)视频的泽西号码来识别玩家的变压器网络。变压器将玩家帧的时间序列(也称为播放器轨迹)作为输入,输出帧中存在的泽西号码的概率。所提出的网络比使用数据集上的上一个基准测试更好。我们通过为泽西号码的近似帧级标签产生近似帧级标签来实现弱监督的培训方法,并使用帧级标签以更快的培训。我们还通过使用光学字符识别(OCR)阅读游戏时间来利用NHL游戏数据中提供的玩家换档,以在某种游戏时间内将玩家放在溜冰场上。使用播放器转换将播放器识别精度提高了6%。
translated by 谷歌翻译
Accurate activity location prediction is a crucial component of many mobility applications and is particularly required to develop personalized, sustainable transportation systems. Despite the widespread adoption of deep learning models, next location prediction models lack a comprehensive discussion and integration of mobility-related spatio-temporal contexts. Here, we utilize a multi-head self-attentional (MHSA) neural network that learns location transition patterns from historical location visits, their visit time and activity duration, as well as their surrounding land use functions, to infer an individual's next location. Specifically, we adopt point-of-interest data and latent Dirichlet allocation for representing locations' land use contexts at multiple spatial scales, generate embedding vectors of the spatio-temporal features, and learn to predict the next location with an MHSA network. Through experiments on two large-scale GNSS tracking datasets, we demonstrate that the proposed model outperforms other state-of-the-art prediction models, and reveal the contribution of various spatio-temporal contexts to the model's performance. Moreover, we find that the model trained on population data achieves higher prediction performance with fewer parameters than individual-level models due to learning from collective movement patterns. We also reveal mobility conducted in the recent past and one week before has the largest influence on the current prediction, showing that learning from a subset of the historical mobility is sufficient to obtain an accurate location prediction result. We believe that the proposed model is vital for context-aware mobility prediction. The gained insights will help to understand location prediction models and promote their implementation for mobility applications.
translated by 谷歌翻译
多代理行为建模旨在了解代理之间发生的交互。我们从行为神经科学,Caltech鼠标社交交互(CALMS21)数据集中提供了一个多代理数据集。我们的数据集由社交交互的轨迹数据组成,从标准居民入侵者测定中自由行为小鼠的视频记录。为了帮助加速行为研究,CALMS21数据集提供基准,以评估三种设置中自动行为分类方法的性能:(1)用于培训由单个注释器的所有注释,(2)用于风格转移以进行学习互动在特定有限培训数据的新行为学习的行为定义和(3)的注释差异。 DataSet由600万个未标记的追踪姿势的交互小鼠组成,以及超过100万帧,具有跟踪的姿势和相应的帧级行为注释。我们的数据集的挑战是能够使用标记和未标记的跟踪数据准确地对行为进行分类,以及能够概括新设置。
translated by 谷歌翻译
在小组活动识别中,层次结构框架被广泛采用以表示个人及其相应小组之间的关系,并实现了有希望的绩效。但是,现有方法在此框架中仅采用了最大/平均池,这忽略了不同个体对小组活动识别的不同贡献。在本文中,我们提出了一种新的上下文合并方案,名为Ascentive Pooling,该方案可以从个人动作到小组活动的加权信息过渡。通过利用注意机制,细心的合并是可解释的,并且能够将成员环境嵌入现有的层次模型中。为了验证拟议方案的有效性,设计了两种特定的专注合并方法,即全球细心合并(GAP)和分层的细心池(HAP)。差距奖励对小组活动意义重大的个体,而HAP通过引入亚组结构进一步考虑了层次结构。基准数据集上的实验结果表明,我们的建议在基线之外取得了显着优势,并且与最先进的方法相当。
translated by 谷歌翻译
现实世界的行为通常是由多种代理之间复杂的相互作用来塑造的。为了可靠地研究多代理行为,无监督和自我监督的学习的进步使从轨迹数据中学到了各种不同的行为表示。迄今为止,还没有一组统一的基准测试,可以在广泛的行为分析设置中进行定量和系统地比较方法。我们的目的是通过引入来自现实世界行为神经科学实验的大规模,多代理轨迹数据集来解决这一问题,该数据集涵盖了一系列行为分析任务。我们的数据集由来自通用模型生物的轨迹数据组成,其中有960万帧的小鼠数据和440万帧的飞行数据,在各种实验环境中,例如不同的菌株,相互作用的长度和光遗传学刺激。框架的子集还包括专家注销的行为标签。我们数据集的改进对应于跨多种生物的行为表示,并能够捕获常见行为分析任务的差异。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
从自然语言嵌入中汲取灵感,我们提出了Astromer,这是一种基于变压器的模型,以创建光曲线的表示。Astromer接受了数以百万计的Macho R波段样品的培训,并且很容易对其进行微调以匹配与下游任务相关的特定域。例如,本文显示了使用预训练的表示形式对变量恒星进行分类的好处。此外,我们还提供了一个Python库,其中包括这项工作中使用的所有功能。我们的图书馆包括预先培训的模型,可用于增强深度学习模型的性能,减少计算资源,同时获得最新的结果。
translated by 谷歌翻译
在嘈杂的互联网规模数据集上进行了预测,已对具有广泛的文本,图像和其他模式能力的培训模型进行了大量研究。但是,对于许多顺序决策域,例如机器人技术,视频游戏和计算机使用,公开可用的数据不包含以相同方式训练行为先验所需的标签。我们通过半监督的模仿学习将互联网规模的预处理扩展到顺序的决策域,其中代理通过观看在线未标记的视频来学习行动。具体而言,我们表明,使用少量标记的数据,我们可以训练一个足够准确的反向动力学模型,可以标记一个巨大的未标记在线数据来源 - 在这里,在线播放Minecraft的在线视频 - 然后我们可以从中训练一般行为先验。尽管使用了本地人类界面(鼠标和键盘为20Hz),但我们表明,这种行为先验具有非平凡的零射击功能,并且可以通过模仿学习和加强学习,可以对其进行微调,以进行硬探索任务。不可能通过增强学习从头开始学习。对于许多任务,我们的模型都表现出人类水平的性能,我们是第一个报告可以制作钻石工具的计算机代理,这些工具可以花费超过20分钟(24,000个环境动作)的游戏玩法来实现。
translated by 谷歌翻译
评估足球运动员队友的个人运动对于评估队伍,侦察和粉丝的参与至关重要。据说,在90分钟的比赛中,球员平均没有大约87分钟的球。但是,在不接球的情况下评估进攻球员并揭示运动如何为队友创造得分机会的贡献一直很困难。在本文中,我们评估了通过将实际动作与通过轨迹预测产生的参考运动进行比较来评估创建球外评分机会的玩家。首先,我们使用图形差异神经网络预测玩家的轨迹,该神经网络可以准确地模拟玩家之间的关系并预测长期轨迹。接下来,基于实际运动轨迹和预测轨迹之间修改的外球评估指数的差异,我们评估实际运动与预测运动相比如何促进得分机会。为了进行验证,我们研究了专家一年中专业球队的所有比赛的年薪,目标和比赛的关系。结果表明,年薪和拟议的指标与现有指标和目标无法解释。我们的结果表明,该方法作为没有球的球员为队友创造得分机会的指标的有效性。
translated by 谷歌翻译
预训练在机器学习的不同领域表现出成功,例如计算机视觉,自然语言处理(NLP)和医学成像。但是,尚未完全探索用于临床数据分析。记录了大量的临床记录,但是对于在小型医院收集的数据或处理罕见疾病的数据仍可能稀缺数据和标签。在这种情况下,对较大的未标记临床数据进行预训练可以提高性能。在本文中,我们提出了专为异质的多模式临床数据设计的新型无监督的预训练技术,用于通过蒙版语言建模(MLM)启发的患者预测,通过利用对人群图的深度学习来启发。为此,我们进一步提出了一个基于图形转换器的网络,该网络旨在处理异质临床数据。通过将基于掩盖的预训练与基于变压器的网络相结合,我们将基于掩盖的其他域中训练的成功转化为异质临床数据。我们使用三个医学数据集Tadpole,Mimic-III和一个败血症预测数据集,在自我监督和转移学习设置中展示了我们的预训练方法的好处。我们发现,我们提出的培训方法有助于对患者和人群水平的数据进行建模,并提高所有数据集中不同微调任务的性能。
translated by 谷歌翻译
预测行人运动对于人类行为分析以及安全有效的人类代理相互作用至关重要。但是,尽管取得了重大进展,但对于捕捉人类导航决策的不确定性和多模式的现有方法仍然具有挑战性。在本文中,我们提出了SocialVae,这是一种新颖的人类轨迹预测方法。社会节的核心是一种时间上的变性自动编码器体系结构,它利用随机反复的神经网络进行预测,结合社会注意力机制和向后的后近似值,以更好地提取行人导航策略。我们表明,社交活动改善了几个步行轨迹预测基准的最新性能,包括ETH/UCY基准,Stanford Drone DataSet和Sportvu NBA运动数据集。代码可在以下网址获得:https://github.com/xupei0610/socialvae。
translated by 谷歌翻译
这是一门专门针对STEM学生开发的介绍性机器学习课程。我们的目标是为有兴趣的读者提供基础知识,以在自己的项目中使用机器学习,并将自己熟悉术语作为进一步阅读相关文献的基础。在这些讲义中,我们讨论受监督,无监督和强化学习。注释从没有神经网络的机器学习方法的说明开始,例如原理分析,T-SNE,聚类以及线性回归和线性分类器。我们继续介绍基本和先进的神经网络结构,例如密集的进料和常规神经网络,经常性的神经网络,受限的玻尔兹曼机器,(变性)自动编码器,生成的对抗性网络。讨论了潜在空间表示的解释性问题,并使用梦和对抗性攻击的例子。最后一部分致力于加强学习,我们在其中介绍了价值功能和政策学习的基本概念。
translated by 谷歌翻译