基于深度的人体活动分析研究取得了突出的成绩,并证明了3D表示在行动识别中的有效性。现有的基于深度和基于RGB + D的动作识别基准具有许多局限性,包括缺乏大规模训练样本,不同类别的实际数量,多样化的内部视图,不同的环境条件以及各种人类主体。在这项工作中,我们引入了一个用于RGB + D人类行为识别的大规模数据集,该数据集来自106个不同的主题,包含超过114,000个视频样本和800万帧。该数据集包含120种不同的动作类,包括日常,相互和健康相关的活动。我们评估了该数据集上一系列现有3D活动分析方法的性能,并展示了将deeplearning方法应用于基于3D的人类行为识别的优势。此外,我们在数据集上研究了一种新的一次性三维活动识别问题,并为此任务提出了一种简单而有效的动作部分语义相关性(APSR)框架,为新型动作类的识别提供了有希望的结果。我们相信,引入这个大规模数据集将使社区能够应用,调整和开发各种渴望数据的学习技术,以实现基于深度和基于RGB + D的人类活动理解。 [数据集可在以下网址获得:http://rose1.ntu.edu.sg/Datasets/actionRecognition.asp]
translated by 谷歌翻译
在本报告中,我们回顾了基于记忆的元学习作为建筑样本有效策略的工具,该策略从过去的经验中学习以适应目标类中的任何任务。我们的目标是为读者提供此工具的概念基础,以构建在陆域上运行的新的可扩展代理。为此,我们提出了基本的算法模板,用于建立最佳预测器和强化学习器,其行为就好像它们具有允许它们有效地利用任务结构的概率模型。此外,我们在贝叶斯框架内重建基于内存的元学习,显示元学习策略接近最优,因为它们分摊贝叶斯过滤数据,其中适应在内存动态中实现为具有足够统计数据的状态机。从本质上讲,基于记忆的学习 - 学习将概率序贯推理的难题转化为回归问题。
translated by 谷歌翻译
在过去的一年中,用于预训练和转学习的新模型和方法在各种语言理解任务中带来了显着的性能提升。一年前推出的GLUE基准提供了一个单数量度量标准,总结了各种此类任务的进展情况,但最近基准测试的表现接近非专家人员的水平,表明进一步研究的空间有限。本文回顾了从GLUE基准测试中汲取的经验教训,并介绍了SuperGLUE,这是一款以GLUE为基础的新标记,具有一系列更加困难的语言理解任务,改进的资源以及新的公共排行榜.SuperGLUE将很快在super.gluebenchmark.com上发布。
translated by 谷歌翻译
我们介绍了一组九个挑战任务,测试理解功能词。这些任务是通过结构化突变数据集的句子来创建的,以便能够理解特定类型的功能词(例如,介词,wh-words)。使用这些探测任务,我们探索了各种预训练目标对句子编码器(例如,语言建模,CCG超级标准和自然语言推理(NLI))对学习代表的影响。我们的结果表明,对CCG进行预训练 - 我们最常用的语法 - 在我们的探究任务中平均表现最佳,这表明句法知识有助于词汇理解。语言建模也显示出强大的性能,支持其广泛用于预训练最先进的NLP模型。总的来说,没有预训练目标支配董事会,我们的功能词探测任务突出了预训练目标之间的几个直观差异,例如,NLI有助于理解否定。
translated by 谷歌翻译
动作预测是仅在观察到其一部分时识别正在进行的活动的类别标签。在本文中,我们关注流式3D骨架序列中的在线动作预测。引入扩张的卷积网络以通过时间轴上的滑动窗口对时间维度中的运动动力学进行建模。由于在不同时间步骤中正在进行的动作的观察部分存在显着的时间尺度变化,因此提出了一种新的窗口尺度选择方法,以使我们的网络关注正在进行的动作的执行部分并且试图抑制来自先前动作的可能的干扰。在每一步。还提出了一种激活共享方案来处理相邻时间步骤之间的重叠计算,这使得我们的框架能够更有效地运行。此外,为了增强我们的骨架输入数据动作预测框架的性能,还对扩展树卷积的层次结构进行了设计。学习每帧骨架关节的多层次结构化语义表示。我们提出的方法是在四个具有挑战性的数据集上进大量实验证明了我们的方法对基于骨架的在线动作预测的有效性。
translated by 谷歌翻译
在本文中,提出了一种特征提升网络,用于从单个RGB图像估计3D手势和3D身体姿势。在这种方法中,卷积层所获得的特征被一个新的长短期依赖性(LSTD)模块提升,这使得中间卷积特征图能够感知不同手(或身体)部分之间的图形长期短期依赖性。设计图形ConvLSTM。由于在3D姿态估计的实际应用中的模糊性,纹理和照明变化以及自遮挡,学习一组可靠且有区别地代表手(或身体)部分的特征是困难的。为了提高表示每个部分的特征的可靠性并增强LSTD模块,我们在本文中进一步引入了上下文一致性门(CCG),其中卷积特征映射根据它们与上下文表示的一致性进行调制。我们评估了所提出的用于3D手势估计和3D全身姿态估计的挑战性基准数据集的方法。实验结果表明,我们的方法在两个任务中都达到了最先进的性能。
translated by 谷歌翻译
关于语境化词语表示问题的研究 - 用于句子理解的可重用神经网络组件的发展 - 最近出现了一系列进展,其中心是使用ELMo等方法进行语言建模的无监督预训练任务。本文提供了第一个大规模的系统研究,比较了该语境中不同的预训练任务,既作为语言建模的补充,也作为潜在的替代。该研究的主要结果支持使用语言模型作为预训练任务,并使用语言模型的多任务学习在可比模型中设置新的技术水平。然而,仔细观察这些结果可以发现令人担忧的强大基线和跨越目标任务的惊人变化的结果,这表明广泛使用的预训练和冻结句子编码器的范例可能不是进一步工作的理想平台。
translated by 谷歌翻译
大量的时间序列对classicaland神经预测方法提出了重大挑战。经典的时间序列模型不能很好地拟合数据并扩展到大问题,但成功地提供了不确定性估计。对于深度神经网络来说,情况恰恰相反。在本文中,我们提出了一种混合模型,它结合了两种方法的优点。我们的新方法是数据驱动的,可通过潜在的全局深层组件进行扩展。它还通过局部经典高斯过程模型处理不确定性。 Ourexperiments证明我们的方法比最先进的方法获得更高的准确性。
translated by 谷歌翻译
我们通过使用插值函数作为输出激活来提高深层神经网络对抗攻击的鲁棒性。这种依赖于数据的激活功能显着提高了分类准确性和对抗性扰动的稳定性。加上对抗性图像和增强训练的总体变化最小化,在最强攻击下,我们实现高达20.6 $ \%$,50.7 $ \%$和68.7 $ \%$ precision improvementw.r.t。快速梯度符号方法,迭代快速梯度符号方法和Carlini-Wagner $ L_2 $攻击。我们的防御策略是现有方法的补充。我们通过分析特征空间的几何来直观地解释我们的防御策略。为了重现性,代码可在以下网址获得:https://github.com/BaoWangMath/DNN═DependentActivation。
translated by 谷歌翻译
肥胖症是全世界严重的公共卫生问题,它增加了许多疾病的风险,包括高血压,中风和2型糖尿病。围绕这个问题,整个健康生态系统的研究人员正在收集多种类型的数据,其中包括生物医学,行为和活动,以及利用机器学习技术挖掘隐藏模式以进行肥胖状态改善预测。虽然诸如逆流神经网络(RNN)的现有机器学习方法可以提供出色的结果,但是由于它们的常规观察时间实例而发现顺序数据的隐藏模式是具有挑战性的。同时,由于缺乏对这些学习模型有效的理解,也限制了对其体系结构的进一步改进。因此,在这项工作中,我们开发了一个基于RNN的时间感知体系结构,以解决处理不规则监测时间的挑战性问题以及纵向患者记录中针对肥胖状态改善预测的相关特征提取。为了提高预测性能,我们使用两个数据源训练我们的模型:(i)包含有关实验室测试,诊断和解剖图的信息的电子医疗记录; (ii)从流行的可穿戴设备收集的连续活动数据。对现实世界数据的评估表明,我们提出的方法可以捕获用户时间序列中具有不规则性的基础结构,并且在预测肥胖状态改善方面具有77-86%的准确率。
translated by 谷歌翻译