这项工作提出了两种统计方法,用于基于通用和用户依赖模型的击键生物识别数据的合成。两种方法在机器人检测任务上均经过验证,使用击键合成数据来更好地训练系统。我们的实验包括一个来自168,000名受试者的1.36亿击球事件的数据集。我们通过定性和定量实验分析了两种合成方法的性能。根据两个监督分类器(支持向量机和长期的短期内存网络)和一个包括人类和生成的样本在内的学习框架,考虑了不同的机器人探测器。我们的结果证明,所提出的统计方法能够生成现实的人类合成击键样品。此外,分类结果表明,在具有大型标记数据的情况下,可以高精度检测这些合成样品。但是,在几次学习方案中,它代表了一个重要的挑战。
translated by 谷歌翻译
安全可靠的自主驾驶堆栈(AD)的设计是我们时代最具挑战性的任务之一。预计这些广告将在具有完全自主权的高度动态环境中驱动,并且比人类更大的可靠性。从这个意义上讲,要高效,安全地浏览任意复杂的流量情景,广告必须具有预测周围参与者的未来轨迹的能力。当前的最新模型通常基于复发,图形和卷积网络,在车辆预测的背景下取得了明显的结果。在本文中,我们探讨了在生成模型进行运动预测中注意力的影响,考虑到物理和社会环境以计算最合理的轨迹。我们首先使用LSTM网络对过去的轨迹进行编码,该网络是计算社会背景的多头自我发言模块的输入。另一方面,我们制定了一个加权插值来计算最后一个观测框中的速度和方向,以便计算可接受的目标点,从HDMAP信息的可驱动的HDMAP信息中提取,这代表了我们的物理环境。最后,我们的发电机的输入是从多元正态分布采样的白噪声矢量,而社会和物理环境则是其条件,以预测可行的轨迹。我们使用Argoverse运动预测基准1.1验证我们的方法,从而实现竞争性的单峰结果。
translated by 谷歌翻译
“感应头”是注意力头,它实现了一种简单的算法来完成令牌序列,例如[a] [b] ... [a] - > [b]。在这项工作中,我们提供了一个假设的初步和间接证据,即诱导头可能构成大型大型变压器模型中所有“文本学习”中大多数的机制(即减少在增加代币指数时损失的损失)。我们发现,诱导头在与秘密学习能力突然急剧上的急剧上升的位置完全相同,这是训练损失的颠簸。我们提出了六种互补的证据,认为诱导头可能是任何大小的变压器模型中一般性内部学习的机理来源。对于仅关注的小型模型,我们提供了有力的因果证据。对于具有MLP的较大模型,我们提供相关证据。
translated by 谷歌翻译
近年来,变形金刚的体系结构在受欢迎程度上一直在越来越流行。调制检测变压器(MDETR)是一个端到端的多模式理解模型,该模型执行诸如相位接地,引用表达理解,参考表达分割和视觉问题答案之类的任务。该模型的一个了不起的方面是可以推断出以前未经培训的类别的能力。在这项工作中,我们探讨了MDETR在一项新任务中的使用,即动作检测,没有任何以前的培训。我们使用原子视觉动作数据集获得定量结果。尽管该模型没有报告任务中的最佳性能,但我们认为这是一个有趣的发现。我们表明,可以使用多模式模型来解决其设计不适合的任务。最后,我们认为,这一研究可能导致MDETR在其他下游任务中的概括。
translated by 谷歌翻译
我们考虑了从节点观测值估算多个网络拓扑的问题,其中假定这些网络是从相同(未知)随机图模型中绘制的。我们采用图形作为我们的随机图模型,这是一个非参数模型,可以从中绘制出潜在不同大小的图形。图形子的多功能性使我们能够解决关节推理问题,即使对于要恢复的图形包含不同数量的节点并且缺乏整个图形的精确比对的情况。我们的解决方案是基于将最大似然惩罚与Graphon估计方案结合在一起,可用于增强现有网络推理方法。通过引入嘈杂图抽样信息的强大方法,进一步增强了所提出的联合网络和图形估计。我们通过将其性能与合成和实际数据集中的竞争方法进行比较来验证我们提出的方法。
translated by 谷歌翻译
现有的视频理解数据集主要集中在人类的互动上,几乎没有关注“在野外”设置,在户外录制了视频。我们提出了Wildqa,这是一个视频理解外部设置中录制的视频的数据集。除了视频问答(视频质量质量检查)外,我们还介绍了确定给定问答(视频证据选择)视觉支持的新任务。通过使用各种基线模型的评估,我们表明Wildqa对愿景和语言研究社区构成了新的挑战。该数据集可在https://lit.eecs.umich.edu/wildqa/上找到。
translated by 谷歌翻译
我们提供了最大的公开词典,其中包括贝叶斯改进的姓氏地理编码(BISG),以归纳种族和种族的目的。词典基于六个南部州的选民档案,这些档案是在选民注册后收集自我报告的种族数据的。我们的数据涵盖了比任何可比数据集更大的名称范围,其中包含大约100万个名字,110万个中间名和140万个姓氏。个人被归类为五个相互排斥的种族和种族 - 白人,黑人,西班牙裔,亚洲和其他种族 - 每个词典中的每个名称都为种族/种族计数提供了名称。然后可以按列表或列的标准化计数,以获取给定名称或名称的种族的条件概率。然后可以将这些条件概率部署在数据分析任务中,以实现真相和种族数据的基础分析任务。
translated by 谷歌翻译
我们研究了p-laplacians和光谱聚类,以融合了边缘依赖性顶点权重(EDVW)的最近提出的超图模型。这些权重可以反映在超边缘内顶点的不同重要性,从而赋予超图模型更高的表达性和灵活性。通过构建基于EDVWS的基于EDVWS的分裂函数,我们将具有EDVW的超图转换为频谱理论更好地开发的谱图。这样,现有的概念和定理,例如P-Laplacians和Subsodular HyperGraph设置下提出的P-Laplacians和Cheeger不平等现象,可以直接扩展到具有EDVW的超图。对于具有基于EDVWS的拆分功能的子管道超图,我们提出了一种有效的算法来计算与1-Laplacian的第二小特征值相关的特征向量。然后,我们利用此特征向量来聚类顶点,比基于2-Laplacian的传统光谱聚类获得更高的聚类精度。从更广泛的角度来看,所提出的算法适用于所有可降低图的亚物种超图。使用现实世界数据的数值实验证明了基于1-Laplacian和EDVW的光谱聚类的有效性。
translated by 谷歌翻译
高斯内核及其衍生物已经在以前的几项作品中用于卷积神经网络。这些论文中的大多数提议通过线性将一个或几个具有或略有训练的高斯内核的基础线性相结合,以计算过滤器。在本文中,我们提出了一个基于各向异性,面向和转移的高斯导数核的高级配置层,该核概括了以前相关工作中遇到的概念,同时保持其主要优势。结果表明,与以前的作品相比,所提出的层具有竞争性能,并且可以成功地包括在常见的深度体系结构中,例如用于图像分类的VGG16和用于图像分割的U-NET。
translated by 谷歌翻译
本文通过数学形态的代数基础,分析了深卷积神经网络(DCNN)的非线性激活函数和空间最大化。此外,通过在形态代表的背景下考虑最大 - 释放和非线性算子,提出了一般的激活功能家族。实验部分验证了我们在经典基准测试中的方法,用于DCNN的监督学习。
translated by 谷歌翻译