近年来,基于卷积网络的视频动作识别令人鼓舞地普及;然而,受到远程非线性时间关系建模和反向运动信息建模的限制,因此,现有模型的性能是严重的。为了解决这一紧急问题,我们引入了一个具有自我监督(TTSN)的令人惊叹的时间变压器网络。我们的高性能TTSN主要由时间变压器模块和时间序列自我监控模块组成。简明扼要地说,我们利用高效的时间变压器模块来模拟非本地帧之间的非线性时间依赖性,这显着增强了复杂的运动特征表示。我们采用的时间序列自我监控模块我们专注于“随机批量随机通道”的简化策略来反转视频帧的序列,允许从反向时间维度提高运动信息表示并提高模型的泛化能力。在三个广泛使用的数据集(HMDB51,UCF101和某事物)上的广泛实验已经得出结论地证明,我们提出的TTSN充满希望,因为它成功实现了行动识别的最先进性能。
translated by 谷歌翻译
计算机视觉中的当前预训练方法专注于日常生活中的自然图像。但是,诸如图标和符号之类的抽象图在现实世界中是常见的,很重要。这项工作受到坦格图的启发,这是一种需要从七个解剖形状复制抽象模式的游戏。通过录制人类在解决坦文图谜题方面的体验,我们展示了Tangram DataSet,并显示Tangram上的预先训练的神经模型有助于解决一些基于低分辨率视觉的迷你视觉任务。广泛的实验表明,我们所提出的方法为折叠衣服和评估室布局等审美任务产生智能解决方案。预训练的特征提取器可以促进人类手写的几秒钟学习任务的收敛性,并提高轮廓识别图标的准确性。Tangram DataSet可在https://github.com/yizhouzhao/tangram上获得。
translated by 谷歌翻译
与深度卷积神经网络(CNNS)相比,视觉变压器(VITS)表现出令人印象深刻的性能和更强的对抗性鲁棒性。一方面,VITS对各个补丁之间的全局交互的关注降低了图像的局部噪声灵敏度。另一方面,CNN的现有决策攻击忽略了图像的不同区域之间的噪声灵敏度的差异,这影响了噪声压缩的效率。因此,只有查询目标模型仍然可以验证VITS的黑匣子对抗鲁棒性仍然是一个具有挑战性的问题。在本文中,我们提出了一种新的决策黑匣子攻击,反对VITS称为PACK-WISE对抗(PAR)。将图像分为粗细的搜索过程,并分别压缩每个补丁上的噪声。 PAR记录每个补丁的噪声幅度和噪声灵敏度,并选择具有最高查询值的补丁以进行噪声压缩。此外,PAR可以用作噪声初始化方法,用于其他基于判决的攻击,以提高VITS和CNNS上的噪声压缩效率而不引入额外的计算。关于Imagenet-21K,ILSVRC-2012和微型想象的数据集的大量实验表明,平均疑问的平均扰动程度降低了。
translated by 谷歌翻译
数据增强是自然语言处理(NLP)模型的鲁棒性评估的重要组成部分,以及增强他们培训的数据的多样性。在本文中,我们呈现NL-Cogmenter,这是一种新的参与式Python的自然语言增强框架,它支持创建两个转换(对数据的修改)和过滤器(根据特定功能的数据拆分)。我们描述了框架和初始的117个变换和23个过滤器,用于各种自然语言任务。我们通过使用其几个转换来分析流行自然语言模型的鲁棒性来证明NL-Upmenter的功效。基础架构,Datacards和稳健性分析结果在NL-Augmenter存储库上公开可用(\ url {https://github.com/gem-benchmark/nl-augmenter})。
translated by 谷歌翻译
图形神经网络(GNNS)在具有图形结构数据的各种任务中取得了巨大成功,其中节点分类是必不可少的。无监督的图形域适应(UGDA)显示了其降低节点分类标签成本的实用价值。它利用标记图(即源域)的知识来解决另一个未标记的图形(即目标域)的相同任务。大多数现有的UGDA方法严重依赖于源域中的标记图。它们利用来自源域的标签作为监控信号,并在源图和目标图中共同培训。但是,在一些真实的场景中,由于无法使用或隐私问题,源图无法访问。因此,我们提出了一种名为Source Firect Insuperved Graph域适应(SFUGDA)的新颖情景。在这种情况下,我们可以从源域中杠杆的唯一信息是训练有素的源模型,而不会曝光源图和标签。结果,现有的UGDA方法不再可行。为了解决本实际情况的非琐碎的适应挑战,我们提出了一种模型 - 无话学算法,用于域适应,以充分利用源模型的辨别能力,同时保留目标图上的结构接近度的一致性。我们在理论和经验上证明了所提出的算法的有效性。四个跨域任务的实验结果显示了宏F1得分的一致性改进,高达0.17。
translated by 谷歌翻译
正规化可以通过引入感应偏压来减轻训练与推理之间的泛化差距。现有的作品已经提出了各种视角的各种归纳偏见。然而,据我们所知,他们都没有探讨各种神经元的类依赖性响应分布的视角探讨归纳偏见。在本文中,我们对这种分布的特征进行了大量分析。基于分析结果,我们阐明了神经元稳定性假设:具有与同一类别的情况相似的神经元导致更好的概括。因此,我们提出了一种新的正则化方法,称为神经元稳定正则化,以减少神经元内响应方差。我们在多层的Perceptron,卷积神经网络和图形神经网络上进行了广泛的实验,具有不同域的流行基准数据集,这表明我们的神经元稳定性正则化始终优于Vanilla版本的模型,具有显着增益和低额外的开销。
translated by 谷歌翻译
最近的2D-3D人类姿势估计工作倾向于利用人体骨架的拓扑形成的图形结构。但是,我们认为这种骨架拓扑太稀疏,无法反映身体结构并遭受严重的2D-3D模糊问题。为了克服这些弱点,我们提出了一种新颖的图表卷积网络架构,层次图形网络(HGN)。它基于我们的多尺度图结构建筑策略产生的密度图形拓扑,从而提供更精细的几何信息。所提出的架构包含三个并行组织的稀疏微小表示子网,其中通过新颖的特征融合策略处理多尺度图形结构特征,并通过新颖的特征融合策略进行交换信息,导致丰富的分层表示。我们还介绍了3D粗网格约束,以进一步提高与细节相关的特征学习。广泛的实验表明,我们的HGN通过减少的网络参数实现了最先进的性能
translated by 谷歌翻译
现实的高光谱图像(HSI)超分辨率(SR)技术旨在从其低分辨率(LR)对应物中产生具有更高光谱和空间忠诚的高分辨率(HR)HSI。生成的对抗网络(GAN)已被证明是图像超分辨率的有效深入学习框架。然而,现有GaN的模型的优化过程经常存在模式崩溃问题,导致光谱间不变重建容量有限。这可能导致所生成的HSI上的光谱空间失真,尤其是具有大的升级因子。为了缓解模式崩溃的问题,这项工作提出了一种与潜在编码器(Le-GaN)耦合的新型GaN模型,其可以将产生的光谱空间特征从图像空间映射到潜在空间并产生耦合组件正规化生成的样本。基本上,我们将HSI视为嵌入在潜在空间中的高维歧管。因此,GaN模型的优化被转换为学习潜在空间中的高分辨率HSI样本的分布的问题,使得产生的超分辨率HSI的分布更接近其原始高分辨率对应物的那些。我们对超级分辨率的模型性能进行了实验评估及其在缓解模式崩溃中的能力。基于具有不同传感器(即Aviris和UHD-185)的两种实际HSI数据集进行了测试和验证,用于各种升高因素并增加噪声水平,并与最先进的超分辨率模型相比(即Hyconet,LTTR,Bagan,SR-GaN,Wgan)。
translated by 谷歌翻译
在本文中,我们提出了FXAM(快速可解释的添加剂模型),统一和快速可解释模型的预测分析。 FXAM将GAM的(广义添加剂模型)扩展到具有统一添加剂模型的模型,用于数值,分类和时间特征。 FXAM进行一种新颖的培训程序,称为三级迭代(TSI)。三个阶段分别对应于学习数值,分类和时间特征。通过固定其他阶段的参数,每个阶段都学习本地最佳。我们设计联合学习过度学习,占时间特征的部分学习,以实现高精度和培训效率。我们证明了TSI保证融合到全球最优。我们进一步提出了一套优化技术来加速FXAM的培训算法,以满足交互式分析的需求。评估验证FXAM在训练速度和建模分类和时间特征方面显着优于现有的游戏。
translated by 谷歌翻译
基于主机的威胁,如程序攻击,恶意软件植入和高级持久威胁(APT)通常由现代攻击者采用。最近的研究建议利用数据出处中的丰富的上下文信息来检测主机中的威胁。数据出处是由系统审核数据构造的定向非循环图。来源图中的节点代表系统实体(例如,$ Process $和$文件$),并且边缘代表信息流方向的系统调用。然而,以前的研究,其中提取整个来源图的特征,对少量威胁相关实体不敏感,因此在狩猎隐秘威胁时导致低性能。我们提出了基于异常的基于异常的探测器,可以在没有攻击模式的情况下检测系统实体级别的基于主机的威胁。我们量身定制Graphsage,一个感应图形神经网络,以在出处图中学习每个良性实体的角色。 ThreaTrace是一个实时系统,可扩展,监控长期运行主机,并能够在早期阶段检测基于主机的入侵。我们在三个公共数据集中评估触角。结果表明,ThreaTrace优于三种最先进的主机入侵检测系统。
translated by 谷歌翻译