在本文中,我们研究了深神经网络中的动态感知对抗攻击问题。大多数现有的对抗性攻击算法是在基本假设下设计的 - 网络架构在整个攻击过程中都是固定的。然而,这种假设不适用于许多最近提出的网络,例如最近提出的网络。 3D稀疏卷积网络,其中包含输入相关的执行,以提高计算效率。它导致严重问题的滞后梯度,由于架构之后的架构而导致当前步骤的学习攻击无效。为了解决这个问题,我们提出了一种带有铅梯度法(LGM)并显示出滞后梯度的显着影响。更具体地说,我们重新制定了梯度,以了解网络架构的潜在动态变化,使得学习攻击更好地“引导”的下一步,而是当网络架构动态变化时的动态 - 不知道方法。关于各种数据集的广泛实验表明,我们的LGM在语义细分和分类上实现了令人印象深刻的性能。与动态无知的方法相比,LGM在SCANNET和S3DIS数据集上均达到约20%的MIOU。 LGM还优于最近的点云攻击。
translated by 谷歌翻译
最近的进展表明,使用对比图像文本对的大规模预训练可以是从自然语言监督的高质量视觉表演学习的有前途的替代方案。从更广泛的监督来源受益,这种新的范例展示了对下游分类任务和数据集的令人印象深刻的可转移性。然而,从图像文本对中学习的知识转移到更复杂的密集预测任务的问题几乎没有访问过。在这项工作中,我们通过隐式和明确地利用来自剪辑的预先训练的知识来提出了一种新的密集预测框架。具体地,我们将剪辑中的原始图像文本匹配问题转换为像素文本匹配问题,并使用像素文本分数图来指导致密预测模型的学习。通过进一步使用图像中的上下文信息来提示语言模型,我们能够促进我们的模型来更好地利用预先接受训练的知识。我们的方法是模型 - 不可行的,它可以应用于任意密集的预测系统和各种预先训练的视觉底座,包括夹模型和想象成预先训练的模型。广泛的实验证明了我们对语义分割,对象检测和实例分段任务的方法的卓越性能。代码可在https://github.com/raoyongming/denseclip获得
translated by 谷歌翻译
我们呈现Point-Bert,一种用于学习变压器的新范式,以概括BERT对3D点云的概念。灵感来自BERT,我们将屏蔽点建模(MPM)任务设计为预列火车点云变压器。具体地,我们首先将点云划分为几个本地点修补程序,并且具有离散变化性AutoEncoder(DVAE)的点云标记器被设计为生成包含有意义的本地信息的离散点令牌。然后,我们随机掩盖了一些输入点云的补丁并将它们送入骨干变压器。预训练目标是在销售器获得的点代币的监督下恢复蒙面地点的原始点令牌。广泛的实验表明,拟议的BERT风格的预训练策略显着提高了标准点云变压器的性能。配备了我们的预培训策略,我们表明,纯变压器架构对ModelNet40的准确性为93.8%,在ScanObjectnn的最艰难的设置上的准确性为83.1%,超越精心设计的点云模型,手工制作的设计更少。我们还证明,Point-Bert从新的任务和域中获悉的表示,我们的模型在很大程度上推动了几个射击点云分类任务的最先进。代码和预先训练的型号可在https://github.com/lulutang0608/pint -bert上获得
translated by 谷歌翻译
最近,生成的数据无量子化作为一种​​实用的方法,将神经网络压缩到低位宽度而不访问真实数据。它通过利用其全精密对应物的批量归一化(BN)统计来生成数据来量化网络。然而,我们的研究表明,在实践中,BN统计的合成数据在分布和样品水平时严重均匀化,这导致量化网络的严重劣化。本文提出了一种通用不同的样本生成(DSG)方案,用于生成无数据的训练后量化和量化感知培训,以减轻有害的均质化。在我们的DSG中,我们首先将统计对齐缩写为BN层中的功能,以放宽分配约束。然后,我们加强特定BN层对不同样品的损失影响,并抑制了生成过程中样品之间的相关性,分别从统计和空间角度分别多样化样本。广泛的实验表明,对于大规模的图像分类任务,我们的DSG可以始终如一地优于各种神经结构上的现有数据无数据量化方法,尤其是在超低比特宽度下(例如,在W4A4设置下的22%的增益下)。此外,由我们的DSG引起的数据多样化引起了各种量化方法的一般增益,证明了多样性是无数据量化的高质量合成数据的重要特性。
translated by 谷歌翻译
1954年,Alston S. Homeer公开了数值分析的原则,其中最初的基质分解的现代治疗之一是赞成(嵌段)Lu分解 - 基质的分解为下三角基质和上三角基质的产物。现在,矩阵分解已成为机器学习中的核心技术,主要原体是由于拟合神经网络的后传播算法的发展。本调查的唯一目的是在数值线性代数和矩阵分析中提供对概念和数学工具的自我概述,以便在后续部分中无缝引入矩阵分解技术及其应用。然而,我们清楚地实现了我们无法涵盖关于矩阵分解的所有有用和有趣的结果,并且鉴于缺乏本讨论的范围,例如,欧几里德空间,隐士空间,希尔伯特空间和复杂的事物的分离分析领域。我们将读者转到线性代数领域的文献,以便更详细地对相关领域介绍。
translated by 谷歌翻译
利用TRIMAP引导和融合多级功能是具有像素级预测的基于Trimap的垫子的两个重要问题。为了利用Trimap指导,大多数现有方法只需将TRIMAPS和图像连接在一起,以馈送深网络或应用额外的网络以提取更多的TRIMAP指导,这符合效率和效率之间的冲突。对于新兴的基于内容的特征融合,大多数现有的消光方法仅关注本地特征,这些功能缺乏与有趣对象相关的强大语义信息的全局功能的指导。在本文中,我们提出了一种由我们的Trimap引导的非背景多尺度池(TMP)模块和全球本地背景信息融合(GLF)模块组成的Trimap-Goided Feats挖掘和融合网络。考虑到Trimap提供强大的语义指导,我们的TMP模块在Trimap的指导下对有趣的对象进行了有效的特征挖掘,而无需额外参数。此外,我们的GLF模块使用我们的TMP模块开采的有趣物体的全局语义信息,以指导有效的全局本地上下文感知多级功能融合。此外,我们建立了一个共同的有趣的物体消光(CIOM)数据集,以推进高质量的图像消光。在组合物-1K测试集,Alphamatting基准和我们的CIOM测试集上的实验结果表明,我们的方法优于最先进的方法。代码和模型将很快公开发布。
translated by 谷歌翻译
Detection Transformer (DETR) and Deformable DETR have been proposed to eliminate the need for many hand-designed components in object detection while demonstrating good performance as previous complex hand-crafted detectors. However, their performance on Video Object Detection (VOD) has not been well explored. In this paper, we present TransVOD, the first end-to-end video object detection system based on spatial-temporal Transformer architectures. The first goal of this paper is to streamline the pipeline of VOD, effectively removing the need for many hand-crafted components for feature aggregation, e.g., optical flow model, relation networks. Besides, benefited from the object query design in DETR, our method does not need complicated post-processing methods such as Seq-NMS. In particular, we present a temporal Transformer to aggregate both the spatial object queries and the feature memories of each frame. Our temporal transformer consists of two components: Temporal Query Encoder (TQE) to fuse object queries, and Temporal Deformable Transformer Decoder (TDTD) to obtain current frame detection results. These designs boost the strong baseline deformable DETR by a significant margin (2 %-4 % mAP) on the ImageNet VID dataset. TransVOD yields comparable performances on the benchmark of ImageNet VID. Then, we present two improved versions of TransVOD including TransVOD++ and TransVOD Lite. The former fuses object-level information into object query via dynamic convolution while the latter models the entire video clips as the output to speed up the inference time. We give detailed analysis of all three models in the experiment part. In particular, our proposed TransVOD++ sets a new state-of-the-art record in terms of accuracy on ImageNet VID with 90.0 % mAP. Our proposed TransVOD Lite also achieves the best speed and accuracy trade-off with 83.7 % mAP while running at around 30 FPS on a single V100 GPU device. Code and models will be available for further research.
translated by 谷歌翻译
由于稀疏神经网络通常包含许多零权重,因此可以在不降低网络性能的情况下潜在地消除这些不必要的网络连接。因此,设计良好的稀疏神经网络具有显着降低拖鞋和计算资源的潜力。在这项工作中,我们提出了一种新的自动修剪方法 - 稀疏连接学习(SCL)。具体地,重量被重新参数化为可培训权重变量和二进制掩模的元素方向乘法。因此,由二进制掩模完全描述网络连接,其由单位步进函数调制。理论上,从理论上证明了使用直通估计器(STE)进行网络修剪的基本原理。这一原则是STE的代理梯度应该是积极的,确保掩模变量在其最小值处收敛。在找到泄漏的Relu后,SoftPlus和Identity Stes可以满足这个原理,我们建议采用SCL的身份STE以进行离散面膜松弛。我们发现不同特征的面具梯度非常不平衡,因此,我们建议将每个特征的掩模梯度标准化以优化掩码变量训练。为了自动训练稀疏掩码,我们将网络连接总数作为我们的客观函数中的正则化术语。由于SCL不需要由网络层设计人员定义的修剪标准或超级参数,因此在更大的假设空间中探讨了网络,以实现最佳性能的优化稀疏连接。 SCL克服了现有自动修剪方法的局限性。实验结果表明,SCL可以自动学习并选择各种基线网络结构的重要网络连接。 SCL培训的深度学习模型以稀疏性,精度和减少脚波特的SOTA人类设计和自动修剪方法训练。
translated by 谷歌翻译
自然语言界面(NLIS)为用户提供了一种方便的方式来通过自然语言查询交互分析数据。然而,交互式数据分析是一种苛刻的过程,特别是对于新手数据分析师。从不同域探索大型和复杂的数据集时,数据分析师不一定有足够的关于数据和应用域的知识。它使他们无法有效地引起一系列查询并广泛导出理想的数据洞察力。在本文中,我们使用Step-Wise查询推荐模块开发NLI,以帮助用户选择适当的下一步探索操作。该系统采用数据驱动方法,以基于其查询日志生成用户兴趣的应用域的逐步语义相关和上下文感知的查询建议。此外,该系统可帮助用户将查询历史和结果组织成仪表板以传达发现的数据洞察力。通过比较用户学习,我们表明我们的系统可以促进比没有推荐模块的基线更有效和系统的数据分析过程。
translated by 谷歌翻译
文档级关系提取(DRE)旨在识别两个实体之间的关系。实体可以对应于超越句子边界的多个提升。以前很少有研究已经调查了提及集成,这可能是有问题的,因为库鲁弗提到对特定关系没有同样有贡献。此外,事先努力主要关注实体级的推理,而不是捕获实体对之间的全局相互作用。在本文中,我们提出了两种新颖的技术,上下文指导的集成和交互推理(CGM2IR),以改善DRE。而不是简单地应用平均池,而是利用上下文来指导在加权和方式中的经验提升的集成。另外,对实体对图的相互作用推理在实体对图上执行迭代算法,以模拟关系的相互依赖性。我们在三个广泛使用的基准数据集中评估我们的CGM2IR模型,即Docred,CDR和GDA。实验结果表明,我们的模型优于以前的最先进的模型。
translated by 谷歌翻译