视觉变压器最近在各种计算机视觉任务上取得了巨大成功。然而,他们的高模型复杂性使部署在资源约束设备上的挑战。量化是一种有效的方法,可以减少模型复杂性,并且可以在模型部署期间解决数据隐私和安全问题的无数据量化已获得广泛的兴趣。不幸的是,所有现有的方法(例如BN正则化)都是为卷积神经网络而设计的,不能应用于具有明显不同模型体系结构的视觉变压器。在本文中,我们提出了PSAQ-VIT,这是视觉变压器的贴片相似性无数据量化框架,以根据视觉变压器的唯一属性来生成“现实”样品,以校准量化参数。具体而言,我们分析了自我发场模块的特性,并在处理高斯噪声和真实图像的处理中揭示了一般差异(斑块相似性)。以上见解指导我们设计一个相对值度量,以优化高斯噪声以近似真实的图像,然后将其用于校准量化参数。对各种基准进行了广泛的实验和消融研究,以验证PSAQ-VIT的有效性,这甚至可以优于实现DATA驱动的方法。
translated by 谷歌翻译
我们介绍了一种新颖的骨干架构,提高特征表示的目标感知能力。具体地,已经观察到事实上框架简单地使用来自骨干网的输出来执行特征匹配,从备份目标本地化,没有从匹配模块到骨干网的直接反馈,尤其是浅层。更具体地,只有匹配模块可以直接访问目标信息(在参考帧中),而候选帧的表示学习对参考目标是盲目的。结果,浅级中的目标 - 无关干扰的累积效果可能降低更深层的特征质量。在本文中,我们通过在暹罗类似的骨干网(inbn)内进行多个分支 - 方面交互来从不同角度接近问题。在INBN的核心是一个通用交互建模器(GIM),其将参考图像的先前知识注入骨干网络的不同阶段,导致候选特征表示的更好的目标感知和鲁棒的牵引力,其计算成本具有可忽略的计算成本。所提出的GIM模块和INBN机制是一般的,适用于不同的骨干类型,包括CNN和变压器,以改进,如我们在多个基准上的广泛实验所证明的那样。特别是,CNN版本(基于Siamcar),分别在Lasot / TNL2K上改善了3.2 / 6.9的Suc绝对收益。变压器版本获取Lasot / TNL2K的SUC 25.7 / 52.0,与最近的艺术态度相提并论。代码和模型将被释放。
translated by 谷歌翻译
在目前的实践中,现场调查由使用总站的工人进行。该方法精度高,但如果需要连续监测,它会引起高成本。基于摄影测量的技术,具有相对更便宜的数码相机,在许多领域中获得了广泛的应用。除点测量外,摄影测量还可以创建场景的三维(3D)模型。精确的3D模型重建取决于高质量的图像。降级图像将导致重建的3D模型中的大错误。在本文中,我们提出了一种可用于提高图像的可见性的方法,最终降低3D场景模型的错误。这个想法是由图像脱落的启发。通过伽马校正操作和自适应直方图均衡首先将每个原始图像变为多个曝光图像。通过计算局部二进制模式来分析变换的图像。然后增强图像,其中每个像素由由本地模式特征的函数和图像饱和度加权的变换的图像像素组生成的每个像素。在基准图像脱水数据集上执行了性能评估。实验已经在室外和室内调查中进行。我们的分析发现,该方法适用于户外和室内图像中存在的不同类型的退化。当馈入摄影测量软件时,增强的图像可以重建具有子毫米均值误差的3D场景模型。
translated by 谷歌翻译
优化平均精度(AP)的近似已被广泛研究图像检索。受AP的定义有限,这些方法考虑在每个阳性实例之前的负数和正面情况。但是,我们声称只在积极的情况下惩罚负面情况,因为损失只来自这些负面情况。为此,我们提出了一种新的损失,即惩罚正面(PNP)的负面情况,这可以直接最小化每个正面前的负实例的数量。此外,基于AP的方法采用固定和次优梯度分配策略。因此,我们通过构建损耗的衍生功能来系统地调查不同的梯度分配解决方案,导致PNP-I具有增加的衍生函数和PNP-D,其具有减小的函数。 PNP-I通过为它们分配更大的渐变并尝试使所有相关实例更近的较大渐变来重点缩影。相比之下,PNP-D对此类实例的关注不那么注意,并慢慢纠正它们。对于大多数真实世界的数据,一类通常包含几个本地群集。 PNP-我盲目地聚集了这些群集,而PNP-D保持它们。因此,PNP-D更优越。三个标准检索数据集的实验显示了上述分析的一致结果。广泛的评估表明PNP-D实现了最先进的性能。代码在https://github.com/interestingzhuo/pnp_loss获得
translated by 谷歌翻译
The state-of-the-art language model-based automatic metrics, e.g. BARTScore, benefiting from large-scale contextualized pre-training, have been successfully used in a wide range of natural language generation (NLG) tasks, including machine translation, text summarization, and data-to-text. Recent studies show that considering both major errors (e.g. mistranslated tokens) and minor errors (e.g. imperfections in fluency) can produce high-quality human judgments. This inspires us to approach the final goal of the evaluation metrics (human-like evaluations) by automatic error analysis. To this end, we augment BARTScore by incorporating the human-like error analysis strategies, namely BARTScore++, where the final score consists of both the evaluations of major errors and minor errors. Experimental results show that BARTScore++ can consistently improve the performance of vanilla BARTScore and outperform existing top-scoring metrics in 20 out of 25 test settings. We hope our technique can also be extended to other pre-trained model-based metrics. We will release our code and scripts to facilitate the community.
translated by 谷歌翻译
Variational Graph Autoencoders (VGAEs) are powerful models for unsupervised learning of node representations from graph data. In this work, we systematically analyze modeling node attributes in VGAEs and show that attribute decoding is important for node representation learning. We further propose a new learning model, interpretable NOde Representation with Attribute Decoding (NORAD). The model encodes node representations in an interpretable approach: node representations capture community structures in the graph and the relationship between communities and node attributes. We further propose a rectifying procedure to refine node representations of isolated notes, improving the quality of these nodes' representations. Our empirical results demonstrate the advantage of the proposed model when learning graph data in an interpretable approach.
translated by 谷歌翻译
A large number of studies on Graph Outlier Detection (GOD) have emerged in recent years due to its wide applications, in which Unsupervised Node Outlier Detection (UNOD) on attributed networks is an important area. UNOD focuses on detecting two kinds of typical outliers in graphs: the structural outlier and the contextual outlier. Most existing works conduct experiments based on datasets with injected outliers. However, we find that the most widely-used outlier injection approach has a serious data leakage issue. By only utilizing such data leakage, a simple approach can achieve state-of-the-art performance in detecting outliers. In addition, we observe that most existing algorithms have a performance drop with varied injection settings. The other major issue is on balanced detection performance between the two types of outliers, which has not been considered by existing studies. In this paper, we analyze the cause of the data leakage issue in depth since the injection approach is a building block to advance UNOD. Moreover, we devise a novel variance-based model to detect structural outliers, which outperforms existing algorithms significantly at different injection settings. On top of this, we propose a new framework, Variance-based Graph Outlier Detection (VGOD), which combines our variance-based model and attribute reconstruction model to detect outliers in a balanced way. Finally, we conduct extensive experiments to demonstrate the effectiveness and efficiency of VGOD. The results on 5 real-world datasets validate that VGOD achieves not only the best performance in detecting outliers but also a balanced detection performance between structural and contextual outliers. Our code is available at https://github.com/goldenNormal/vgod-github.
translated by 谷歌翻译
准确的车辆类型分类在智能运输系统中起重要作用。对于统治者而言,重要的是要了解道路状况,通常为交通灯控制系统的贡献,以相应地响应以减轻交通拥堵。新技术和全面数据源,例如航空照片和遥感数据,提供了更丰富,高维的信息。同样,由于深度神经网络技术的快速发展,基于图像的车辆分类方法可以在处理数据时更好地提取基本的客观特征。最近,已经提出了几种深度学习模型来解决该问题。但是,基于纯卷积的传统方法对全球信息提取有限制,而复杂的环境(例如恶劣的天气)严重限制了识别能力。为了在复杂环境下提高车辆类型的分类能力,本研究提出了一种新型连接的卷积变压器在变压器神经网络(密度TNT)框架中,通过堆叠密集连接的卷积网络(Densenet)和变压器(TNT)(TNT)(TNT)(TNT )层。部署了三个区域的数据和四个不同的天气条件以评估识别能力。实验发现,即使在严重的雾气天气条件下,我们提出的车辆分类模型的识别能力也很少。
translated by 谷歌翻译
强有力的对手例子是评估和增强深神经网络鲁棒性的关键。流行的对抗性攻击算法使用梯度上升最大化非cave损失函数。但是,每种攻击的性能通常对由于信息不足(仅一个输入示例,几乎没有白色盒子源模型和未知的防御策略)而敏感。因此,精心设计的对抗性示例容易过度拟合源模型,从而将其转移性限制在身份不明的架构上。在本文中,我们提出了多种渐近正态分布攻击(Multianda),这是一种新颖的方法,可以明确表征来自学习分布的对抗性扰动。具体而言,我们通过利用随机梯度上升(SGA)的渐近正态性能(SGA)的优势来近似于扰动,然后将整体策略应用于此过程,以估算高斯混合模型,以更好地探索潜在的优化空间。从学习分布中绘制扰动使我们能够为每个输入生成任何数量的对抗示例。近似后验实质上描述了SGA迭代的固定分布,该分布捕获了局部最佳距离周围的几何信息。因此,从分布中得出的样品可靠地保持转移性。我们提出的方法通过对七个正常训练和七个防御模型进行广泛的实验,超过了对具有或没有防御的深度学习模型的九个最先进的黑盒攻击。
translated by 谷歌翻译
电动汽车(EV)充电需求和充电站的可用性预测是智能运输系统中的挑战之一。通过准确的EV站情况预测,可以提前安排合适的充电行为以缓解范围焦虑。但是,由于复杂的道路网络结构和全面的外部因素,例如兴趣点(POI)和天气效应,许多现有的深度学习方法用于解决此问题,因此,许多常用算法只能在没有历史用法的情况下提取历史用法考虑外部因素的全面影响。为了提高预测准确性和可解释性,在本研究中提出了属性增强的时空图信息器(AST-GIN)结构,通过将图形卷积网络(GCN)层和告密者层组合来提取外部和内部空间 - 相关运输数据的时间依赖性。并且外部因素被模拟为动态属性,由属性调制的编码器进行训练。测试了邓迪市收集的数据的AST-gin模型,实验结果表明,与其他基线相比,考虑到外部因素对各种地平线环境的影响,我们的模型的有效性。
translated by 谷歌翻译