这项工作旨在探索无卷积的基本分类器,该分类器可用于扩大常规合奏分类器的变化。具体而言,我们建议视觉变压器作为基本分类器,以与CNN结合使用Kaggle亲属识别中的独特集合解决方案。在本文中,我们通过在现有CNN模型之上实施和优化视觉变压器模型的变体来验证我们的想法。组合模型比仅基于CNN变体的常规集合分类器获得更好的分数。我们证明,高度优化的CNN合奏在Kaggle讨论板上公开可用,可以通过与Vision Transformer模型的变体简单地合奏,从而轻松地获得ROC得分的显着提升,这是由于低相关性而引起的。
translated by 谷歌翻译
ous vision tasks without convolutions, where it can be used as a direct replacement for CNN backbones. (3) We validate PVT through extensive experiments, showing that it boosts the performance of many downstream tasks, including object detection, instance and semantic segmentation. For example, with a comparable number of parameters, PVT+RetinaNet achieves 40.4 AP on the COCO dataset, surpassing ResNet50+RetinNet (36.3 AP) by 4.1 absolute AP (see Figure 2). We hope that PVT could serve as an alternative and useful backbone for pixel-level predictions and facilitate future research.
translated by 谷歌翻译
哥内克人Sentinel Imagery的纯粹卷的可用性为使用深度学习的大尺度创造了新的土地利用陆地覆盖(Lulc)映射的机会。虽然在这种大型数据集上培训是一个非琐碎的任务。在这项工作中,我们试验Lulc Image分类和基准不同最先进模型的Bigearthnet数据集,包括卷积神经网络,多层感知,视觉变压器,高效导通和宽残余网络(WRN)架构。我们的目标是利用分类准确性,培训时间和推理率。我们提出了一种基于用于网络深度,宽度和输入数据分辨率的WRNS复合缩放的高效导通的框架,以有效地训练和测试不同的模型设置。我们设计一种新颖的缩放WRN架构,增强了有效的通道注意力机制。我们提出的轻量级模型具有较小的培训参数,实现所有19个LULC类的平均F分类准确度达到4.5%,并且验证了我们使用的resnet50最先进的模型速度快两倍作为基线。我们提供超过50种培训的型号,以及我们在多个GPU节点上分布式培训的代码。
translated by 谷歌翻译
由于2017年介绍了变压器架构,因此许多尝试将自我关注范例带入计算机愿景领域。在本文中,我们提出了一种新颖的自我关注模块,可以很容易地集成在几乎每个卷积神经网络中,专门为计算机视觉设计,LHC:本地(多)头通道(自我关注)。 LHC是基于两个主要思想:首先,我们认为在电脑视觉中利用自我关注范式的最佳方式是渠道明智的应用而不是更探索的空间关注,并且卷积不会被引起的注意力替换经常性网络在NLP中;其次,局部方法有可能更好地克服卷积的局限性而不是全球关注。通过LHC-Net,我们设法在着名的FER2013数据集中实现了新的艺术状态,与先前的SOTA相比,在计算成本方面的复杂性和对“宿主”架构的复杂性显着和影响。
translated by 谷歌翻译
乳腺癌是全球女性中最常见的癌症。乳腺癌的早期诊断可以显着提高治疗效率。由于其可靠性,准确性和负担能力,计算机辅助诊断(CAD)系统被广泛采用。乳腺癌诊断有不同的成像技术。本文使用的最准确的是组织病理学。深度传输学习被用作提议的CAD系统功能提取器的主要思想。尽管在这项研究中已经测试了16个不同的预训练网络,但我们的主要重点是分类阶段。在所有测试的CNN中,具有剩余网络既有剩余网络既有剩余和启动网络的启发能力,均显示出最佳的特征提取能力。在分类阶段,Catboost,XGBOOST和LIGHTGBM的合奏提供了最佳的平均精度。 Breakhis数据集用于评估所提出的方法。 Breakhis在四个放大因素中包含7909个组织病理学图像(2,480个良性和5,429个恶性)。提出的方法的准确性(IRV2-CXL)使用70%的Breakhis数据集作为40倍,100X,200X和400X放大倍率的训练数据分别为96.82%,95.84%,97.01%和96.15%。大多数关于自动乳腺癌检测的研究都集中在特征提取上,这使我们参加了分类阶段。 IRV2-CXL由于使用软投票集合方法而显示出更好或可比较的结果,该合奏方法可以将Catboost,XGBoost和LightGBM的优势结合在一起。
translated by 谷歌翻译
SARS-COV-2向科学界提出了直接和间接的挑战。从大量国家的强制使用面部面具的强制使用最突出的间接挑战之一。面部识别方法在蒙版和未掩蔽的个体上努力执行具有类似准确性的身份验证。已经表明,这些方法的性能在面部掩模存在下显着下降,特别是如果参考图像是未被掩蔽的。我们提出了FocusFace,一种使用对比学习的多任务架构能够准确地执行蒙面的面部识别。该建议的架构被设计为从头开始训练或者在最先进的面部识别方法上工作,而不牺牲传统的面部识别任务中现有模型的能力。我们还探讨了设计对比学习模块的不同方法。结果以屏蔽掩蔽(M-M)和未掩蔽掩蔽(U-M)面验证性能提出。对于这两个设置,结果都与已发布的方法相提并论,但对于M-M而言,该方法能够优于与其比较的所有解决方案。我们进一步表明,当在现有方法顶部使用我们的方法时,培训计算成本在保持类似的表现时显着降低。在Github上提供了实施和培训的型号。
translated by 谷歌翻译
最近,由于社交媒体数字取证中的安全性和隐私问题,DeepFake引起了广泛的公众关注。随着互联网上广泛传播的深层视频变得越来越现实,传统的检测技术未能区分真实和假货。大多数现有的深度学习方法主要集中于使用卷积神经网络作为骨干的局部特征和面部图像中的关系。但是,本地特征和关系不足以用于模型培训,无法学习足够的一般信息以进行深层检测。因此,现有的DeepFake检测方法已达到瓶颈,以进一步改善检测性能。为了解决这个问题,我们提出了一个深度卷积变压器,以在本地和全球范围内纳入决定性图像。具体而言,我们应用卷积池和重新注意事项来丰富提取的特征并增强功效。此外,我们在模型训练中采用了几乎没有讨论的图像关键框架来改进性能,并可视化由视频压缩引起的密钥和正常图像帧之间的特征数量差距。我们最终通过在几个DeepFake基准数据集上进行了广泛的实验来说明可传递性。所提出的解决方案在内部和跨数据库实验上始终优于几个最先进的基线。
translated by 谷歌翻译
Ensemble learning serves as a straightforward way to improve the performance of almost any machine learning algorithm. Existing deep ensemble methods usually naively train many different models and then aggregate their predictions. This is not optimal in our view from two aspects: i) Naively training multiple models adds much more computational burden, especially in the deep learning era; ii) Purely optimizing each base model without considering their interactions limits the diversity of ensemble and performance gains. We tackle these issues by proposing deep negative correlation classification (DNCC), in which the accuracy and diversity trade-off is systematically controlled by decomposing the loss function seamlessly into individual accuracy and the correlation between individual models and the ensemble. DNCC yields a deep classification ensemble where the individual estimator is both accurate and negatively correlated. Thanks to the optimized diversities, DNCC works well even when utilizing a shared network backbone, which significantly improves its efficiency when compared with most existing ensemble systems. Extensive experiments on multiple benchmark datasets and network structures demonstrate the superiority of the proposed method.
translated by 谷歌翻译
亲属性验证是在两个人之间确定父子,兄弟姐妹或祖父母的关系,在社交媒体应用,法医调查,发现失踪的儿童和团聚家庭中都很重要。我们通过参加2021年在野外挑战中识别2021家庭来展示高质量的亲属验证,该家庭提供了该领域中最大的公共数据集。我们的方法是竞争中的前三名获奖条目之一。我们的专家和基础模型,Openai Codex撰写的模拟模型,培训了文本和代码。我们使用Codex来生成模型变体,并且还展示其能够生成特定关系的亲属验证任务的整个运行程序。
translated by 谷歌翻译
使用卷积神经网络,面部属性(例如,年龄和吸引力)估算性能得到了大大提高。然而,现有方法在培训目标和评估度量之间存在不一致,因此它们可能是次优。此外,这些方法始终采用具有大量参数的图像分类或面部识别模型,其携带昂贵的计算成本和存储开销。在本文中,我们首先分析了两种最新方法(排名CNN和DLDL)之间的基本关系,并表明排名方法实际上是隐含的学习标签分布。因此,该结果首先将两个现有的最新方法统一到DLDL框架中。其次,为了减轻不一致和降低资源消耗,我们设计了一种轻量级网络架构,并提出了一个统一的框架,可以共同学习面部属性分发和回归属性值。在面部年龄和吸引力估算任务中都证明了我们的方法的有效性。我们的方法使用单一模型实现新的最先进的结果,使用36美元\倍,参数减少3美元,在面部年龄/吸引力估算上的推动速度为3美元。此外,即使参数的数量进一步降低到0.9m(3.8MB磁盘存储),我们的方法也可以实现与最先进的结果。
translated by 谷歌翻译
自动图像分类是食品科学中监督机器学习的常见任务。一个例子是基于图像的水果外部质量或成熟度的分类。为此,通常使用深层卷积神经网络(CNN)。这些模型通常需要大量标记的培训样本和增强的计算资源。尽管商业水果分类线很容易满足这些要求,但这些先决条件可能会阻碍机器学习方法的使用,尤其是对于发展中国家的小农户。我们提出了一种基于预先训练的视觉变压器(VIT)的替代方法,该方法特别适用于数据可用性较低和计算资源有限的域。可以在标准设备上使用有限的资源来轻松实施,这可以使这些模型在发展中国家的基于智能手机的图像分类中民主化。我们通过用良好的CNN方法基准对香蕉和苹果水果的域数据集进行两项不同的分类任务来证明我们方法的竞争力。我们的方法在3745张图像的训练数据集上,分类精度低于表现最佳的CNN(0.950 vs. 0.958)的分类精度。同时,当只有少量标记的训练样本可用时,我们的方法是优越的。与CNN相比,它需要少三倍才能达到0.90的精度。此外,低维特征嵌入的可视化表明,我们的研究中使用的模型从看不见的数据中提取了出色的特征,而无需分配标签。
translated by 谷歌翻译
图像美容评估是计算机视觉的重要主题。因此,构建模型以模拟图像美容评估成为重要任务。为了更好地模仿人类视觉系统(HVS)的行为,应实施关于不同类别的图像的完整调查。这项工作侧重于图像美容评估。在本研究中,使用了基于Bradley-Terry模型的成对评估方法。我们认为这种方法比图像组内的其他图像评级方法更准确。此外,在这项工作中使用卷积神经网络(CNN),适用于图像质量评估。本研究的第一部分是关于不同图像的图像美容比较的调查。 Bradley-Terry模型用于计算的分数,这是CNN模型的目标。这项工作的第二部分侧重于图像美容预测的结果,包括景观图像,架构图像和肖像图像。该模型是由AVA数据集预先预先训练,以提高稍后的性能。然后,CNN模型通过受测量的图像和相应的分数培训。此外,本工作比较了四个CNN基础网络的结果,即亚历克斯网络,VGG网络,挤压网和LSIM网,如文献所讨论的。最后,通过成对的准确性,相关系数和通过调查结果计算的相对误差来评估模型。我们的提出方法成熟​​的令人满意的结果是成对的约70%的准确性。我们的工作更轻,新颖的图像美容评估方法。虽然应该进行更多的研究,但这种方法是一个有希望的步骤。
translated by 谷歌翻译
Astounding results from Transformer models on natural language tasks have intrigued the vision community to study their application to computer vision problems. Among their salient benefits, Transformers enable modeling long dependencies between input sequence elements and support parallel processing of sequence as compared to recurrent networks e.g., Long short-term memory (LSTM). Different from convolutional networks, Transformers require minimal inductive biases for their design and are naturally suited as set-functions. Furthermore, the straightforward design of Transformers allows processing multiple modalities (e.g., images, videos, text and speech) using similar processing blocks and demonstrates excellent scalability to very large capacity networks and huge datasets. These strengths have led to exciting progress on a number of vision tasks using Transformer networks. This survey aims to provide a comprehensive overview of the Transformer models in the computer vision discipline. We start with an introduction to fundamental concepts behind the success of Transformers i.e., self-attention, large-scale pre-training, and bidirectional feature encoding. We then cover extensive applications of transformers in vision including popular recognition tasks (e.g., image classification, object detection, action recognition, and segmentation), generative modeling, multi-modal tasks (e.g., visual-question answering, visual reasoning, and visual grounding), video processing (e.g., activity recognition, video forecasting), low-level vision (e.g., image super-resolution, image enhancement, and colorization) and 3D analysis (e.g., point cloud classification and segmentation). We compare the respective advantages and limitations of popular techniques both in terms of architectural design and their experimental value. Finally, we provide an analysis on open research directions and possible future works. We hope this effort will ignite further interest in the community to solve current challenges towards the application of transformer models in computer vision.
translated by 谷歌翻译
The upcoming large scale surveys like LSST are expected to find approximately $10^5$ strong gravitational lenses by analysing data of many orders of magnitude larger than those in contemporary astronomical surveys. In this case, non-automated techniques will be highly challenging and time-consuming, even if they are possible at all. We propose a new automated architecture based on the principle of self-attention to find strong gravitational lenses. The advantages of self-attention-based encoder models over convolution neural networks are investigated, and ways to optimise the outcome of encoder models are analysed. We constructed and trained 21 self-attention based encoder models and five convolution neural networks to identify gravitational lenses from the Bologna Lens Challenge. Each model was trained separately using 18,000 simulated images, cross-validated using 2,000 images, and then applied to a test set with 100,000 images. We used four different metrics for evaluation: classification accuracy, area under the receiver operating characteristic curve (AUROC), the TPR$_0$ score and the TPR$_{10}$ score. The performances of self-attention-based encoder models and CNNs participating in the challenge are compared. They were able to surpass the CNN models that participated in the Bologna Lens Challenge by a high margin for the TPR$_0$ and TPR_${10}$. Self-Attention based models have clear advantages compared to simpler CNNs. They have highly competing performance in comparison to the currently used residual neural networks. Compared to CNNs, self-attention based models can identify highly confident lensing candidates and will be able to filter out potential candidates from real data. Moreover, introducing the encoder layers can also tackle the over-fitting problem present in the CNNs by acting as effective filters.
translated by 谷歌翻译
视觉变压器(VIT)用作强大的视觉模型。与卷积神经网络不同,在前几年主导视觉研究,视觉变压器享有捕获数据中的远程依赖性的能力。尽管如此,任何变压器架构的组成部分,自我关注机制都存在高延迟和低效的内存利用,使其不太适合高分辨率输入图像。为了缓解这些缺点,分层视觉模型在非交错的窗口上局部使用自我关注。这种放松会降低输入尺寸的复杂性;但是,它限制了横窗相互作用,损害了模型性能。在本文中,我们提出了一种新的班次不变的本地注意层,称为查询和参加(QNA),其以重叠的方式聚集在本地输入,非常类似于卷积。 QNA背后的关键想法是介绍学习的查询,这允许快速高效地实现。我们通过将其纳入分层视觉变压器模型来验证我们的层的有效性。我们展示了速度和内存复杂性的改进,同时实现了与最先进的模型的可比准确性。最后,我们的图层尺寸尤其良好,窗口大小,需要高于X10的内存,而不是比现有方法更快。
translated by 谷歌翻译
视觉变形金刚(VITS)处理将图像输入图像作为通过自我关注的斑块;比卷积神经网络(CNNS)彻底不同的结构。这使得研究Vit模型的对抗特征空间及其可转移性有趣。特别是,我们观察到通过常规逆势攻击发现的对抗性模式,即使对于大型Vit模型,也表现出非常低的黑箱可转移性。但是,我们表明这种现象仅是由于不利用VITS的真实表示潜力的次优攻击程序。深紫色由多个块组成,具有一致的架构,包括自我关注和前馈层,其中每个块能够独立地产生类令牌。仅使用最后一类令牌(传统方法)制定攻击并不直接利用存储在早期令牌中的辨别信息,从而导致VITS的逆势转移性差。使用Vit模型的组成性质,我们通过引入特定于Vit模型结构的两种新策略来增强现有攻击的可转移性。 (i)自我合奏:我们提出了一种通过将单vit模型解剖到网络的集合来找到多种判别途径的方法。这允许在每个VIT块处明确地利用特定于类信息。 (ii)令牌改进:我们建议改进令牌,以进一步增强每种Vit障碍的歧视能力。我们的令牌细化系统地将类令牌系统组合在补丁令牌中保留的结构信息。在一个视觉变压器中发现的分类器的集合中应用于此类精炼令牌时,对抗攻击具有明显更高的可转移性。
translated by 谷歌翻译
本文介绍了我们在Aaai 2022的多模态事实验证(Factifify)挑战的参与者系统。尽管最近基于文本的验证技术和大型预训练的多模式模型的跨视野和语言,但在申请方面取得了非常有限的工作自动化事实检查过程的多模式技术,特别考虑到社交媒体上的图像和视频的索赔和假新闻的普遍存在。在我们的工作中,挑战被视为多式联版征报任务并被诬陷为多级分类。提出并探索了两个基线方法,包括集合模型(组合两个Uni-Modal模型)和多模态注意力网络(在索赔和证据文件中建模图像和文本对之间的交互)。我们在这项工作中进行了调查和基准测试和基准测试的几个实验和基准测试。我们的最佳型号在排行榜中排名第一,在验证和测试集中获得0.77的加权平均f测量值。对DataSet的探索性分析也在辅助数据集上进行,并揭示了激励我们假设的突出模式和问题(例如,单词重叠,视觉着色相关性,来源偏见)。最后,我们突出了未来研究的任务和多模式数据集的挑战。
translated by 谷歌翻译
视觉变压器正在成为解决计算机视觉问题的强大工具。最近的技术还证明了超出图像域之外的变压器来解决许多与视频相关的任务的功效。其中,由于其广泛的应用,人类的行动识别是从研究界受到特别关注。本文提供了对动作识别的视觉变压器技术的首次全面调查。我们朝着这个方向分析并总结了现有文献和新兴文献,同时突出了适应变形金刚以进行动作识别的流行趋势。由于其专业应用,我们将这些方法统称为``动作变压器''。我们的文献综述根据其架构,方式和预期目标为动作变压器提供了适当的分类法。在动作变压器的背景下,我们探讨了编码时空数据,降低维度降低,框架贴片和时空立方体构造以及各种表示方法的技术。我们还研究了变压器层中时空注意的优化,以处理更长的序列,通常通过减少单个注意操作中的令牌数量。此外,我们还研究了不同的网络学习策略,例如自我监督和零局学习,以及它们对基于变压器的行动识别的相关损失。这项调查还总结了在具有动作变压器重要基准的评估度量评分方面取得的进步。最后,它提供了有关该研究方向的挑战,前景和未来途径的讨论。
translated by 谷歌翻译
Group affect refers to the subjective emotion that is evoked by an external stimulus in a group, which is an important factor that shapes group behavior and outcomes. Recognizing group affect involves identifying important individuals and salient objects among a crowd that can evoke emotions. Most of the existing methods are proposed to detect faces and objects using pre-trained detectors and summarize the results into group emotions by specific rules. However, such affective region selection mechanisms are heuristic and susceptible to imperfect faces and objects from the pre-trained detectors. Moreover, faces and objects on group-level images are often contextually relevant. There is still an open question about how important faces and objects can be interacted with. In this work, we incorporate the psychological concept called Most Important Person (MIP). It represents the most noteworthy face in the crowd and has an affective semantic meaning. We propose the Dual-branch Cross-Patch Attention Transformer (DCAT) which uses global image and MIP together as inputs. Specifically, we first learn the informative facial regions produced by the MIP and the global context separately. Then, the Cross-Patch Attention module is proposed to fuse the features of MIP and global context together to complement each other. With parameters less than 10x, the proposed DCAT outperforms state-of-the-art methods on two datasets of group valence prediction, GAF 3.0 and GroupEmoW datasets. Moreover, our proposed model can be transferred to another group affect task, group cohesion, and shows comparable results.
translated by 谷歌翻译
Facial Expression Recognition (FER) in the wild is an extremely challenging task. Recently, some Vision Transformers (ViT) have been explored for FER, but most of them perform inferiorly compared to Convolutional Neural Networks (CNN). This is mainly because the new proposed modules are difficult to converge well from scratch due to lacking inductive bias and easy to focus on the occlusion and noisy areas. TransFER, a representative transformer-based method for FER, alleviates this with multi-branch attention dropping but brings excessive computations. On the contrary, we present two attentive pooling (AP) modules to pool noisy features directly. The AP modules include Attentive Patch Pooling (APP) and Attentive Token Pooling (ATP). They aim to guide the model to emphasize the most discriminative features while reducing the impacts of less relevant features. The proposed APP is employed to select the most informative patches on CNN features, and ATP discards unimportant tokens in ViT. Being simple to implement and without learnable parameters, the APP and ATP intuitively reduce the computational cost while boosting the performance by ONLY pursuing the most discriminative features. Qualitative results demonstrate the motivations and effectiveness of our attentive poolings. Besides, quantitative results on six in-the-wild datasets outperform other state-of-the-art methods.
translated by 谷歌翻译