最初受生物神经网络(BNN)启发的人工神经网络(ANN)在许多任务(例如视觉表示学习)中取得了巨大的成功。但是,由于缺乏有效的工具来链接和互为两个不同的域,并且缺乏代表的一般有效的框架,ANN和BNN中的视觉表示之间是否存在语义相关性/连接仍然很大程度上尚未探索。 BNN中的视觉语义,例如人类功能性脑网络(FBN)。为了回答这个问题,我们提出了一个新颖的计算框架,即同步激活(同步性),以基于自然主义的功能磁共振成像(NFMRI)数据来对人脑中的ANN和BNN之间的视觉表示空间和语义进行。通过这种方法,我们能够在第一次以人类脑成像得出的生物学上有意义的描述中对神经元进行注释。我们在两个公开观看的NFMRI数据集上评估了同步操作框架。该实验证明了a)FBN中视觉表示与各种卷积神经网络(CNN)模型中的视觉表示之间的显着相关性和相似性; b)CNN的视觉表示与BNN的相似性与其在图像分类任务中的性能之间的紧密关系。总体而言,我们的研究介绍了一个一般有效的范式,以融入ANN和BNNS,并为未来的研究提供新的见解,例如脑启发的人工智能。
translated by 谷歌翻译
快捷方式学习对深度学习模型很常见,但导致了退化的特征表示形式,因此危害了该模型的可推广性和解释性。但是,在广泛使用的视觉变压器框架中的快捷方式学习在很大程度上是未知的。同时,引入特定领域的知识是纠正捷径的主要方法,捷径为背景相关因素。例如,在医学成像领域中,放射科医生的眼睛凝视数据是一种有效的人类视觉先验知识,具有指导深度学习模型的巨大潜力,可以专注于有意义的前景区域。但是,获得眼睛凝视数据是时必的,劳动密集型的,有时甚至是不切实际的。在这项工作中,我们提出了一种新颖而有效的显着性视觉变压器(SGT)模型,以在没有眼神数据的情况下在VIT中纠正快捷方式学习。具体而言,采用计算视觉显着性模型来预测输入图像样本的显着性图。然后,显着图用于散布最有用的图像贴片。在拟议的中士中,图像贴片之间的自我注意力仅集中于蒸馏的信息。考虑到这种蒸馏操作可能会导致全局信息丢失,我们在最后一个编码器层中进一步介绍了一个残留的连接,该连接捕获了所有图像贴片中的自我注意力。四个独立公共数据集的实验结果表明,我们的SGT框架可以有效地学习和利用人类的先验知识,而无需眼睛凝视数据,并且比基线更好。同时,它成功地纠正了有害的快捷方式学习并显着提高了VIT模型的解释性,证明了传递人类先验知识在纠正快捷方式学习方面传递人类先验知识的承诺
translated by 谷歌翻译
Large speech emotion recognition datasets are hard to obtain, and small datasets may contain biases. Deep-net-based classifiers, in turn, are prone to exploit those biases and find shortcuts such as speaker characteristics. These shortcuts usually harm a model's ability to generalize. To address this challenge, we propose a gradient-based adversary learning framework that learns a speech emotion recognition task while normalizing speaker characteristics from the feature representation. We demonstrate the efficacy of our method on both speaker-independent and speaker-dependent settings and obtain new state-of-the-art results on the challenging IEMOCAP dataset.
translated by 谷歌翻译
Non-IID data distribution across clients and poisoning attacks are two main challenges in real-world federated learning systems. While both of them have attracted great research interest with specific strategies developed, no known solution manages to address them in a unified framework. To jointly overcome both challenges, we propose SmartFL, a generic approach that optimizes the server-side aggregation process with a small clean server-collected proxy dataset (e.g., around one hundred samples, 0.2% of the dataset) via a subspace training technique. Specifically, the aggregation weight of each participating client at each round is optimized using the server-collected proxy data, which is essentially the optimization of the global model in the convex hull spanned by client models. Since at each round, the number of tunable parameters optimized on the server side equals the number of participating clients (thus independent of the model size), we are able to train a global model with massive parameters using only a small amount of proxy data. We provide theoretical analyses of the convergence and generalization capacity for SmartFL. Empirically, SmartFL achieves state-of-the-art performance on both federated learning with non-IID data distribution and federated learning with malicious clients. The source code will be released.
translated by 谷歌翻译
鉴于在现实世界应用中缺乏异常情况,大多数文献一直集中在建模正态上。学到的表示形式可以将异常检测作为正态性模型进行训练,以捕获正常情况下的某些密钥数据规律性。在实际环境中,尤其是工业时间序列异常检测中,我们经常遇到有大量正常操作数据以及随时间收集的少量异常事件的情况。这种实际情况要求方法学来利用这些少量的异常事件来创建更好的异常检测器。在本文中,我们介绍了两种方法来满足这种实际情况的需求,并将其与最近开发的最新技术进行了比较。我们提出的方法锚定在具有自回归(AR)模型的正常运行的代表性学习以及损失组件上,以鼓励表示正常与几个积极示例的表示形式。我们将提出的方法应用于两个工业异常检测数据集,并与文献相比表现出有效的性能。我们的研究还指出了在实际应用中采用此类方法的其他挑战。
translated by 谷歌翻译
FreeSpace检测是自动驾驶技术的重要组成部分,并且在轨迹计划中起着重要作用。在过去的十年中,已证明基于深度学习的自由空间检测方法可行。但是,这些努力集中在城市道路环境上,由于缺乏越野基准,很少有针对越野自由空间检测专门设计的深度学习方法。在本文中,我们介绍了ORFD数据集,据我们所知,该数据集是第一个越野自由空间检测数据集。数据集收集在不同的场景(林地,农田,草地和乡村),不同的天气条件(阳光,多雨,雾气和雪地)以及不同的光线条件(明亮的光线,日光,暮光,黑暗)中,完全包含12,198 LIDAR点云和RGB图像对与可穿越的区域,不可传输区域和无法达到的区域进行了详细注释。我们提出了一个名为Off-NET的新型网络,该网络将变压器体系结构统一以汇总本地和全球信息,以满足大型接收领域的自由空间检测任务的要求。我们还向动态融合激光雷达和RGB图像信息提出了交叉注意,以进行准确的越野自由空间检测。数据集和代码可公开可用athttps://github.com/chaytonmin/off-net。
translated by 谷歌翻译
稀疏条件随机场(CRF)是一种强大的计算机视觉和结构预测的自然语言处理技术。然而,在大规模应用中解决稀疏CRF仍然具有挑战性。在本文中,我们提出了一种新的安全动态筛选方法,该方法利用准确的双重最佳估计来识别和去除训练过程中的无关功能。因此,问题大小可以连续减小,从不牺牲最终学习模型的任何准确性,以计算成本很大地节省。据我们所知,这是第一种筛选方法,介绍了双重最佳估计技术 - 通过仔细探索和利用强大的凸起和双重问题的复杂结构 - 在静态筛选方法中动态筛选。通过这种方式,我们可以吸收静态和动态筛选方法的优点,避免其缺点。我们的估计比基于二元间隙开发的估计更准确,这有助于更强大的筛选规则。此外,我们的方法也是稀疏CRFS甚至结构预测模型中的第一筛选方法。合成和现实世界数据集的实验结果表明,我们的方法获得的加速是显着的。
translated by 谷歌翻译
稀疏培训是一种自然的想法,可以加速深度神经网络的训练速度,并节省内存使用,特别是因为大型现代神经网络被显着过度参数化。然而,大多数现有方法在实践中无法实现这一目标,因为先前方法采用的基于链规则的梯度(W.R.T.结构参数)估计。至少在向后传播步骤中至少需要密集的计算。本文通过提出具有完全稀疏的前后通行证的有效稀疏训练方法来解决这个问题。我们首先在全球稀疏限制下将培训过程制定为连续最小化问题。然后,我们将优化过程分为两个步骤,对应于权重更新和结构参数更新。对于前一步,我们使用传统的链规则,这可以通过利用稀疏结构来稀疏。对于后一步,而不是使用基于链规则的梯度估计器,如现有方法中,我们提出了一个方差减少的策略梯度估计器,这只需要两个向前通过而不向后传播,从而实现完全稀疏的训练。我们证明了我们渐变估计器的差异是界定的。对现实世界数据集的广泛实验结果表明,与以前的方法相比,我们的算法在加速训练过程中更有效,速度快到速度更快。
translated by 谷歌翻译
基于图像登记的增强现实技术越来越受欢迎,方便手术前准备和医学教育。本文侧重于前臂图像和数字解剖模型的注册。由于前臂多模态图像的纹理特征的差异,本文提出了一种基于用于前臂的结构兼容的多模态图像登记框架(FFRC)的前臂特征表示曲线(FFRC)。
translated by 谷歌翻译
Benefiting from the intrinsic supervision information exploitation capability, contrastive learning has achieved promising performance in the field of deep graph clustering recently. However, we observe that two drawbacks of the positive and negative sample construction mechanisms limit the performance of existing algorithms from further improvement. 1) The quality of positive samples heavily depends on the carefully designed data augmentations, while inappropriate data augmentations would easily lead to the semantic drift and indiscriminative positive samples. 2) The constructed negative samples are not reliable for ignoring important clustering information. To solve these problems, we propose a Cluster-guided Contrastive deep Graph Clustering network (CCGC) by mining the intrinsic supervision information in the high-confidence clustering results. Specifically, instead of conducting complex node or edge perturbation, we construct two views of the graph by designing special Siamese encoders whose weights are not shared between the sibling sub-networks. Then, guided by the high-confidence clustering information, we carefully select and construct the positive samples from the same high-confidence cluster in two views. Moreover, to construct semantic meaningful negative sample pairs, we regard the centers of different high-confidence clusters as negative samples, thus improving the discriminative capability and reliability of the constructed sample pairs. Lastly, we design an objective function to pull close the samples from the same cluster while pushing away those from other clusters by maximizing and minimizing the cross-view cosine similarity between positive and negative samples. Extensive experimental results on six datasets demonstrate the effectiveness of CCGC compared with the existing state-of-the-art algorithms.
translated by 谷歌翻译