弱监督的语义细分(WSSS)旨在仅使用用于训练的图像级标签来产生像素类预测。为此,以前的方法采用了通用管道:它们从类激活图(CAM)生成伪口罩,并使用此类掩码来监督分割网络。但是,由于凸轮的局部属性,即它们倾向于仅专注于小的判别对象零件,因此涵盖涵盖整个物体的全部范围的全面伪面罩是一项挑战。在本文中,我们将CAM的局部性与卷积神经网络(CNNS)的质地偏见特性相关联。因此,我们建议利用形状信息来补充质地偏见的CNN特征,从而鼓励掩模预测不仅是全面的,而且还与物体边界相交。我们通过一种新颖的改进方法进一步完善了在线方式的预测,该方法同时考虑了类和颜色亲和力,以生成可靠的伪口罩以监督模型。重要的是,我们的模型是在单阶段框架内进行端到端训练的,因此在培训成本方面有效。通过对Pascal VOC 2012的广泛实验,我们验证了方法在产生精确和形状对准的分割结果方面的有效性。具体而言,我们的模型超过了现有的最新单阶段方法。此外,当在没有铃铛和哨声的简单两阶段管道中采用时,它还在多阶段方法上实现了新的最新性能。
translated by 谷歌翻译
对象检测的域适应性(DAOD)最近由于其检测目标对象而没有任何注释而引起了很多关注。为了解决该问题,以前的作品着重于通过对抗训练在两阶段检测器中从部分级别(例如图像级,实例级,RPN级)提取的对齐功能。但是,对象检测管道中的个体级别相互密切相关,并且尚未考虑此层次之间的关系。为此,我们为DAOD介绍了一个新的框架,该框架具有三个提出的组件:多尺度意识不确定性注意力(MUA),可转移的区域建议网络(TRPN)和动态实例采样(DIS)。使用这些模块,我们试图在训练过程中减少负转移效应,同时最大化可传递性以及两个领域的可区分性。最后,我们的框架隐含地学习了域不变区域,以通过利用可转移信息并通过协作利用其域信息来增强不同检测级别之间的互补性。通过消融研究和实验,我们表明所提出的模块以协同方式有助于性能提高,以证明我们方法的有效性。此外,我们的模型在各种基准测试方面达到了新的最新性能。
translated by 谷歌翻译
The standard empirical risk minimization (ERM) can underperform on certain minority groups (i.e., waterbirds in lands or landbirds in water) due to the spurious correlation between the input and its label. Several studies have improved the worst-group accuracy by focusing on the high-loss samples. The hypothesis behind this is that such high-loss samples are \textit{spurious-cue-free} (SCF) samples. However, these approaches can be problematic since the high-loss samples may also be samples with noisy labels in the real-world scenarios. To resolve this issue, we utilize the predictive uncertainty of a model to improve the worst-group accuracy under noisy labels. To motivate this, we theoretically show that the high-uncertainty samples are the SCF samples in the binary classification problem. This theoretical result implies that the predictive uncertainty is an adequate indicator to identify SCF samples in a noisy label setting. Motivated from this, we propose a novel ENtropy based Debiasing (END) framework that prevents models from learning the spurious cues while being robust to the noisy labels. In the END framework, we first train the \textit{identification model} to obtain the SCF samples from a training set using its predictive uncertainty. Then, another model is trained on the dataset augmented with an oversampled SCF set. The experimental results show that our END framework outperforms other strong baselines on several real-world benchmarks that consider both the noisy labels and the spurious-cues.
translated by 谷歌翻译
卷积神经网络(CNN)成为计算机视觉最受欢迎和最突出的深度学习体系结构之一,但其黑匣子功能隐藏了内部预测过程。因此,AI从业者阐明了可解释的AI,以提供模型行为的解释性。特别是,基于类的激活图(CAM)和基于GRAD-CAM的方法已显示出希望结果,但它们具有架构限制或梯度计算负担。为了解决这些问题,已建议将得分摄像机作为一种无梯度方法,但是,与基于CAM或GRAD-CAM的方法相比,它需要更多的执行时间。因此,我们通过空间掩盖提取的特征图来利用激活图和网络输出之间的相关性,提出了一个轻巧的体系结构和无梯度的互惠凸轮(配克CAM)。通过提出的方法,与平均跌落 - 相干 - 复杂性(ADCC)度量相比,Resnet家族中的1:78-3:72%的收益不包括VGG-16(1:39%)(1:39%) )。此外,配置摄像头表现出与Grad-CAM相似的显着性图生成速率,并且比Score-CAM快于148倍。
translated by 谷歌翻译
多模式的机器学习已被广​​泛研究以开发通用智能。最近,感知者和感知者IO出色的多模式算法对各种数据集域和任务显示了竞争结果。但是,最近的作品,感知者和感知者IO专注于异质模式,包括图像,文本和语音,并且对于图形结构化数据集的研究作品很少。图是最概括的数据集结构之一,我们可以代表其他数据集,包括图像,文本和语音作为图形结构化数据。图具有与其他数据集域(例如文本和图像)不同的邻接矩阵,并且处理拓扑信息,关系信息和规范的位置信息并不微不足道。在这项研究中,我们提供了图形感知器IO,即图形结构化数据集的感知器IO。我们将图形感知器IO的主要结构保留为感知器IO,因为除了图形结构化数据集外,感知器IO已经很好地处理了各种数据集。图形感知器IO是一种通用方法,它可以处理各种数据集,例如图形结构化数据以及文本和图像。比较图形神经网络,图感知器IO需要较低的复杂性,并且可以有效地合并局部和全局信息。我们表明,图形感知器IO显示了与图形相关任务的各种竞争结果,包括节点分类,图形分类和链接预测。
translated by 谷歌翻译
学习平均回报或价值功能的预测模型在许多强化学习算法中起着至关重要的作用。相反,分布强化学习(DRL)方法对价值分布进行了建模,该价值分布已被证明可以改善许多设置的性能。在本文中,我们使用Markov链中央限制定理将值分布建模为大约正常的。我们通过分析计算分位数,以提供一个新的DRL目标,该目标通过在情节过程中发生的标准偏差减少所告知。此外,我们还建议基于学习价值分布的近距离探索策略,类似于目标正态分布,以使价值更加准确以更好地改进策略。我们概述的方法与许多DRL结构兼容。我们使用近端政策优化作为测试台,并表明正常性引导的目标和勘探奖金都会改善绩效。我们演示了我们的方法在许多连续的控制任务上优于DRL基准。
translated by 谷歌翻译
当前现有的视觉和语言预训练(VLP)方法的大多数主要集中在如何提取和调整视觉和文本功能上。与主流VLP方法相反,我们强调指出,在训练预训练期间的两个常规应用步骤对预训练模型的性能至关重要:图像介绍(ITM)的内部硬性负面采样(ITM)并分配大型掩盖掩盖语言建模(MLM)的概率。在经验显示上述两个步骤的意外有效性之后,我们系统地设计了砂粒vlp,该砂粒可适应小型批次,以更有效地为ITM挖掘硬性阴性样品,同时维持预训练的计算成本。我们的方法由三个组成部分组成:1)分组的迷你批次采样(砂砾)策略,该策略在迷你批次中收集了类似的示例,2)ITC一致性损失以提高采矿能力,3)MLM的扩大掩蔽概率。因此,我们显示了我们的砂粒vlp在各种下游任务上实现了新的最新性能,计算成本要少得多。此外,我们证明了我们的模型基本上与以前的最先进的ALBEF相提并论,只有三分之一的训练时代在相同的培训数据上。代码可在https://github.com/jaeseokbyun/grit-vlp上找到。
translated by 谷歌翻译
A deep learning strategy is developed for fast and accurate gas property measurements using flame emission spectroscopy (FES). Particularly, the short-gated fast FES is essential to resolve fast-evolving combustion behaviors. However, as the exposure time for capturing the flame emission spectrum gets shorter, the signal-to-noise ratio (SNR) decreases, and characteristic spectral features indicating the gas properties become relatively weaker. Then, the property estimation based on the short-gated spectrum is difficult and inaccurate. Denoising convolutional neural networks (CNN) can enhance the SNR of the short-gated spectrum. A new CNN architecture including a reversible down- and up-sampling (DU) operator and a loss function based on proper orthogonal decomposition (POD) coefficients is proposed. For training and testing the CNN, flame chemiluminescence spectra were captured from a stable methane-air flat flame using a portable spectrometer (spectral range: 250 - 850 nm, resolution: 0.5 nm) with varied equivalence ratio (0.8 - 1.2), pressure (1 - 10 bar), and exposure time (0.05, 0.2, 0.4, and 2 s). The long exposure (2 s) spectra were used as the ground truth when training the denoising CNN. A kriging model with POD is trained by the long-gated spectra for calibration, and then the prediction of the gas properties taking the denoised short-gated spectrum as the input: The property prediction errors of pressure and equivalence ratio were remarkably lowered in spite of the low SNR attendant with reduced exposure.
translated by 谷歌翻译
随着需要大量数据和计算的大数据工作负载的日益增长的复杂性,数据中心每天都会消耗大量功率。为了最大程度地减少数据中心功耗,几项研究开发了功率模型,可用于调度工作,以减少主动服务器的数量或在其峰值能效点上跨服务器平衡工作负载。由于软件和硬件异质性的增加,我们观察到没有单个功率模型可适用于所有服务器条件。一些复杂的机器学习模型本身会产生性能和电源开销,因此不希望经常使用它们。没有电源模型考虑容器化工作负载执行。在本文中,我们提出了一个混合服务器电源模型Hydra,该模型考虑了预测准确性和性能开销。 Hydra动态选择给定服务器条件的最佳功率模型。与最先进的解决方案相比,Hydra在异质服务器上的所有计算强度级别上的表现都优于所有计算机。
translated by 谷歌翻译
随着培训深度学习模型的越来越大的负担,在许多新兴的深度学习算法中已广泛采用转移学习。诸如BERT之类的变压器模型是自然语言处理的主要参与者,并将转移学习用作事实上的标准培训方法。一些大数据公司发布了经过培训的预培训模型,这些模型已通过一些流行的数据集进行了培训,最终用户和研究人员使用自己的数据集对模型进行了微调。转移学习大大减少了培训模型的时间和精力。但是,这是以安全问题为代价的。在本文中,我们展示了一个新的观察结果,即预先训练的模型和微调模型在权重值上具有很高的相似性。另外,我们证明即使对于同一模型,也存在特定于供应商的计算模式。有了这些新发现,我们提出了一种新的模型提取攻击,该攻击揭示了模型架构和带有特定于供应商的计算模式的黑盒受害者模型使用的预培训模型,然后根据权重值相似性估算整个模型权重在微调模型和预训练模型之间。我们还表明,可以利用重量相似性来通过新颖的重量提取修剪来提高模型提取可行性。
translated by 谷歌翻译