While deep learning succeeds in a wide range of tasks, it highly depends on the massive collection of annotated data which is expensive and time-consuming. To lower the cost of data annotation, active learning has been proposed to interactively query an oracle to annotate a small proportion of informative samples in an unlabeled dataset. Inspired by the fact that the samples with higher loss are usually more informative to the model than the samples with lower loss, in this paper we present a novel deep active learning approach that queries the oracle for data annotation when the unlabeled sample is believed to incorporate high loss. The core of our approach is a measurement Temporal Output Discrepancy (TOD) that estimates the sample loss by evaluating the discrepancy of outputs given by models at different optimization steps. Our theoretical investigation shows that TOD lower-bounds the accumulated sample loss thus it can be used to select informative unlabeled samples. On basis of TOD, we further develop an effective unlabeled data sampling strategy as well as an unsupervised learning criterion for active learning. Due to the simplicity of TOD, our methods are efficient, flexible, and task-agnostic. Extensive experimental results demonstrate that our approach achieves superior performances than the state-of-the-art active learning methods on image classification and semantic segmentation tasks. In addition, we show that TOD can be utilized to select the best model of potentially the highest testing accuracy from a pool of candidate models.
translated by 谷歌翻译
The mechanism of existing style transfer algorithms is by minimizing a hybrid loss function to push the generated image toward high similarities in both content and style. However, this type of approach cannot guarantee visual fidelity, i.e., the generated artworks should be indistinguishable from real ones. In this paper, we devise a new style transfer framework called QuantArt for high visual-fidelity stylization. QuantArt pushes the latent representation of the generated artwork toward the centroids of the real artwork distribution with vector quantization. By fusing the quantized and continuous latent representations, QuantArt allows flexible control over the generated artworks in terms of content preservation, style similarity, and visual fidelity. Experiments on various style transfer settings show that our QuantArt framework achieves significantly higher visual fidelity compared with the existing style transfer methods.
translated by 谷歌翻译
Recent deep learning methods have achieved promising results in image shadow removal. However, their restored images still suffer from unsatisfactory boundary artifacts, due to the lack of degradation prior embedding and the deficiency in modeling capacity. Our work addresses these issues by proposing a unified diffusion framework that integrates both the image and degradation priors for highly effective shadow removal. In detail, we first propose a shadow degradation model, which inspires us to build a novel unrolling diffusion model, dubbed ShandowDiffusion. It remarkably improves the model's capacity in shadow removal via progressively refining the desired output with both degradation prior and diffusive generative prior, which by nature can serve as a new strong baseline for image restoration. Furthermore, ShadowDiffusion progressively refines the estimated shadow mask as an auxiliary task of the diffusion generator, which leads to more accurate and robust shadow-free image generation. We conduct extensive experiments on three popular public datasets, including ISTD, ISTD+, and SRD, to validate our method's effectiveness. Compared to the state-of-the-art methods, our model achieves a significant improvement in terms of PSNR, increasing from 31.69dB to 34.73dB over SRD dataset.
translated by 谷歌翻译
在3D视觉中,视觉重新定位已被广泛讨论:鉴于预构建的3D视觉图,估计查询图像的6 DOF(自由度)姿势。大规模室内环境中的重新定位可实现有吸引力的应用程序,例如增强现实和机器人导航。但是,当相机移动时,在这种环境中,外观变化很快,这对于重新定位系统来说是具有挑战性的。为了解决这个问题,我们建议一种基于虚拟视图综合方法Rendernet,以丰富有关此特定情况的数据库和完善姿势。我们选择直接渲染虚拟观点的必要全局和本地特征,而不是渲染需要高质量3D模型的真实图像,并分别将它们应用于后续图像检索和功能匹配操作中。所提出的方法在很大程度上可以改善大规模室内环境中的性能,例如,在INLOC数据集中获得7.1 \%和12.2 \%的改善。
translated by 谷歌翻译
虽然从图像中回归3D人类的方法迅速发展,但估计的身体形状通常不会捕获真正的人形状。这是有问题的,因为对于许多应用,准确的身体形状与姿势一样重要。身体形状准确性差姿势准确性的关键原因是缺乏数据。尽管人类可以标记2D关节,并且这些约束3D姿势,但“标记” 3D身体形状并不容易。由于配对的数据与图像和3D身体形状很少见,因此我们利用了两个信息来源:(1)我们收集了各种“时尚”模型的互联网图像,以及一系列的人体测量值; (2)我们为3D身体网眼和模型图像收集语言形状属性。综上所述,这些数据集提供了足够的约束来推断密集的3D形状。我们利用几种新型方法来利用人体测量和语言形状属性来训练称为Shapy的神经网络,从而从RGB图像中回归了3D人类的姿势和形状。我们在公共基准测试上评估shapy,但请注意,它们要么缺乏明显的身体形状变化,地面真实形状或衣服变化。因此,我们收集了一个新的数据集,用于评估3D人类形状估计,称为HBW,其中包含“野生人体”的照片,我们为其具有地面3D身体扫描。在这个新的基准测试中,Shapy在3D身体估计的任务上的最先进方法极大地胜过。这是第一次演示,即可以从易于观察的人体测量和语言形状属性中训练来自图像的3D体形回归。我们的模型和数据可在以下网址获得:shapy.is.tue.mpg.de
translated by 谷歌翻译
使用神经网络代表3D对象已变得流行。但是,许多以前的作品采用具有固定体系结构和大小的神经网络来表示不同的3D对象,这导致简单对象的网络参数过多,并且对复杂对象的重建精度有限。对于每个3D模型,希望拥有尽可能少的参数以实现高保真重建的端到端神经网络。在本文中,我们提出了一种利用神经体系结构搜索(NAS)和二进制分类的高效体素重建方法。以层数,每一层的节点数量以及每一层的激活函数为搜索空间,可以根据强化学习技术获得特定的网络体系结构。此外,为了摆脱网络推理后使用的传统表面重建算法(例如,行进立方体),我们通过对二进制体素进行分类来完成端到端网络。与其他签名的距离字段(SDF)预测或二进制分类网络相比,我们的方法使用更少的网络参数获得了更高的重建精度。
translated by 谷歌翻译
在这封信中,我们根据自回归模型探索了生成图像隐写术。我们提出了像素-Stega,它实现了与自回归模型和算术编码算法隐藏的像素级信息。首先,利用自回归模型PixelCNN ++之一来产生每个像素的显式条件概率分布。其次,通过基于算术编码来编码到通过定象采样(StegoSppling)的像素的选择。我们对灰度和彩色图像数据集进行了定性和定量评估。实验结果表明,Pixel-STEGA能够根据像素的熵自适应地嵌入秘密消息,以实现高嵌入容量(高达4.3bpp)和几乎完美的难以察觉(检测精度约为50%)。
translated by 谷歌翻译
主动学习(AL)是应选择的数据用于注释。现有的工作试图选择高度不确定或信息性的注释数据。尽管如此,它仍然不清楚所选择的数据如何影响AL中使用的任务模型的测试性能。在这项工作中,我们通过理论上证明,选择更高梯度规范的未标记数据导致测试损失的较低的上限,从而探讨了这种影响,从而产生更好的测试性能。但是,由于缺乏标签信息,直接计算未标记数据的梯度标准是不可行的。为了解决这一挑战,我们提出了两种计划,即预期的Gradnorm和熵 - Gradnorm。前者通过构建预期的经验损失来计算梯度规范,而后者用熵构造无监督的损失。此外,我们将这两个方案集成在通用AL框架中。我们在古典图像分类和语义分割任务中评估我们的方法。为了展示其域应用程序的能力及其对噪声的鲁棒性,我们还在蜂窝成像分析任务中验证了我们的方法,即Cryo-Collecton Subtom图分类。结果表明,我们的方法达到了最先进的卓越性能。我们的源代码可在https://github.com/xulabs/aitom提供
translated by 谷歌翻译
过去几年的技术创新的巨大浪潮,标志着AI技术的进展,是深刻的重塑行业和社会。然而,在路上,一个关键的挑战等待着我们,即我们满足快速增长的情景的能力的能力受到收购培训数据的成本的严重限制。由于主流学习范式的局限性,这一困难的局面是基于主流学习范式的局限性:我们需要根据大量注释的数据以及通常从头来训练每个新场景的新模型。在解决这一基本问题时,我们超越并开发一个名为实习生的新学习范式。通过在多个阶段的来自多个来源的监控信号学习,培训的模型将产生强大的相互性。我们在26个众所周知的数据集中评估我们的模型,该数据集涵盖计算机视觉中的四类任务。在大多数情况下,我们的模型仅适用于目标域中的培训数据的10%,始终以完整的数据培训的对应物,通常由显着的边距。这是一个重要前景的重要一步,其中具有一般视觉能力的这种模型可以大大降低对数据的依赖,从而加速通过AI技术的采用。此外,围绕我们的新范式旋转,我们还介绍了一个新的数据系统,新的架构和新的基准,以及一起形成一般愿景生态系统,以开放和包容性的方式支持其未来的发展。
translated by 谷歌翻译
英语研究文章(RAS)是学术界的重要类型,因此在过去的二十年中,雇用NLP的企图雇用NLP的发展得到了相当大的关注。然而,没有研究采用特征工程技术来研究不同学术影响的RA的语言特征(即,在高/中等冲击因子期刊上发表的高/中等引用时间的论文)。本研究试图利用特征工程方法提取高和中度冲击轴颈RA中的微观语言特征。我们通过特征选择方法从英语期刊文章中提取25个高度相关的功能。所有论文都与Covid-19医学实证研究协议。然后通过监督机器学习方法在一致性和准确性方面验证所选功能。结果表明,24个语言特征,如相邻句子之间的内容词重叠,使用第三人称代词,辅助动词,时态,情绪词汇提供了对具有不同学术影响的期刊文章的一致和准确的预测。最后,随机森林模型被证明是适合这24个特征与期刊文章之间的关系的最佳模型,以及具有高和中等的冲击。这些调查结果可用于通知学术写作课程,并为L2研究生开发自动评估系统的基础。
translated by 谷歌翻译