深度学习方法已经在无监督域适应中显示出希望,其旨在利用标记的源域来学习具有不同分布的未标记目标域的分类器。但是,这种方法通常会学习一个域不变的表示空间来匹配源域和目标域的边缘分布,同时忽略它们的精细层次结构。在本文中,我们提出了与教师(CAT)的群集对齐,用于无监督的域适应,它可以有效地将两个域中的差异聚类结构合并到更好的适应中。技术上,CAT利用隐含的集合教师模型来可靠地发现类条件结构。未标记的目标域的特征空间。然后,CAT强制源和目标域的特征形成有区别的类条件集群,并跨域对齐相应的集群。实证结果表明,在几个无监督的领域适应情景中,CAT可以获得最先进的结果。
translated by 谷歌翻译
我们提出了批量虚拟对抗训练(BVAT),这是一种用于图卷积网络(GCN)的新型正则化方法。 BVAT解决了GCN的缺点,这些GCN不考虑模型输出分布的平滑性,而不考虑输入周围的局部扰动。我们提出了两种算法,基于样本的BVAT和基于优化的BVAT,它们适用于通过发现远离彼此的节点子集的虚拟对抗扰动或为所有节点生成虚拟对抗扰动来促进图形结构数据模型的平滑性。使用优化过程。对三个引文网络数据集Cora,Citeseer和Pubmed以及知识图数据集Nell的广泛实验验证了所提方法的有效性,该方法在半监督节点分类任务中建立了最先进的结果。
translated by 谷歌翻译
漫画是一种人物形象的艺术形式,其中某些特征被抽象或夸大以产生愚蠢或讽刺效果。对于众多漫画相关的应用,如属性识别和漫画编辑,面部解析是一个必不可少的预处理步骤,提供完整的面部结构理解。然而,当前最先进的面部解析方法需要在像素上的大量标记数据 - 漫画的水平和这样的过程是乏味和劳动密集型的。对于真实照片,有许多用于faceparsing的标记数据集。因此,我们将漫画人脸解析制定为领域适应问题,其中真实照片扮演源域的角色,适应目标漫画。具体来说,我们首先利用基于空间变换器的网络来实现形状域移位。然后利用前馈式传输网络来捕获纹理级域间隙。通过这两个步骤,从真实照片中合成面部漫画,因此我们可以使用原始照片的解析背景来学习解析模型。对合成和真实漫画的实验结果证明了所提出的域自适应算法的有效性。代码位于:https://github.com/ZJULearning/CariFaceParsing。
translated by 谷歌翻译
我们提出了一种新颖的实时,协作和交互式AI绘画系统,Mappa Mundi,用于艺术思维导图创作。该系统包括基于avoice的输入界面,自动主题扩展模块和图像投影模块。关键的创新是通过考虑语言的词汇和语音相似性,学习和继承艺术家的原始绘画风格,以及应用达达主义的原则和即兴的不可能性来注入人工想象力。 Oursystem表明AI和艺术家可以无缝协作创作具有想象力的艺术绘画,Mappa Mundi已应用于UCCA,北京的艺术展览
translated by 谷歌翻译
由于高存储和搜索效率,散列已经变得普遍用于大规模相似性搜索。特别是,深度哈希方法在监督场景下极大地提高了搜索性能。相比之下,由于缺乏可靠的监控相似性信号,无监督的深度哈希模型很难实现令人满意的性能。为了解决这个问题,我们提出了一种新的深度无监督散列模型,称为DistillHash,它可以学习由具有置信相似性信号的数据对组成的蒸馏数据集。具体地,我们研究了从局部结构学习的初始噪声相似性信号与由贝叶斯最优分类器分配的语义相似性标签之间的关系。我们表明,在一个温和的假设下,一些数据对,其中哪些标签与贝叶斯最优分类器指定的标签一致,可以被潜在地提炼出来。受此事实的启发,我们设计了一种简单的有效策略来自动提取数据对,并进一步采用贝叶斯学习框架从蒸馏数据集中学习哈希函数。三个广泛使用的基准数据集的广泛实验结果表明,提出的DistillHash始终如一地完成了最先进的搜索性能。
translated by 谷歌翻译
零拍摄基于草图的图像检索(ZS-SBIR)是一种特定的跨模式检索任务,用于在零镜头场景下用自由手绘制草图来检索自然图像。以前的工作主要集中在建模图像和草图之间的对应关系或使用草图特征合成图像特征。但是,它们都忽略了大量的类内方差,从而导致检索性能不令人满意。在本文中,我们为ZS-SBIR提出了一种新颖的端到端语义对抗方法。具体而言,我们设计了一个语义对抗模块,以最大化学习语义特征和类别级别单词向量之间的一致性。此外,为了保持合成的可辨性。在每个训练类别中的特征,生成模块使用三元组丢失。此外,所提出的模型在端到端策略中训练以开发适合于ZS-SBIR的更好的语义特征。在两个大型流行数据集上进行的大量实验表明,我们提出的方法在Sketchy数据集上的表现优于最先进的方法超过12%,在检索中对TU-Berlin数据集的表现优于3%。
translated by 谷歌翻译
尽管在不受控制的人脸检测方面取得了巨大进步,但在野外进行准确有效的人脸定位仍然是一个开放的挑战。本文提出了一种强大的单阶段人脸检测器,名为RetinaFace,可在不同尺度的人脸上进行像素方式的人脸定位。利用联合监督和自我监督的多任务学习的优势。具体来说,我们在以下五个方面做出了贡献:(1)我们在WIDER FACE数据集上手动注释五个面部标志,并在这个额外的监督信号的帮助下观察硬面检测的显着改进。 (2)我们进一步添加一个自监督网格解码器分支,用于预测与现有监督分支并行的像素三维形状面部信息。 (3)在WIDER FACE硬测试集上,RetinaFace的性能优于现有技术平均精度(AP)1.1美元\%$(达到AP等于{\ bf $ 91.4 \%$})。 (4)在IJB-C测试集上,RetinaFace使最先进的方法(ArcFace)能够在面部验证中改善其结果(TAR = $ 89.59 \%$,FAR = 1e-6)。 (5)通过采用轻量级骨干网络,RetinaFace可以在单个CPU核上实时运行VGA分辨率图像。将发布额外的注释和代码,以促进未来的研究。
translated by 谷歌翻译
聚类方法最近吸收了越来越多的关注学习和视觉。深度聚类结合嵌入和聚类以获得用于聚类的最佳嵌入子空间,与传统的聚类方法相比,这可以更有效。在本文中,我们提出了一个用于判别嵌入和光谱聚类的联合学习框架。我们首先设计了一个双自动编码器网络,它强制对潜在表示及其噪声转换进行构造约束,将输入嵌入潜在的空间进行聚类。因此,所获得的潜在表示对于噪声可以更加鲁棒。然后利用互信息估计从输入提供更多的判别信息。此外,应用深谱聚类方法将潜在表示嵌入到本征空间中,然后将其聚类,从而充分利用输入之间的关系,实现最优聚类结果。基准数据集的实验结果表明,我们的方法可以明显优于最先进的聚类方法。
translated by 谷歌翻译
从大规模协变量中进行亚组分析的预测生物标志物的鉴定引起了医学研究的基本关注。在本文中,我们提出了一种具有新的惩罚函数的广义惩罚回归方法,用于强制预测和预测效应之间的层次结构,非零预测效应必须导致其祖先预后效应在模型中非零。我们的方法能够通过为子组分析产生稀疏,可解释和可预测的模型来选择有用的预测生物标记,并且可以处理不同类型的响应变量,例如连续,分类和时间到事件数据。我们证明了我们的方法是渐近一致的低位正则化条件。为了最小化广义惩罚回归模型,我们提出了一种新的综合优化算法,它通过整合最小化和乘法器的交替方向方法,以\ texttt {smog}命名。丰富的模拟研究和实际案例研究表明,我们的方法非常有效,可用于发现真实的预测生物标志物和识别患者亚组。
translated by 谷歌翻译
数据集在面部表情识别算法的进展中发挥着重要作用,但它们可能遭受由不同文化和收集条件引起的明显偏差。为了深入研究这种偏差,我们首先对数据集识别和交叉数据集一般化任务进行了全面的实验,并首次探索了数据集差异的内在原因。结果定量验证了当前数据集具有较强的构建偏差,相应的分析表明源数据集与目标数据集之间的条件概率分布不同。然而,先前的研究主要基于具有有限辨别能力的浅特征,假设条件分布在域之间保持不变。为了解决这些问题,我们进一步提出了一种新的深度情感 - 条件适应网络(ECAN)来学习域不变和判别特征表示,它们可以同时匹配跨域的边际和条件分布。此外,很大程度上被忽略的表达类分布偏差也通过可学习的重新加权参数来解决,即训练和测试域可以共享相似的类分布。在实验室控制的数据集(CK +,JAFFE,MMI和两者)上进行广泛的跨数据库实验。 Oulu-CASIA)和现实世界数据库(AffectNet,FER2013,RAF-DB2.0和SFEW 2.0)证明我们的ECAN可以在各种面部表情转移任务中产生竞争性能,并且优于最先进的方法。
translated by 谷歌翻译