Heterogeneous network embedding (HNE) is a challenging task due to the diverse node types and/or diverse relationships between nodes. Existing HNE methods are typically unsupervised. To maximize the profit of utilizing the rare and valuable supervised information in HNEs, we develop a novel Active Heterogeneous Network Embedding (Ac-tiveHNE) framework, which includes two components: Discriminative Heterogeneous Network Embedding (DHNE) and Active Query in Heterogeneous Networks (AQHN). In DHNE, we introduce a novel semi-supervised heterogeneous network embedding method based on graph convolutional neu-ral network. In AQHN, we first introduce three active selection strategies based on uncertainty and representativeness, and then derive a batch selection method that assembles these strategies using a multi-armed bandit mechanism. ActiveHNE aims at improving the performance of HNE by feeding the most valuable supervision obtained by AQHN into DHNE. Experiments on public datasets demonstrate the effectiveness of ActiveHNE and its advantage on reducing the query cost.
translated by 谷歌翻译
Multi-view Multi-instance Multi-label Learning(M3L) deals with complex objects encompassing diverse instances, represented with different feature views, and annotated with multiple labels. Existing M3L solutions only partially explore the inter or intra relations between objects (or bags), instances, and labels, which can convey important contextual information for M3L. As such, they may have a compromised performance. In this paper, we propose a collaborative matrix factorization based solution called M3Lcmf. M3Lcmf first uses a heterogeneous network composed of nodes of bags, instances, and labels, to encode different types of relations via multiple rela-tional data matrices. To preserve the intrinsic structure of the data matrices, M3Lcmf collaboratively factorizes them into low-rank matrices, explores the latent relationships between bags, instances, and labels, and selectively merges the data matrices. An aggregation scheme is further introduced to aggregate the instance-level labels into bag-level and to guide the factorization. An empirical study on benchmark datasets show that M3Lcmf outperforms other related competitive solutions both in the instance-level and bag-level prediction.
translated by 谷歌翻译
多聚类旨在探索替代聚类,从不同角度将数据组织成有意义的组。现有的多聚类算法是针对单视图数据而设计的。我们假设可以利用多视图数据的个性和通用性来生成高质量和多样化的聚类。为此,我们提出了一种新的多视图多聚类(MVMC)算法。 MVMC首先采用多视图自身表示学习来探索个性化编码矩阵和多视图数据的共享通用矩阵。它还使用希尔伯特 - 施密特独立准则(HSIC)减少了矩阵之间的冗余(即,增强个性),并通过强制共享矩阵在所有视图中平滑来收集共享信息。然后,它使用单个矩阵的矩阵因子以及共享矩阵,生成高质量的多样化聚类。我们进一步扩展了多视图数据的多聚类,并提出了一种称为多视图多聚共聚(MVMCC)的解决方案。我们的实证研究表明,MVMC(MVMCC)canexploit多视图数据可以生成多个高质量和多样化的聚类(共聚类),具有优于最先进方法的性能。
translated by 谷歌翻译
一次性神经结构搜索(NAS)是一种很有前途的方法,可以在不进行任何单独培训的情况下显着缩短搜索时间。它可以作为来自过度参数化网络的体系结构参数的网络压缩问题。但是,大多数一次性NAS方法存在两个问题。首先,节点与其前身和后继者之间的依赖关系经常被忽视,这导致对零操作的不当处理。其次,基于他们的高度修剪架构参数是值得怀疑的。在本文中,我们采用经典的贝叶斯学习方法,通过使用分层自动相关性确定(HARD)先验建模体系结构参数来缓解这两个问题。与其他NAS方法不同,我们仅为一个训练过度参数化网络,然后更新体系结构。令人印象深刻的是,这使我们能够在使用单个GPU的0.2个GPUdays内在CIFAR-10上的代理和无代理任务中找到架构。作为副产品,我们的方法可以直接转移到压缩卷积神经网络,通过强制执行结构稀疏性,实现极其稀疏的网络而不会出现准确的恶化。
translated by 谷歌翻译
计算颜色恒定性是指场景照明的估计并且使得感知的颜色在变化照明下相对稳定。在过去几年中,深度卷积神经网络(CNN)在光源估计方面提供了卓越的性能。通过使用CNN学习图像块的局部外观,几种表示方法将其表示为多标签预测问题。然而,这些方法不可避免地对受其邻域背景影响的模糊斑块进行不正确的估计。当结合到全局预测中时,不准确的局部估计可能会导致性能下降。针对上述问题,我们提出了一种基于补丁的光源估计的上下文深度网络,该网络具有细化性。首先,具有中心环绕架构的上下文网络从图像补丁中提取局部上下文特征,并生成初始光源估计和相应的颜色校正补丁。基于观察到具有大的色差的像素良好地描述照明,对斑块进行采样。然后,细节网将输入的补丁与校正的补丁集成,并与中间特征的使用相结合,以提高性能。为了训练这样一个具有众多参数的网络,我们提出了一种阶段性的训练策略,其中特征和预测的光源是相当的。提供给下一个学习阶段的阶段,恢复更精细的评估。实验表明,我们的方法在两个光源估算基准上获得了竞争性能。
translated by 谷歌翻译
基于深度的人体活动分析研究取得了突出的成绩,并证明了3D表示在行动识别中的有效性。现有的基于深度和基于RGB + D的动作识别基准具有许多局限性,包括缺乏大规模训练样本,不同类别的实际数量,多样化的内部视图,不同的环境条件以及各种人类主体。在这项工作中,我们引入了一个用于RGB + D人类行为识别的大规模数据集,该数据集来自106个不同的主题,包含超过114,000个视频样本和800万帧。该数据集包含120种不同的动作类,包括日常,相互和健康相关的活动。我们评估了该数据集上一系列现有3D活动分析方法的性能,并展示了将deeplearning方法应用于基于3D的人类行为识别的优势。此外,我们在数据集上研究了一种新的一次性三维活动识别问题,并为此任务提出了一种简单而有效的动作部分语义相关性(APSR)框架,为新型动作类的识别提供了有希望的结果。我们相信,引入这个大规模数据集将使社区能够应用,调整和开发各种渴望数据的学习技术,以实现基于深度和基于RGB + D的人类活动理解。 [数据集可在以下网址获得:http://rose1.ntu.edu.sg/Datasets/actionRecognition.asp]
translated by 谷歌翻译
跨模式散列因其低模型数据检索的低存储成本和快速查询速度而受到越来越多的关注。然而,mostexisting散列方法是基于对象的手工制作或原始级别特征,这些特征可能与编码过程不是最佳兼容。此外,这些散列方法主要用于处理简单的双重相似性。与多个标签相关联的实例的复杂多级排序语义结构尚未得到很好的探索。在本文中,我们提出了一种基于排序的深度跨模态哈希方法(RDCMH)。 RDCM首先使用数据的特征和标签信息来导出asemi监督的语义排序列表。接下来,为了扩展手工制作特征的语义表示能力,RDCMH将语义分析信息集成到深度跨模态散列中,并联合优化深度特征表示和散列函数的兼容参数。实际多模态数据集的实验表明,RDCMH优于其他竞争对手基线并实现最先进的性能跨模式检索应用程序。
translated by 谷歌翻译
多集群旨在发现组织数据集群的各种方式。尽管取得了进展,但用户分析和理解每个输出聚类的独特结构仍然是一个挑战。在这个过程中,我们考虑嵌入在不同子空间中的不同聚类,并分析嵌入子空间以阐明每个聚类的结构。为此,我们提供了一个称为MISC(多个独立子空间聚类)的两阶段方法。在第一阶段,MISC使用独立子空间分析来寻找多个统计独立(即非冗余)子空间,并通过最小描述长度原理确定子空间的数量。在第二阶段,为了考虑嵌入在每个子空间中的样本的固有几何结构,MISC执行图正则化半非负矩阵分解以探索聚类。它还将内核技巧集成到矩阵分解中,以处理非线性可分离的集群。合成数据集的实验结果表明,MISC可以从独立的子空间中找到不同的有趣聚类,并且在实际数据集上也优于其他相关和竞争方法。
translated by 谷歌翻译
面部地标定位是众多面部相关应用中非常关键的一步,例如面部识别,面部姿势估计,面部图像合成等。然而,之前的面部地标定位竞赛(即300-W,300-VW和Menpo挑战)旨在预测68点地标,这些地标无法描述面部构件的结构。为了克服这个问题,我们构建了一个具有挑战性的数据集,名为J-landmark。每个图像都用106点地标手动注释。这个数据集涵盖了姿势和表情的大变化,这给预测准确的地标带来了很多困难。我们与IEEE国际多媒体和博览会(ICME)2019一起在该数据集上举办了一场106点的面部地标定位竞赛1。本次比赛的目的是发现有效而强大的面部地标定位方法。
translated by 谷歌翻译
连接主义时间分类(CTC)在序列分析任务(例如自动语音识别(ASR)和场景文本识别(STR))方面取得了巨大的成功。这些应用程序可以使用CTC目标函数来训练递归神经网络(RNN),并在推理期间解码RNN的输出。虽然已经研究了用于RNN的硬件架构,但是基于硬件的CTC解码器对于基于CTC的高速参考系统是期望的。本文首次提出了一种基于波束搜索解码构建CTC解码器的低复杂度和高效存储器方法。首先,我们改进了波束搜索解码算法以节省存储空间。其次,我们压缩一个字典(从26.02MB减少到112MB)并将其用作语言模型。同时搜索这本词典是微不足道的。最后,使用C ++语言实现了用于英语ASR的定点CTC解码器和使用所提出的方法的STRtask。结果表明,与其浮点对应物相比,所提方法的精度损失很小。我们的实验证明了所提出的光束搜索解码算法所需的存储压缩比为29.49(ASR)和17.95(STR)。
translated by 谷歌翻译