Heterogeneous network embedding (HNE) is a challenging task due to the diverse node types and/or diverse relationships between nodes. Existing HNE methods are typically unsupervised. To maximize the profit of utilizing the rare and valuable supervised information in HNEs, we develop a novel Active Heterogeneous Network Embedding (Ac-tiveHNE) framework, which includes two components: Discriminative Heterogeneous Network Embedding (DHNE) and Active Query in Heterogeneous Networks (AQHN). In DHNE, we introduce a novel semi-supervised heterogeneous network embedding method based on graph convolutional neu-ral network. In AQHN, we first introduce three active selection strategies based on uncertainty and representativeness, and then derive a batch selection method that assembles these strategies using a multi-armed bandit mechanism. ActiveHNE aims at improving the performance of HNE by feeding the most valuable supervision obtained by AQHN into DHNE. Experiments on public datasets demonstrate the effectiveness of ActiveHNE and its advantage on reducing the query cost.
translated by 谷歌翻译
多聚类旨在探索替代聚类,从不同角度将数据组织成有意义的组。现有的多聚类算法是针对单视图数据而设计的。我们假设可以利用多视图数据的个性和通用性来生成高质量和多样化的聚类。为此,我们提出了一种新的多视图多聚类(MVMC)算法。 MVMC首先采用多视图自身表示学习来探索个性化编码矩阵和多视图数据的共享通用矩阵。它还使用希尔伯特 - 施密特独立准则(HSIC)减少了矩阵之间的冗余(即,增强个性),并通过强制共享矩阵在所有视图中平滑来收集共享信息。然后,它使用单个矩阵的矩阵因子以及共享矩阵,生成高质量的多样化聚类。我们进一步扩展了多视图数据的多聚类,并提出了一种称为多视图多聚共聚(MVMCC)的解决方案。我们的实证研究表明,MVMC(MVMCC)canexploit多视图数据可以生成多个高质量和多样化的聚类(共聚类),具有优于最先进方法的性能。
translated by 谷歌翻译
联合学习使用代理托管的本地数据执行分布式模型培训。它仅共享服务器上的iterativeaggregation的模型参数更新。虽然它是通过设计保护隐私,但联邦学习很容易受到当地代理人的噪音干扰,正如之前关于对抗性数据中毒威胁反对学习系统的研究所证明的那样。即使是单一的噪声破坏的代理人也可能会偏向训练。在我们的工作中,我们提出了一个协作和隐私保护机器教学范例与多个分布式教师,以改善联邦培训过程对局部数据损坏的可能性。我们假设每个本地代理(教师)都有资源来验证一小部分可信实例,这些实例本身可能不足以学习。在所提出的协作机器教学方法中,这些可信任实例指导分布式代理从他们自己托管的数据中共同选择紧凑的信息训练子集。同时,测试人员学会将有限大小的变化添加到所选择的数据库中,以便尽管训练数据损坏,但是为了提高联邦训练模型的测试性能。玩具和真实数据的实验表明,我们的方法可以有效识别训练集错误,并建议对标签进行适当的更改。我们的算法是可靠的机器学习。
translated by 谷歌翻译
本文对核心回归的变异进行了大尺度分析,我们将其称为\ emph {居中核岭回归}(CKRR),在文献中也称为带有偏移的核岭回归。这种修正技术是通过计算回归问题中的偏差来获得的,这种偏差导致旧的核岭回归,但具有\ emph {居中}核。该分析是在假设数据来自高斯分布并且严重依赖于随机矩阵理论(RMT)的工具的情况下进行的。在数据维度和训练规模以固定比率和控制数据统计的一些温和假设下无限大的情况下,我们表明预测风险的经验收敛于确定性量,以封闭形式描述CKRR的表现。数据统计和维度的术语。受此理论结果的启发,我们随后根据训练数据建立预测风险的一致性估计,以便优化调整设计参数。所提出的分析的一个关键见解是,渐近地,大类内核实现了相同的最小预测风险。这种见解通过合成和实际数据进行验证。
translated by 谷歌翻译
车辆重新识别是一个重要的问题,随着视频监控和智能传输应用的快速扩展而变得可取。通过回顾人类视觉的识别过程,我们发现当人类识别不同的车辆时存在本地的等级依赖性。具体地,人类总是首先确定一个车辆的粗粒度类别,即汽车模型/类型。然后,在预测的汽车模型/类型的分支下,他们将通过细微的视觉线索(例如,定制的绘画和挡风玻璃)在细粒度水平上识别特定的车辆。受粗到细分层过程的启发,我们提出了一种用于车辆重新识别的端到端基于RNN的分层注意(RNN-HA)分类模型。 RNN-HA由三个相互耦合的模块组成:第一个模块生成车辆图像的图像表示,第二个层次模块模拟上述层级依赖关系,最后一个注意模块侧重于捕获特定车辆彼此之间的细微视觉信息识别。通过对两个车辆重新识别基准数据集VeRi和VehicleID进行全面的实验,我们证明了所提出的模型实现了超越现有技术的卓越性能。
translated by 谷歌翻译
我们提出了MedSim,一种基于Publicwell建立的生物医学知识图(KGs)和大规模语料库的新型语义相似性方法,研究抗生素的治疗替代。除了KGs的层次结构和语料库外,MedSim还通过构建多维医学特定的特征向量来进一步解释医学特征。采用医生评分的528种抗生素对数据集进行评价,MedSim与其他语义相似性方法相比具有统计学上的显着改善。此外,还提出了MedSim在药物替代和药物滥用预防方面的一些有希望的应用。
translated by 谷歌翻译
近十年来,随着深度卷积神经网络(CNN)的发展,许多最先进的图像分类和音频分类算法取得了显着的成功。但是,大多数工作只利用单一类型的训练数据。在本文中,我们通过利用CNN对视觉(图像)和音频(声音)数据的组合来对鸟类进行分类的研究,该CNN已被稀疏地处理。具体而言,我们提出了基于CNN的融合策略(早期,中期,晚期)类型的多模态学习模型,以解决组合训练数据跨域的问题。我们提出的方法的优点在于我们可以利用CNN不仅从图像和音频数据(频谱图)中提取特征,而且还可以跨特征模式组合特征。在实验中,我们在综合CUB-200-2011标准数据集上训练和评估网络结构,结合我们最初收集的关于数据种类的音频数据集。我们观察到,利用两种数据的组合的模型优于仅用任何类型的数据训练的模型。我们还表明,转移学习可以显着提高分类性能。
translated by 谷歌翻译
MixUp是一种通过混合随机样本的数据增强方法,已经显示出能够显着提高当前深度神经网络技术的预测准确性。然而,MixUp的力量大多是凭经验建立的,其工作和有效性在任何深度都没有解释。在本文中,我们对MixUp进行了理论上的理解,将其作为流形外正则化的一种形式,它将输入空间上的模型限制在数据流形之外。这项分析研究还使我们能够识别由流形侵入引起的MixUp限制,合成样本与歧管的实际例子相撞。这种侵入行为导致过度正规化,从而不合适。为了解决这个问题,我们进一步提出了一种新颖的正则化器,其中混合策略从数据中自适应地学习,并且包含多种入侵损失以避免与数据流形的冲突。我们使用几个基准数据集凭经验证明了我们的正则化器在超深度分类模型和MixUp的过度避免和精度改进方面的有效性。
translated by 谷歌翻译
通过主动选择小批量,可以提高随机梯度下降(SGD)的收敛速度。我们探索了在同一小批量中不太可能选择类似数据点的抽样方案。特别是,我们证明这种排斥采样方案降低了梯度测量仪的方差。这概括了最近关于将小批量多样化(Zhang et al。,2017)的决定点过程(DPP)用于更广泛的排斥点过程的工作。我们首先表明,通过多样化抽样的方差减少现象特别推广到非平稳点过程。然后,我们表明其他点过程在计算上可能比DPP更有效。特别是,我们提出并研究了泊松盘采样---计算机图形社交中经常遇到的---用于此任务。我们凭经验证明,我们的方法在收敛速度和最终模型性能方面都提高了标准SGD。
translated by 谷歌翻译
自然语言生成(NLG)是面向任务的对话系统的重要组成部分。尽管近来NLG的神经方法取得了成功,但它们通常是针对具有丰富注释训练样本的特定域开发的。在本文中,我们在资源匮乏的环境中研究NLG,以便通过少量训练示例在新场景中生成句子。我们从元学习的角度阐述问题,并基于公认的模型不可知元学习(MAML)算法提出基于广义优化的方法(Meta-NLG)。 Meta-NLG定义了一组元代码,并直接将适应新的低资源NLG任务的目标纳入元学习优化过程。对具有多样性变化的大型多域数据集(MultiWoz)进行了广泛的实验。我们表明,Meta-NLG在各种低资源配置中明显优于其他方法。我们分析结果,并证明Meta-NLG适应极快和良好的资源情况。
translated by 谷歌翻译