基于信息瓶颈(IB)的多视图学习提供了一种信息理论原则,用于寻找异质数据描述中包含的共享信息。但是,它的巨大成功通常归因于估计网络变得复杂时棘手的多元互助信息。此外,表示折衷的表示,{\ it},预测压缩和足够的一致性权衡,使IB难以同时满足这两个要求。在本文中,我们设计了几种变分信息瓶颈,以利用两个关键特征({\ it,即},充分性和一致性)用于多视图表示学习。具体而言,我们提出了一种多视图变量蒸馏(MV $^2 $ d)策略,以通过给出观点的任意输入,但没有明确估算它,从而为拟合MI提供了可扩展,灵活和分析的解决方案。在严格的理论保证下,我们的方法使IB能够掌握观测和语义标签之间的内在相关性,从而自然产生预测性和紧凑的表示。同样,我们的信息理论约束可以通过消除任务 - 求核和特定信息的信息来有效地中和对异质数据的敏感性,从而阻止在多种视图情况下两种权衡。为了验证理论上的策略,我们将方法应用于三种不同应用下的各种基准。广泛的定量和定性实验证明了我们对最新方法的方法的有效性。
translated by 谷歌翻译
由于多源信息集成的能力,多视图聚类吸引了很多关注。尽管在过去几十年中已经提出了许多高级方法,但其中大多数通常忽略了弱监督信息的重要性,并且无法保留多种视图的特征属性,从而导致聚类性能不令人满意。为了解决这些问题,在本文中,我们提出了一种新颖的深度观看半监督聚类(DMSC)方法,该方法在网络填充过程中共同优化了三种损失,包括多视图集群损失,半监督的成对约束损失损失和多个自动编码器重建损失。具体而言,基于KL差异的多视图聚类损失被施加在多视图数据的共同表示上,以同时执行异质特征优化,多视图加权和聚类预测。然后,我们通过创新建议将成对约束集成到多视图聚类的过程中,通过执行所学到的必须链接样本的多视图表示(不能链接样本)是相似的(不同的),以便形成的聚类结构可以可以更可信。此外,与现有的竞争对手不同,该竞争对手仅保留网络填充期间每个异质分支的编码器,我们进一步建议调整完整的自动编码器框架,其中包含编码器和解码器。通过这种方式,可以缓解特定视图和视图共享特征空间的严重腐败问题,从而使整个培训程序更加稳定。通过在八个流行图像数据集上进行的全面实验,我们证明了我们提出的方法的性能要比最先进的多视图和单视竞争对手更好。
translated by 谷歌翻译
内核主成分分析(KPCA)是一种公认​​的非线性维度减少方法,已广泛用于非线性故障检测任务。作为基于内核的基于核心的方法,KPCA继承了两个主要问题。首先,通常盲目地选择内核函数的形式和参数,根据试验和误差来盲目地选择。因此,在不适当的选择情况下可能存在严重的性能下降。其次,在在线监测阶段,KPCA具有多大的计算负担和实时性能差,因为内核方法需要利用所有离线训练数据。在这项工作中,为了处理两个缺点,提出了一种可学习的传统KPCA的更快实现。核心思想是使用新颖的非线性DAE-FE(基于深度AutoEncoder的特征提取)框架来参数化所有可行的内核函数,并详细提出DAE-PCA(基于深度AutoEncoder的主成分分析)方法。证明所提出的DAE-PCA方法等同于KPCA,但在根据输入的自动搜索最合适的非线性高维空间方面具有更多优势。此外,与传统KPCA相比,在线计算效率提高了大约100次。与田纳西州伊斯特曼(TE)的过程基准,说明了所提出的方法的有效性和优越性。
translated by 谷歌翻译
视频时刻检索旨在搜索与给定语言查询最相关的那一刻。然而,该社区中的大多数现有方法通常需要季节边界注释,这昂贵且耗时地标记。因此,最近仅通过使用粗略视频级标签来提出弱监督的方法。尽管有效,但这些方法通常是独立处理候选人的候选人,同时忽略了不同时间尺度中候选者之间的自然时间依赖性的关键问题。要应对这个问题,我们提出了一种多尺度的2D表示学习方法,用于弱监督视频时刻检索。具体地,我们首先构造每个时间刻度的二维图以捕获候选者之间的时间依赖性。该地图中的两个维度表示这些候选人的开始和结束时间点。然后,我们使用学习卷积神经网络从每个刻度变化的地图中选择Top-K候选。通过新设计的时刻评估模块,我们获得所选候选人的对齐分数。最后,标题和语言查询之间的相似性被用作进一步培训候选者选择器的监督。两个基准数据集Charades-STA和ActivityNet标题的实验表明,我们的方法能够实现最先进的结果。
translated by 谷歌翻译
本文为表格马尔可夫决策过程(MDP)提供了第一种多项式时间算法,该算法享受了遗憾的界限\ emph {独立于计划范围}。具体来说,我们考虑具有$ S $州的表格MDP,$ A $ ACTICY,计划范围$ h $,总奖励为$ 1 $,代理商播放$ K $ evipodes。我们设计了一种实现$ o \ left(\ mathrm {poly}(s,a,a,\ log k)\ sqrt {k} \ right)$遗憾的算法(\ mathrm {poly}(s,a,a,\ log k)polylog}(h)$依赖项〜\ citep {zhang2020 reininforcement}或对$ s $〜\ citep {li2021settling}具有指数依赖关系。我们的结果依赖于一系列新的结构引理,从而建立了固定策略的近似能力,稳定性和浓度特性,这些策略可以在与马尔可夫链有关的其他问题中应用。
translated by 谷歌翻译
我们开发了一个概率框架,用于分析基于模型的加强学习在整个概念环境中。然后,我们将其应用于使用线性动力学但未知的系数和凸起的有限时间地平线随机控制问题,但可能是不规则的,客观的函数。使用概率表示,我们研究相关成本函数的规律性,并建立精确估计,用于应用估计和真实模型参数的最佳反馈控制之间的性能差距。我们确定这种性能差距是二次,提高近期工作的线性性能差距的条件[X.郭,A. Hu和Y. Zhang,Arxiv预印,arxiv:2104.09311,(2021)],它与随机线性二次问题获得的结果相匹配。接下来,我们提出了一种基于阶段的学习算法,我们展示了如何优化探索剥削权衡,并在高概率和期望中实现索布林遗憾。当对二次性能间隙保持所需的假设时,该算法在一般情况下实现了订单$ \ mathcal {o}(\ sqrt {n \ ln n)$高概率后悔,以及订单$ \ mathcal {o} ((\ ln n)^ 2)$预期遗憾,在自我探索案例中,超过$ n $剧集,匹配文献中的最佳结果。分析需要新的浓度不等式,用于相关的连续时间观察,我们得出。
translated by 谷歌翻译
自我关注已成为最近网络架构的一个组成部分,例如,统治主要图像和视频基准的变压器。这是因为自我关注可以灵活地模拟远程信息。出于同样的原因,研究人员最近使尝试恢复多层Perceptron(MLP)并提出一些类似MLP的架构,显示出极大的潜力。然而,当前的MLP样架构不擅长捕获本地细节并缺乏对图像和/或视频中的核心细节的逐步了解。为了克服这个问题,我们提出了一种新颖的Morphmlp架构,该架构专注于在低级层处捕获本地细节,同时逐渐改变,以专注于高级层的长期建模。具体地,我们设计一个完全连接的层,称为Morphfc,两个可变过滤器,其沿着高度和宽度尺寸逐渐地发展其接收领域。更有趣的是,我们建议灵活地调整视频域中的Morphfc层。为了我们最好的知识,我们是第一个创建类似MLP骨干的用于学习视频表示的骨干。最后,我们对图像分类,语义分割和视频分类进行了广泛的实验。我们的Morphmlp,如此自我关注的自由骨干,可以与基于自我关注的型号一样强大。
translated by 谷歌翻译
交通参与者的运动预测对于安全和强大的自动化驾驶系统至关重要,特别是在杂乱的城市环境中。然而,由于复杂的道路拓扑以及其他代理的不确定意图,这是强大的挑战。在本文中,我们介绍了一种基于图形的轨迹预测网络,其命名为双级预测器(DSP),其以分层方式编码静态和动态驾驶环境。与基于光栅状地图或稀疏车道图的方法不同,我们将驾驶环境视为具有两层的图形,专注于几何和拓扑功能。图形神经网络(GNNS)应用于提取具有不同粒度级别的特征,随后通过基于关注的层间网络聚合,实现更好的本地全局特征融合。在最近的目标驱动的轨迹预测管道之后,提取了目标代理的高可能性的目标候选者,并在这些目标上产生预测的轨迹。由于提出的双尺度上下文融合网络,我们的DSP能够产生准确和人类的多模态轨迹。我们评估了大规模协会运动预测基准测试的提出方法,实现了有希望的结果,优于最近的最先进的方法。
translated by 谷歌翻译
Terahertz频段(0.1---10 THZ)中的无线通信被视为未来第六代(6G)无线通信系统的关键促进技术之一,超出了大量多重输入多重输出(大量MIMO)技术。但是,THZ频率的非常高的传播衰减和分子吸收通常限制了信号传输距离和覆盖范围。从最近在可重构智能表面(RIS)上实现智能无线电传播环境的突破,我们为多跳RIS RIS辅助通信网络提供了一种新型的混合波束形成方案,以改善THZ波段频率的覆盖范围。特别是,部署了多个被动和可控的RIS,以协助基站(BS)和多个单人体用户之间的传输。我们通过利用最新的深钢筋学习(DRL)来应对传播损失的最新进展,研究了BS在BS和RISS上的模拟光束矩阵的联合设计。为了改善拟议的基于DRL的算法的收敛性,然后设计了两种算法,以初始化数字波束形成和使用交替优化技术的模拟波束形成矩阵。仿真结果表明,与基准相比,我们提出的方案能够改善50 \%的THZ通信范围。此外,还表明,我们提出的基于DRL的方法是解决NP-固定光束形成问题的最先进方法,尤其是当RIS辅助THZ通信网络的信号经历多个啤酒花时。
translated by 谷歌翻译
预审前的语言模型已被证明在许多与软件有关的一代任务中都是有效的。但是,它们不适合编辑任务,因为它们不是为了推理编辑的原因。为了解决这个问题,我们提出了一个新颖的预处理目标,该目标明确地对编辑进行了建模并使用它来构建Coditt5,这是一种用于软件相关编辑任务的大型语言模型,该任务是在大量源代码和自然语言评论中鉴定的。我们将其对各种下游编辑任务进行微调,包括评论更新,错误修复和自动代码审核。通过优于基于纯生成的模型,我们证明了方法的普遍性及其对编辑任务的适用性。我们还展示了纯生成模型和我们的基于编辑的模型如何通过简单的重读策略相互补充,我们可以通过该策略实现三个下游编辑任务的最新性能。
translated by 谷歌翻译