人类通过不同的渠道表达感受或情绪。以语言为例,它在不同的视觉声学上下文下需要不同的情绪。为了精确了解人类意图,并减少歧义和讽刺引起的误解,我们应该考虑多式联路信号,包括文本,视觉和声学信号。至关重要的挑战是融合不同的特征模式以进行情绪分析。为了有效地融合不同的方式携带的信息,更好地预测情绪,我们设计了一种基于新的多主题的融合网络,这是由任何两个对方式之间的相互作用不同的观察来启发,它们是不同的,并且它们不同样有助于最终的情绪预测。通过分配具有合理关注和利用残余结构的声学 - 视觉,声学 - 文本和视觉文本特征,我们参加了重要的特征。我们对四个公共多模式数据集进行了广泛的实验,包括中文和三种英文中的一个。结果表明,我们的方法优于现有的方法,并可以解释双模相互作用在多种模式中的贡献。
translated by 谷歌翻译
我们开发了一个概率框架,用于分析基于模型的加强学习在整个概念环境中。然后,我们将其应用于使用线性动力学但未知的系数和凸起的有限时间地平线随机控制问题,但可能是不规则的,客观的函数。使用概率表示,我们研究相关成本函数的规律性,并建立精确估计,用于应用估计和真实模型参数的最佳反馈控制之间的性能差距。我们确定这种性能差距是二次,提高近期工作的线性性能差距的条件[X.郭,A. Hu和Y. Zhang,Arxiv预印,arxiv:2104.09311,(2021)],它与随机线性二次问题获得的结果相匹配。接下来,我们提出了一种基于阶段的学习算法,我们展示了如何优化探索剥削权衡,并在高概率和期望中实现索布林遗憾。当对二次性能间隙保持所需的假设时,该算法在一般情况下实现了订单$ \ mathcal {o}(\ sqrt {n \ ln n)$高概率后悔,以及订单$ \ mathcal {o} ((\ ln n)^ 2)$预期遗憾,在自我探索案例中,超过$ n $剧集,匹配文献中的最佳结果。分析需要新的浓度不等式,用于相关的连续时间观察,我们得出。
translated by 谷歌翻译
自我关注已成为最近网络架构的一个组成部分,例如,统治主要图像和视频基准的变压器。这是因为自我关注可以灵活地模拟远程信息。出于同样的原因,研究人员最近使尝试恢复多层Perceptron(MLP)并提出一些类似MLP的架构,显示出极大的潜力。然而,当前的MLP样架构不擅长捕获本地细节并缺乏对图像和/或视频中的核心细节的逐步了解。为了克服这个问题,我们提出了一种新颖的Morphmlp架构,该架构专注于在低级层处捕获本地细节,同时逐渐改变,以专注于高级层的长期建模。具体地,我们设计一个完全连接的层,称为Morphfc,两个可变过滤器,其沿着高度和宽度尺寸逐渐地发展其接收领域。更有趣的是,我们建议灵活地调整视频域中的Morphfc层。为了我们最好的知识,我们是第一个创建类似MLP骨干的用于学习视频表示的骨干。最后,我们对图像分类,语义分割和视频分类进行了广泛的实验。我们的Morphmlp,如此自我关注的自由骨干,可以与基于自我关注的型号一样强大。
translated by 谷歌翻译
轨迹预测是自动车辆(AVS)执行安全规划和导航的关键组件。然而,很少有研究分析了轨迹预测的对抗性稳健性,或者调查了最坏情况的预测是否仍然可以导致安全规划。为了弥合这种差距,我们通过提出普通车辆轨迹来最大化预测误差来研究轨迹预测模型的对抗鲁棒性。我们在三个模型和三个数据集上的实验表明,对手预测将预测误差增加超过150%。我们的案例研究表明,如果对手在对手轨迹之后驱动靠近目标AV的车辆,则AV可以进行不准确的预测,甚至不安全的驾驶决策。我们还通过数据增强和轨迹平滑探索可能的缓解技术。
translated by 谷歌翻译
强化学习和最近的深度增强学习是解决如Markov决策过程建模的顺序决策问题的流行方法。问题和选择算法和超参数的RL建模需要仔细考虑,因为不同的配置可能需要完全不同的性能。这些考虑因素主要是RL专家的任务;然而,RL在研究人员和系统设计师不是RL专家的其他领域中逐渐变得流行。此外,许多建模决策,例如定义状态和动作空间,批次的大小和批量更新的频率以及时间戳的数量通常是手动进行的。由于这些原因,RL框架的自动化不同组成部分具有重要意义,近年来它引起了很多关注。自动RL提供了一个框架,其中RL的不同组件包括MDP建模,算法选择和超参数优化是自动建模和定义的。在本文中,我们探讨了可以在自动化RL中使用的文献和目前的工作。此外,我们讨论了Autorl中的挑战,打开问题和研究方向。
translated by 谷歌翻译
我们提出Volux-GaN,一种生成框架,以合成3D感知面孔的令人信服的回忆。我们的主要贡献是一种体积的HDRI可发感方法,可以沿着每个3D光线沿着任何所需的HDR环境图累计累积Albedo,漫射和镜面照明贡献。此外,我们展示了使用多个鉴别器监督图像分解过程的重要性。特别是,我们提出了一种数据增强技术,其利用单个图像肖像结合的最近的进步来强制实施一致的几何形状,反照镜,漫射和镜面组分。与其他生成框架的多个实验和比较展示了我们的模型是如何向光电型可致力于的3D生成模型前进的一步。
translated by 谷歌翻译
跳舞视频retargeting旨在综合传输从源视频到目标人物的舞蹈移动的视频。以前的工作需要收集有几分钟的目标人物,以训练个性化模型的数千帧。但是,训练有素的模型只能生成同一个人的视频。为了解决限制,最近的工作解决了几次跳舞的视频retargeting,这将通过利用其中几帧来综合看不见的人的视频。在实践中,给出了一个人的几个框架,这些工作只是将它们视为一批没有时间相关性的单个图像,从而产生了低视觉质量的时间上不连贯的跳舞视频。在这项工作中,我们将一个人的一些框架模拟了一系列跳舞的移动,其中每个移动包含两个连续帧,以提取这个人的外观模式和时间动态。我们提出了通过跳舞移动的合成优化模型的初始化,从而利用时间感知的元学习,使得元训练模型可以朝着增强的视觉质量和加强不良人员的时间稳定性地调整。很少的框架。广泛的评估显示了我们的方法的大量优势。
translated by 谷歌翻译
手动注释复杂的场景点云数据集昂贵且容易出错。为了减少对标记数据的依赖性,提出了一种名为Snapshotnet的新模型作为自我监督的特征学习方法,它直接用于复杂3D场景的未标记点云数据。 Snapshotnet Pipleine包括三个阶段。在快照捕获阶段,从点云场景中采样被定义为本地点的快照。快照可以是直接从真实场景捕获的本地3D扫描的视图,或者从大3D 3D点云数据集中的虚拟视图。也可以在不同的采样率或视野(FOV)的不同采样率或视野(FOV)中进行对快照进行,从而从场景中捕获比例信息。在特征学习阶段,提出了一种名为Multi-FoV对比度的新的预文本任务,以识别两个快照是否来自同一对象,而不是在同一FOV中或跨不同的FOV中。快照通过两个自我监督的学习步骤:对比学习步骤与零件和比例对比度,然后是快照聚类步骤以提取更高的级别语义特征。然后,通过首先培训在学习特征上的标准SVM分类器的培训中实现了弱监督的分割阶段,其中包含少量标记的快照。训练的SVM用于预测输入快照的标签,并使用投票过程将预测标签转换为整个场景的语义分割的点明智标签分配。实验是在语义3D数据集上进行的,结果表明,该方法能够从无任何标签的复杂场景数据的快照学习有效特征。此外,当与弱监管点云语义分割的SOA方法相比,该方法已经显示了优势。
translated by 谷歌翻译
多变量时间序列(MTS)预测在智能应用的自动化和优化中起着重要作用。这是一个具有挑战性的任务,因为我们需要考虑复杂的变量依赖关系和可变间依赖关系。现有的作品仅在单个可变依赖项的帮助下学习时间模式。然而,许多真实世界MTS中有多种时间模式。单个可变间依赖项使模型更倾向于学习一种类型的突出和共享的时间模式。在本文中,我们提出了一个多尺度自适应图形神经网络(MOLDN)来解决上述问题。 MOLDN利用多尺度金字塔网络,以在不同的时间尺度上保留潜在的时间依赖关系。由于可变间依赖关系可以在不同的时间尺度下不同,所以自适应图学习模块被设计为在没有预先定义的前沿的情况下推断规模特定的可变依赖关系。鉴于多尺度特征表示和规模特定的可变间依赖关系,引入了一个多尺度的时间图神经网络,以共同模拟帧内依赖性和可变间依赖性。之后,我们开发一个尺度明智的融合模块,以在不同时间尺度上有效地促进协作,并自动捕获贡献的时间模式的重要性。四个真实数据集的实验表明,Magnn在各种设置上表明了最先进的方法。
translated by 谷歌翻译
$ k $ -means集群是各学科的基本问题。此问题是非核解,并且标准算法仅保证找到本地最佳算法。利用[1]的本地解决方案的结构,我们提出了一种用于逃离不良局部解决方案并恢复全球解决方案(或地面真理)的一般算法框架。该框架包括迭代:(i)在本地解决方案中检测MIS指定的群集,并通过非本地操作来改进当前本地解决方案。我们讨论这些步骤的实施,并阐明所提出的框架如何从几何视角统一文献中的k $ -means算法的变体。此外,我们介绍了所提出的框架的两个自然扩展,其中初始数量的群集被遗漏。我们为我们的方法提供了理论理的理由,这是通过广泛的实验证实的。
translated by 谷歌翻译