基于文本的人检索的核心问题是如何弥合多模式数据之间的异质差距。以前的许多方法,用于学习以\ textbf {交叉模式分布共识预测(CDCP)}方式学习潜在的常见歧管映射范式。当将某个模态分布到公共歧管中的映射特征时,相反模态的特征分布是完全不可见的。也就是说,如何实现跨模式分布共识,以便将多模式特征嵌入和对齐构建的跨模式公共歧管中,这完全取决于模型本身的经验,而不是实际情况。通过这种方法,不可避免的是,多模式数据在共同的歧管中不能很好地对齐,这最终导致了次优的检索性能。为了克服此\ textbf {CDCP困境},我们提出了一种称为lbul的新颖算法,以学习基于文本的人检索的一致的跨模式公共歧管(C $^{3} $ M)。正如中文的谚语所说,我们方法的核心思想是``\ textit {san si er hou xing}',即\ textbf {thee thee thee thee thee you lap leak(lbul)}。 LBUL的常见歧管映射机制包含一个看起来的步骤和跳跃步骤。与基于CDCP的方法相比,LBUL考虑了视觉和文本方式的分布特征,然后将数据从某种模式嵌入到C $^{3} $ M中以获得更固体的交叉模式分布共识,从而获得了优质检索准确性。我们对两个基于文本的人检索数据集Cuhk-Pedes和RSTPREID评估了建议的方法。实验结果表明,所提出的LBUL胜过先前的方法,并实现了最新的性能。
translated by 谷歌翻译
给定自然语言描述,基于文本的人检索旨在从大规模人物图像数据库中识别目标人的图像。现有方法通常面对\ textbf {颜色过度盟军问题},这意味着在匹配跨模式数据时,模型在很大程度上依赖颜色信息。实际上,颜色信息是检索的重要决策,但是对颜色的过度依赖会分散模型从其他关键线索(例如纹理信息,结构信息等)中分散注意力,从而导致了次优的检索表现。为了解决这个问题,在本文中,我们建议\ textbf {c} apture \ textbf {a} ll-round \ textbf {i} nformation \ textbf {b} eyond \ textbf {c} olor(c} olor( )通过用于基于文本的人检索的共同优化的多分支体系结构。 CAIBC包含三个分支,包括RGB分支,灰度(GRS)分支和颜色(CLR)分支。此外,为了以平衡和有效的方式充分使用全方位信息,采用了相互学习机制来启用三个分支,这些分支可以参与信息的各个方面,以相互交流和学习。进行了广泛的实验分析,以评估我们在\ textbf {有监督}和\ textbf {弱监督}基于文本的人检索的\ textbf {pertexbf {pertegbf {pertegbf {cuhk-pedes和rstpreid数据集上的提议的CAIBC方法,这表明CAIBC显着超过现有的方法和现有方法。在这三个任务上实现最先进的性能。
translated by 谷歌翻译
为了在盲图超级分辨率(SR)上取得有希望的结果,一些尝试利用低分辨率(LR)图像来预测内核并改善SR性能。但是,由于不可用的现实世界模糊内核,这些监督的内核预测(SKP)方法是不切实际的。尽管提出了一些无监督的降解预测(UDP)方法来绕过此问题,但\ textIt {contercestency}之间的降解嵌入和SR功能之间仍然具有挑战性。通过探索降解嵌入与SR功能之间的相关性,我们观察到共同学习内容和降解感知功能是最佳的。基于此观察结果,提出了一个名为CDSR的内容和退化的SR网络。具体而言,CDSR包含三个新建立的模块:(1)将基于重量的编码器(LPE)应用于共同提取内容和降解功能; (2)采用基于域查询的基于注意力的模块(DQA)来适应不一致; (3)基于密码的空格压缩模块(CSC),可以抑制冗余信息。对几个基准测试的广泛实验表明,即使与最先进的SKP方法相比,提议的CDSR的表现都优于现有的UDP模型,并在PSNR和SSIM上实现竞争性能。
translated by 谷歌翻译
时间序列与许多其他机器学习领域一样,从统计学到深度学习进行了过渡。尽管随着模型在许多公开可用的数据集中的更新时,似乎精度一直在提高,但通常只会将比例尺增加几倍,以换取准确性的略有差异。通过该实验,我们指出了不同的思维方式,时间序列,尤其是长期预测,可能与其他领域有所不同。不必使用广泛而复杂的模型来掌握时间序列的所有方面,而是使用纯模型来掌握时间序列的核心规则。有了这个简单但有效的想法,我们创建了Purets,这是一个具有三个纯线性层的网络,在80%的长序列预测任务中实现了最新的,同时几乎是最轻的模型,并且运行速度最快。在此基础上,我们讨论了纯线性层在现象和本质中的潜力。理解核心法律的能力有助于长距离预测的高精度,并且合理的波动可以防止其扭曲多步预测中的曲线,例如主流深度学习模型,该模型总结为纯粹的线性神经网络,避免了范围 - 覆盖。最后,我们建议轻巧长时间时间序列任务的基本设计标准:输入和输出应尝试具有相同的维度,并且结构避免了碎片化和复杂的操作。
translated by 谷歌翻译
一组稀疏(例如六个)可穿戴的IMU提供的实时人类运动重建提供了一种非侵入性和经济的运动捕获方法。没有直接从IMU中获取位置信息的能力,最近的作品采用了数据驱动的方法,这些方法利用大型人类运动数据集解决了这一不确定的问题。尽管如此,挑战仍然存在,例如时间一致性,全球和关节动作的漂移以及各种地形上运动类型的各种覆盖范围。我们提出了一种同时估计全身运动的新方法,并实时从六个IMU传感器中产生合理的访问地形。我们的方法包含1.有条件的变压器解码器模型通过明确推理预测历史记录提供一致的预测,2。一个简单而通用的学习目标,称为“固定体点”(SBP),可以由变压器模型稳定地预测并通过分析例程使用要纠正关节和全球漂移,以及3.算法从嘈杂的SBP预测产生正则地形高度图,进而可以纠正嘈杂的全球运动估计。我们对合成和真实的IMU数据以及实时实时演示进行了广泛的评估框架,并显示出优于强基线方法的性能。
translated by 谷歌翻译
细粒度的视觉分类(FGVC)旨在识别子类别的对象。由于级细的级别差异,这是一个非常具有挑战性的任务。现有的研究将大型卷积神经网络或视觉变压器应用为特征提取器,这是极其计算昂贵的。实际上,实际的细粒度识别的场景通常需要更轻薄的移动网络可以离线使用。然而,基本移动网络特征提取能力比大规模模型弱。本文基于轻质MobileNetv2,我们提出了一种具有递归马赛克发生器(RMG-PMSI)的逐步多级交互训练方法。首先,我们提出了一种递归马赛克发生器(RMG),其产生不同阶段的不同粒度的图像。然后,不同阶段的特征通过多级相互作用(MSI)模块,其增强和补充不同阶段的相应特征。最后,使用渐进式训练(P),可以充分利用不同阶段中的模型提取的特征并彼此融合。三个着名的细粒度基准测试的实验表明,RMG-PMSI可以显着提高性能,具有良好的稳健性和可转移性。
translated by 谷歌翻译
深度加强学习(RL)算法是解决Visuomotor决策任务的强大工具。然而,训练有素的型号往往难以解释,因为它们被代表为端到端的深神经网络。在本文中,我们通过分析他们在任务执行期间参加的像素来阐明这种训练有素的模型的内部工作,并将它们与执行相同任务的人类参加的像素进行比较。为此,我们调查以下两个问题,以至于我们以前尚未研究过。 1)RL代理商和人类在执行相同的任务时如何相似是如何? 2)这些学习的陈述中的相似性和差异如何解释RL代理人对这些任务的表现?具体而言,我们在学习玩Atari Games时比较RL代理人的显着图,反对人类专家的视觉模型。此外,我们分析了深度RL算法的超参数如何影响培训代理的学习的表示和显着性图。所提供的见解有可能通知新的算法来关闭人类专家和RL代理商之间的性能差距。
translated by 谷歌翻译
准确地对现实世界进行建模接触行为,对于现有的刚体物理模拟器而言,近刚毛的材料仍然是一个巨大的挑战。本文介绍了一个数据增强的接触模型,该模型将分析解决方案与观察到的数据结合在一起,以预测3D接触脉冲,这可能会导致刚体在各个方向上弹跳,滑动或旋转。我们的方法通过从观察到的数据中学习接触行为来增强标准库仑接触模型的表现力,同时尽可能保留基本的接触约束。例如,对分类器进行了训练,以近似静态摩擦和动态摩擦之间的过渡,而在碰撞过程中的非渗透约束在分析中执行。我们的方法计算整个刚体的触点的汇总效果,而不是分别预测每个接触点的接触力,而保持相同的模拟速度,而与接触点的数量增加了详细的几何形状。补充视频:https://shorturl.at/eilwx关键字:物理模拟算法,动态学习,联系人学习
translated by 谷歌翻译
Different people speak with diverse personalized speaking styles. Although existing one-shot talking head methods have made significant progress in lip sync, natural facial expressions, and stable head motions, they still cannot generate diverse speaking styles in the final talking head videos. To tackle this problem, we propose a one-shot style-controllable talking face generation framework. In a nutshell, we aim to attain a speaking style from an arbitrary reference speaking video and then drive the one-shot portrait to speak with the reference speaking style and another piece of audio. Specifically, we first develop a style encoder to extract dynamic facial motion patterns of a style reference video and then encode them into a style code. Afterward, we introduce a style-controllable decoder to synthesize stylized facial animations from the speech content and style code. In order to integrate the reference speaking style into generated videos, we design a style-aware adaptive transformer, which enables the encoded style code to adjust the weights of the feed-forward layers accordingly. Thanks to the style-aware adaptation mechanism, the reference speaking style can be better embedded into synthesized videos during decoding. Extensive experiments demonstrate that our method is capable of generating talking head videos with diverse speaking styles from only one portrait image and an audio clip while achieving authentic visual effects. Project Page: https://github.com/FuxiVirtualHuman/styletalk.
translated by 谷歌翻译
Through a study of multi-gas mixture datasets, we show that in multi-component spectral analysis, the number of functional or non-functional principal components required to retain the essential information is the same as the number of independent constituents in the mixture set. Due to the mutual in-dependency among different gas molecules, near one-to-one projection from the principal component to the mixture constituent can be established, leading to a significant simplification of spectral quantification. Further, with the knowledge of the molar extinction coefficients of each constituent, a complete principal component set can be extracted from the coefficients directly, and few to none training samples are required for the learning model. Compared to other approaches, the proposed methods provide fast and accurate spectral quantification solutions with a small memory size needed.
translated by 谷歌翻译