多模式情绪分析(MSA)是一种基本复杂的研究问题,因为不同方式与人类情绪表达的模糊性之间的异质性差距。虽然已经成功地建造了MSA的多模式表示,但仍有两个挑战需要解决:1)需要构建更强大的多模式表示来弥合异质性间隙并应对复杂的多模式相互作用和2)必须在整个信息流中有效地建模上下文动态。在这项工作中,我们提出了一种基于相互信息最大化和最小化和身份嵌入(MMMIE)的多模式表示模型。我们将模态对之间的相互信息最大化以及输入数据和相应功能之间的相互信息最小化,以挖掘模态不变和任务相关信息。此外,提出了身份嵌入,以提示下游网络来感知语境信息。两个公共数据集的实验结果证明了所提出的模型的有效性。
translated by 谷歌翻译
人类抓握合成具有许多应用,包括AR / VR,视频游戏和机器人。虽然已经提出了一些方法来为对象抓握和操纵产生现实的手对象交互,但通常只考虑手动与对象交互。在这项工作中,我们的目标是综合全身掌握运动。鉴于3D对象,我们的目标是产生多样化和自然的全身人类动作,方法和掌握物体。这项任务是具有挑战性的,因为它需要建模全身动态和灵巧的手指运动。为此,我们提出了由两个关键部件组成的Saga(随机全身抓取):(a)静态全身抓取姿势。具体地,我们提出了一种多任务生成模型,共同学习静态全身抓姿和人对象触点。 (b)抓住运动infilling。鉴于初始姿势和产生的全身抓握姿势作为运动的起始和结束姿势,我们设计了一种新的联络感知生成运动infilling模块,以产生各种掌握的掌握运动。我们展示了我们方法是第一代生物和表达全身运动的第一代框架,该方法是随机放置并掌握未经看的对象的逼真和表达全身运动。代码和视频可用于:https://jiahaoplus.github.io/saga/saga.html。
translated by 谷歌翻译
深度加强学习(DRL)在游戏和机器人控制等应用中彻底改变了学习和致动。数据收集的成本,即从代理环境互动产生转变,仍然是在复杂的现实问题中更广泛的DRL采用的重大挑战。在GPU云平台上培训DRL代理的云原生范例是一个有前途的解决方案。在本文中,我们为云天然深层加固学习提供了一种可扩展和弹性图书馆优雅的钢茶,其有效地支持数百万GPU核心,以便在多个层面进行大规模平行的训练。在一个高级别的优雅普罗拉科尔使用基于锦标赛的集合计划,以协调数百个甚至数千个GPU的培训过程,安排排行榜与培训池与数百个豆荚之间的相互作用。在低级,每个POD通过在单个GPU中充分利用近7,000个GPU CUDA核心,模拟了代理环境的交互。我们的优雅RL-Podracer Library通过遵循集装箱,微服务和MLOPS的开发原则,具有高可扩展性,弹性和可访问性。使用NVIDIA DGX SuperPod Cloud,我们对机器人和股票交易中的各种任务进行了广泛的实验,并表明Elegitrl-Podracer大大优于Rllib。我们的代码可在GitHub上获得。
translated by 谷歌翻译
多视图检测包含多个相机视图,以减轻拥挤的场景中的闭塞,最先进的方法采用单独的转换来将多视图功能投影到地面平面。然而,我们发现这些2D变换不考虑物体的高度,并且这种疏忽沿着相同对象的垂直方向的忽略特征可能不会投影到相同的接地平面上,导致不纯的接地平面特征。为了解决这个问题,我们提出了VFA,Voxized 3D特征聚合,用于多视图检测中的功能转换和聚合。具体而言,我们将3D空间体制出来,将体素投影到每个相机视图上,并将2D功能与这些投影的体素相关联。这允许我们沿相同的垂直线识别然后聚合2D特征,在很大程度上减轻投影失真。此外,由于不同种类的物体(人与牛)在地面上具有不同的形状,因此我们引入了定向的高斯编码以匹配这种形状,从而提高准确性和效率。我们对多视图2D检测和多视图3D检测问题进行实验。结果四个数据集(包括新引入的Multiviewc数据集)表明,与最先进的方法相比,我们的系统与最有竞争力。 %我们的代码和数据将是开放的.code和multiviewc在https://github.com/robert-mar/vfa发布。
translated by 谷歌翻译
学习模当融合的表示和处理未对准的多模式序列在多式联情绪识别中是有意义的,具有挑战性。现有方法使用定向成对注意力或消息中心到熔丝语言,视觉和音频模态。然而,这些方法在融合特征时介绍信息冗余,并且在不考虑方式的互补性的情况下效率低效。在本文中,我们提出了一种高效的神经网络,以学习与CB变压器(LMR-CBT)的模型融合表示,用于从未对准的多模式序列进行多峰情绪识别。具体地,我们首先为三种方式执行特征提取,以获得序列的局部结构。然后,我们设计具有跨模块块(CB变压器)的新型变压器,其能够实现不同模式的互补学习,主要分为局部时间学习,跨模型特征融合和全球自我关注表示。此外,我们将融合功能与原始特征拼接以对序列的情绪进行分类。最后,我们在三个具有挑战性的数据集,IEMocap,CMU-MOSI和CMU-MOSEI进行词语对齐和未对准的实验。实验结果表明我们在两个设置中提出的方法的优势和效率。与主流方法相比,我们的方法以最小数量的参数达到最先进的。
translated by 谷歌翻译
舞蹈挑战现在是Tiktok这样的视频社区中的病毒性。一旦挑战变得流行,就会在几天内上传成千上万的短型视频。因此,来自舞蹈挑战的病毒预测具有很大的商业价值,具有广泛的应用,例如智能推荐和普及促销。本文提出了一种集成骨骼,整体外观,面部和景区提示的新型多模态框架,以综合舞蹈病毒预测。为了模拟身体运动,我们提出了一种层次地改进了时空骨架图的金字塔骨架图卷积网络(PSGCN)。同时,我们介绍了一个关系时间卷积网络(RTCN),以利用非局部时间关系利用外观动态。最终提出了一种细心的融合方法,以自适应地从不同方式汇总预测。为了验证我们的方法,我们介绍了一个大规模的病毒舞蹈视频(VDV)数据集,其中包含超过4,000个病毒舞蹈挑战的舞蹈剪辑。 VDV数据集的广泛实验证明了我们模型的功效。对VDV数据集的广泛实验良好地证明了我们方法的有效性。此外,我们表明,可以从我们的模型中派生类似多维推荐和动作反馈等的短视频应用。
translated by 谷歌翻译
场景流程描绘了3D场景的动态,这对于传统上,从诸如自主驾驶,机器人导航,AR / VR等的各种应用来说至关重要。从密集/常规RGB视频帧估计场景流。随着深度感测技术的发展,通过点云可获得精确的3D测量,这在3D场景流中引发了新的研究。然而,由于典型点云采样模式中的稀缺性和不规则性,从点云中提取场景流量仍然具有挑战性。与不规则采样相关的一个主要问题被识别为点设置抽象/特征提取期间的随机性 - 许多流程估计场景中的基本进程。因此,提出了一种注意力(SA ^ 2)层的新型空间抽象,以减轻不稳定的抽象问题。此外,提出了一种注意力(TA ^ 2)层的时间抽象来纠正时间域中的注意力,导致运动中的运动缩放在更大范围内。广泛的分析和实验验证了我们方法的动机和显着性能收益,与空间 - 时间注意(Festa)称为流量估计,与场景流估计的几个最先进的基准相比。
translated by 谷歌翻译
我们介绍了CVSS,这是一种大规模的多语言对语音转换(S2ST)语料库,从21种语言覆盖了21种语言的句子级并行S2ST对。通过将Covost 2从Covost 2的翻译文本综合将翻译文本与最先进的TTS系统合成语音,源自公共语音语音语料库和COVOST 2语音到文本转换(ST)语料库。提供了两个版本的翻译演讲:1)CVSS-C:所有翻译演讲都是一种高质量的规范声音; 2)CVSS-T:翻译语音从相应的源语音传输。此外,CVSS提供标准化的翻译文本,它与翻译语音中的发音匹配。在每个版本的CVSS上,我们建立了基线多语言直接S2ST模型和Cascade S2ST模型,验证了语料库的有效性。为了构建强大的Cascade S2ST基准,我们在Covost 2上培训了St模型,这优于前一种最先进的培训,而无需额外的数据。尽管如此,直接S2ST模型的性能在从头开始训练时接近强级联基线,并且在匹配ST模型中初始化时,仅在ASR转换转换时的0.1或0.7bleu差异。
translated by 谷歌翻译
我们在本文中重新审视语义场景(SSC),是预测3D场景的语义和占用表示的有用任务。此任务的许多方法始终基于用于保存本地场景结构的体蛋白化场景表示。然而,由于存在可见空体素,当网络更深时,这些方法总是遭受重型计算冗余,从而限制完成质量。为了解决这种困境,我们提出了我们为此任务的新型点体素聚集网络。首先,我们通过去除这些可见的空体素来将Voxized场景传输到点云,并采用深点流,以有效地从场景中捕获语义信息。同时,仅包含两个3D卷积层的轻重体素流保留了体蛋白化场景的局部结构。此外,我们设计一个各向异性体素聚合运算符,将结构细节从体素流融合到点流中,并通过语义标签来增强点流中的上采样过程的语义感知传播模块。我们展示了我们的模型在两个基准上超越了最先进的余量,只有深度图像作为输入。
translated by 谷歌翻译
最优传输(OT)正式确定在给定成本矩阵的概率测量之间找到最佳耦合的问题。推断给出耦合的成本的逆问题是逆最佳传输(物联网)。IOT不太明朗地理解OT。我们使用熵正规的OT研究的工具来正式化和系统地分析物联网的属性。理论贡献包括横向比等同成本的歧管的表征,模型前沿的含义,以及MCMC采样器的推导。经验贡献包括对基本实施例和仿真验证理论结果的基本实施例的串联等效效果的可视化。
translated by 谷歌翻译