对话中的情感认可(ERC)旨在检测给定对话中每种话语的情感。新提出的ERC模型利用了预培训的语言模型(PLM),并具有预训练和微调的范式,以获得良好的性能。但是,这些模型很少利用PLM的优势,并且对于缺乏明确的情感表达的对话而表现不佳。为了充分利用与话语中情感表达相关的潜在知识,我们提出了一种新颖的ERC模型Cisper,并使用新的及时和语言模型(LM)调整范式提出。具体而言,Cisper配备了及时融合与对话者的话语相关的上下文信息和常识,以更有效地实现ERC。我们的广泛实验表明,Cisper在最新的ERC模型中的出色表现以及利用这两种重要及时及时提高信息的有效性。为了方便地重现我们的实验结果,Cisper的Sourcecode和数据集已在https://github.com/deqingyang/cisper上共享。
translated by 谷歌翻译
综合虚拟人类及其3D环境之间的自然相互作用对于众多应用程序(例如计算机游戏和AR/VR体验)至关重要。我们的目标是使人类与给定的3D场景进行互动,该场景由高级语义规格控制为动作类别和对象实例,例如“坐在椅子上”。将相互作用语义纳入生成框架中的主要挑战是学习一个共同表示,该表示有效地捕获了异质信息,包括人体的关节,3D对象几何以及相互作用的意图。为了应对这一挑战,我们设计了一种基于变压器的新型生成模型,其中铰接的3D人体表面点和3D对象共同编码在统一的潜在空间中,并且人与物体之间的相互作用语义是通过嵌入的。位置编码。此外,受到人类可以同时与多个对象相互作用的相互作用的组成性质的启发,我们将相互作用语义定义为不同原子动作对象对的组成。我们提出的生成模型自然可以结合不同数量的原子相互作用,从而无需复合相互作用数据即可合成组成的人类习惯相互作用。我们使用交互语义标签和场景实例分割扩展了Prox数据集,以评估我们的方法,并证明我们的方法可以通过语义控制生成现实的人类场景相互作用。我们的感知研究表明,我们合成的虚拟人类可以自然与3D场景相互作用,从而超过现有方法。我们将方法硬币命名,用于与语义控制的组成相互作用合成。代码和数据可在https://github.com/zkf1997/coins上获得。
translated by 谷歌翻译
在3D视觉中,视觉重新定位已被广泛讨论:鉴于预构建的3D视觉图,估计查询图像的6 DOF(自由度)姿势。大规模室内环境中的重新定位可实现有吸引力的应用程序,例如增强现实和机器人导航。但是,当相机移动时,在这种环境中,外观变化很快,这对于重新定位系统来说是具有挑战性的。为了解决这个问题,我们建议一种基于虚拟视图综合方法Rendernet,以丰富有关此特定情况的数据库和完善姿势。我们选择直接渲染虚拟观点的必要全局和本地特征,而不是渲染需要高质量3D模型的真实图像,并分别将它们应用于后续图像检索和功能匹配操作中。所提出的方法在很大程度上可以改善大规模室内环境中的性能,例如,在INLOC数据集中获得7.1 \%和12.2 \%的改善。
translated by 谷歌翻译
通过将熵编解码器应用于学习的数据分布,神经压缩机在压缩比方面显着优于传统编解码器。但是,神经网络的高推断潜伏期阻碍了实际应用中神经压缩机的部署。在这项工作中,我们提出了仅整数离散流(IODF),这是一种具有仅整数算术的有效神经压缩机。我们的工作建立在整数离散流的基础上,该流程包括离散随机变量之间的可逆转换。我们提出了基于8位量化的纯整数算术的有效可逆转换。我们的可逆转换配备了可学习的二进制门,以在推理过程中去除冗余过滤器。我们在GPU上使用Tensorrt部署IODF,与现有最快的神经压缩机相比,达到10倍推理的速度,同时保留了Imagenet32和Imagenet64上的高压缩率。
translated by 谷歌翻译
使用神经网络代表3D对象已变得流行。但是,许多以前的作品采用具有固定体系结构和大小的神经网络来表示不同的3D对象,这导致简单对象的网络参数过多,并且对复杂对象的重建精度有限。对于每个3D模型,希望拥有尽可能少的参数以实现高保真重建的端到端神经网络。在本文中,我们提出了一种利用神经体系结构搜索(NAS)和二进制分类的高效体素重建方法。以层数,每一层的节点数量以及每一层的激活函数为搜索空间,可以根据强化学习技术获得特定的网络体系结构。此外,为了摆脱网络推理后使用的传统表面重建算法(例如,行进立方体),我们通过对二进制体素进行分类来完成端到端网络。与其他签名的距离字段(SDF)预测或二进制分类网络相比,我们的方法使用更少的网络参数获得了更高的重建精度。
translated by 谷歌翻译
由于其捕获远程依赖性的能力,变压器在许多愿景任务中取得了成功。然而,它们的二次计算复杂性构成了将它们应用于需要密集预测的视觉任务的主要障碍,例如对象检测,特征匹配,立体声等。我们引入四叉树的关注,这降低了从二次到线性的计算复杂性。我们的Quadtree变压器构建令牌金字塔,并以粗糙的方式计算注意力。在每个级别,选择具有最高关注分数的顶部K补丁,使得在下一级别,仅关注对应于这些顶部K个补丁的相关区域内。我们表明Quadtree注意在各种视觉任务中实现了最先进的性能,例如,在SCANNET匹配上有4.0%的特征匹配,立体匹配的拖鞋约为50%,提高了Imagenet分类的14-1.5%,对Coco对象检测的提高1.2-1.8%,改进0.7-2.4%以前的最先进变换器的语义分割。该代码可在https://github.com/tangshitao/quadtreeeattention上获得}:htps://github.com/tangshitao/quadtreeattention。
translated by 谷歌翻译
近年来,神经网络授权的演员 - 评论家(AC)算法具有重大的经验成功。然而,AC算法的大多数现有的理论支持集中于线性函数近似或线性化神经网络的情况,其中特征表示在整个训练中都是固定的。这种限制未能捕获神经AC中的表示学习的关键方面,这在实际问题中是关键的。在这项工作中,我们采取了一种含义的基于特征神经交流的演变和融合的视角。具体而言,我们考虑一个AC的版本,其中Actor和批评者由过度分辨率的双层神经网络表示,并以两时间测定的学习速率更新。批评评论批评者通过时间差异(TD)学习使用较大的步骤,而演员通过近端策略优化(PPO)更新,具有较小的步骤。在连续时间和无限宽度限制性方案中,当时间尺度适当分开时,我们证明了神经通讯以Sublinear率找到全球最佳政策。此外,我们证明了批评网络引起的特征表示允许在初始概念的邻域内发展。
translated by 谷歌翻译
在这封信中,我们根据自回归模型探索了生成图像隐写术。我们提出了像素-Stega,它实现了与自回归模型和算术编码算法隐藏的像素级信息。首先,利用自回归模型PixelCNN ++之一来产生每个像素的显式条件概率分布。其次,通过基于算术编码来编码到通过定象采样(StegoSppling)的像素的选择。我们对灰度和彩色图像数据集进行了定性和定量评估。实验结果表明,Pixel-STEGA能够根据像素的熵自适应地嵌入秘密消息,以实现高嵌入容量(高达4.3bpp)和几乎完美的难以察觉(检测精度约为50%)。
translated by 谷歌翻译
人类抓握合成具有许多应用,包括AR / VR,视频游戏和机器人。虽然已经提出了一些方法来为对象抓握和操纵产生现实的手对象交互,但通常只考虑手动与对象交互。在这项工作中,我们的目标是综合全身掌握运动。鉴于3D对象,我们的目标是产生多样化和自然的全身人类动作,方法和掌握物体。这项任务是具有挑战性的,因为它需要建模全身动态和灵巧的手指运动。为此,我们提出了由两个关键部件组成的Saga(随机全身抓取):(a)静态全身抓取姿势。具体地,我们提出了一种多任务生成模型,共同学习静态全身抓姿和人对象触点。 (b)抓住运动infilling。鉴于初始姿势和产生的全身抓握姿势作为运动的起始和结束姿势,我们设计了一种新的联络感知生成运动infilling模块,以产生各种掌握的掌握运动。我们展示了我们方法是第一代生物和表达全身运动的第一代框架,该方法是随机放置并掌握未经看的对象的逼真和表达全身运动。代码和视频可用于:https://jiahaoplus.github.io/saga/saga.html。
translated by 谷歌翻译
我们的目标是填充数字环境,其中数字人类具有多样化的身体形状,永久地行动,并具有合理的身体场景接触。核心挑战是为多元化的3D体产生逼真,可控和无限长的动作。为此,我们通过体表标记提出生成的运动原语,缩短为伽马。在我们的解决方案中,我们将长期运动分解为运动原语的时间序列。我们利用身体表面标记和条件变化自动码器来模拟每个运动原语,并通过递归地实现生成模型来产生长期运动。为了控制达到目标的动作,我们应用一个策略网络来探索模型潜像,并使用基于树的搜索来保留测试期间的运动质量。实验表明,我们的方法可以产生比最先进的数据驱动方法产生更现实和可控的运动。利用常规路径发现算法,产生的人体可以在场景中长时间地实际地移动长距离。代码将用于研究目的:\ url {https://yz-cnsdqz.github.io/eigenmotion/gamma/}
translated by 谷歌翻译