建立一个社会智能代理人涉及许多挑战,其中一个是教导代理人以人类的价值交谈。然而,在对话系统的区域中仍然可以解读价值驱动的聊天聊天。大多数现有数据集重点关注致命的推理或社会规范建模。在这项工作中,我们提出了一个名为ValueNet的新的大型人类价值数据集,其中包含21,374个文本情景的人为态度。数据集在十维中组织,符合跨文化研究中的基本人类价值理论。我们进一步开发了ValueNet的基于变换器的值回归模型,以学习公用事业分配。综合实证结果表明,学习的价值模型可以使广泛的对话任务受益。例如,通过教授具有钢筋学习的生成代理和价值模型的奖励,我们的方法在个性化对话生成数据集中获得最先进的性能:Persona-Chat。具有额外特征的价值,现有的情感识别模型使得能够在上下文中捕捉丰富的人类情绪,这进一步提高了IncatheticDialogues数据集中的致力学响应生成性能。据我们所知,Valuenet是人类价值建模的第一个大型文本数据集,我们是第一个尝试将价值模型结合到情感智能对话系统中的人。数据集可在https://liang-qiu.github.io/valuenet/上获得。
translated by 谷歌翻译
计算机视觉中的当前预训练方法专注于日常生活中的自然图像。但是,诸如图标和符号之类的抽象图在现实世界中是常见的,很重要。这项工作受到坦格图的启发,这是一种需要从七个解剖形状复制抽象模式的游戏。通过录制人类在解决坦文图谜题方面的体验,我们展示了Tangram DataSet,并显示Tangram上的预先训练的神经模型有助于解决一些基于低分辨率视觉的迷你视觉任务。广泛的实验表明,我们所提出的方法为折叠衣服和评估室布局等审美任务产生智能解决方案。预训练的特征提取器可以促进人类手写的几秒钟学习任务的收敛性,并提高轮廓识别图标的准确性。Tangram DataSet可在https://github.com/yizhouzhao/tangram上获得。
translated by 谷歌翻译
的状态的最先进的视频去模糊方法的成功主要源于潜伏视频恢复相邻帧之间的对准隐式或显式的估计。然而,由于模糊效果的影响,估计从所述模糊的相邻帧的对准信息是不是一个简单的任务。不准确的估计将干扰随后的帧的恢复。相反,估计比对信息,我们提出了一个简单而有效的深层递归神经网络与多尺度双向传播(RNN-MBP),有效传播和收集未对齐的相邻帧的信息,更好的视频去模糊。具体来说,我们建立与这可以通过在不同的尺度整合他们直接利用从非对齐相邻隐藏状态帧间信息的两个U形网RNN细胞多尺度双向传播〜(MBP)模块。此外,为了更好地评估算法和国家的最先进的存在于现实世界的模糊场景的方法,我们也通过一个精心设计的数字视频采集系统创建一个真实世界的模糊视频数据集(RBVD)(的DVA)并把它作为训练和评估数据集。大量的实验结果表明,该RBVD数据集有效地提高了对现实世界的模糊的视频现有算法的性能,并且算法进行从优对三个典型基准的国家的最先进的方法。该代码可在https://github.com/XJTU-CVLAB-LOWLEVEL/RNN-MBP。
translated by 谷歌翻译
虽然变形金机对视频识别任务的巨大潜力具有较强的捕获远程依赖性的强大能力,但它们经常遭受通过对视频中大量3D令牌的自我关注操作引起的高计算成本。在本文中,我们提出了一种新的变压器架构,称为双重格式,可以有效且有效地对视频识别进行时空关注。具体而言,我们的Dualformer将完全时空注意力分层到双级级联级别,即首先在附近的3D令牌之间学习细粒度的本地时空交互,然后捕获查询令牌之间的粗粒度全局依赖关系。粗粒度全球金字塔背景。不同于在本地窗口内应用时空分解或限制关注计算以提高效率的现有方法,我们本地 - 全球分层策略可以很好地捕获短期和远程时空依赖项,同时大大减少了钥匙和值的数量在注意计算提高效率。实验结果表明,对抗现有方法的五个视频基准的经济优势。特别是,Dualformer在动态-400/600上设置了新的最先进的82.9%/ 85.2%,大约1000g推理拖鞋,比具有相似性能的现有方法至少3.2倍。
translated by 谷歌翻译
学习重建3D服装对于在不同的姿势中穿着不同形状的3D人体来说是重要的。以前的作品通常依赖于2D图像作为输入,但是遭受尺度和构成歧义。为了规避由2D图像引起的问题,我们提出了一个原则的框架,服装4D,它使用穿着人的3D点云序列来服装重建。 Garment4D有三个专用步骤:顺序服装登记,典型服装估算和摆动衣服重建。主要挑战是两倍:1)有效的3D特征学习精细细节,2)捕获由服装和人体之间的相互作用引起的服装动力学,特别是对于像裙子这样的松散服装。为了解开这些问题,我们介绍了一种新的提议引导的分层特征网络和迭代图卷积网络,其集成了高级语义特征和低级几何特征,以进行精细细节重建。此外,我们提出了一种用于平滑服装运动的时间变压器。与非参数方法不同,我们的方法的重建服装网格可与人体分离,并且具有很强的解释性,这对于下游任务是期望的。作为本任务的第一次尝试,通过广泛的实验定性和定量地说明了高质量的重建结果。代码在https://github.com/hongfz16/garment4d提供。
translated by 谷歌翻译
3D点云是捕获真实世界3D对象的重要3D表示。但是,真正扫描的3D点云通常不完整,并且对于恢复下游应用程序的完整点云非常重要。大多数现有点云完成方法使用倒角距离(CD)训练丢失。通过搜索最近的邻居,CD损耗估计两个点云之间的对应关系,该邻居不会捕获所生成的形状上的总点密度分布,因此可能导致非均匀的点云生成。为了解决这个问题,我们提出了一个新的点扩散细化(PDR)范例,用于点云完成。 PDR包括条件生成网络(CGNET)和细化网络(RFNET)。 CGNET使用称为去噪扩散概率模型(DDPM)的条件生成模型,以在部分观察中产生粗略完成。 DDPM在生成的点云和统一的地面真理之间建立一对一的映射,然后优化平均平方误差损耗以实现均匀生成。 RFNET精制CGNet的粗输出,并进一步提高完成点云的质量。此外,我们开发了两个网络的新型双路架构。该体系结构可以(1)有效且有效地从部分观察到的点云提取多级特征以指导完成,并且(2)精确地操纵3D点的空间位置以获得平滑的表面和尖锐的细节。各种基准数据集上的广泛实验结果表明,我们的PDR范例优于以前的最先进的方法,用于点云完成。值得注意的是,在RFNET的帮助下,我们可以在没有太多的性能下降的情况下加速DDPM的迭代生成过程。
translated by 谷歌翻译
在点云序列中,3D对象跟踪目的是在给定模板点云的情况下预测当前搜索点云中的对象的位置和方向。通过变压器的成功,我们提出了点跟踪变压器(PTTR),其有效地在变压器操作的帮助下以粗良好的方式预测高质量的3D跟踪结果。 PTTR由三种新颖的设计组成。 1)除了随机抽样中,我们设计关系感知采样,以保护在子采样期间给定模板的相关点。 2)此外,我们提出了一种由自我关注和跨关注模块组成的点关系变压器(PRT)。全局自我关注操作捕获远程依赖性,以便分别增强搜索区域和模板的编码点特征。随后,我们通过横向关注匹配两组点特征来生成粗略跟踪结果。 3)基于粗略跟踪结果,我们采用了一种新颖的预测细化模块来获得最终精制预测。此外,我们根据Waymo Open DataSet创建一个大型点云单个对象跟踪基准。广泛的实验表明,PTTR以准确性和效率达到优越的点云跟踪。
translated by 谷歌翻译
由于稀疏和嘈杂的测量,不完整的观察和大转化,3D对象的点云注册是非常具有挑战性的。在这项工作中,我们提出了匹配共识网络(GMCNet)的图表匹配,该网络估计了ultrange 1偏向部分点云注册(PPR)的姿势不变的对应关系。为了编码强大的点描述符,1)我们首先全面调查各种几何特征的变换 - 鲁棒性和远征性。 2)然后,我们采用新颖的转换 - 强大的点变换器(TPT)模块,以自适应地聚合有关结构关系的本地特征,其利用手工旋转 - 不变($ RI $)功能和噪声弹性空间坐标。 3)基于分层图网络网络和图形建模的协同作用,我们提出了编码由I)从$ RI $特征中汲取的一项机会学习的强大描述符的分层图形建模(HGM)架构;并且ii)通过我们的TPT模块以不同尺度的相邻点关系编码的多个平滑术语。此外,我们用虚拟扫描构建一个具有挑战性的PPR数据集(MVP-RG)。广泛的实验表明,GMCNet优于PPR以前的最先进方法。值得注意的是,GMCNET编码每个点云的点描述符,而不使用CrossContexual信息,或接地真理对应进行培训。我们的代码和数据集将在https://github.com/paul007pl/gmcnet上获得。
translated by 谷歌翻译
倒角距离(CD)和地球移动器的距离(EMD)是两个广泛采用的度量标准,用于测量两点集之间的相似性。然而,CD通常对不匹配的局部密度不敏感,EMD通常由全球分配主导,而忽略了详细结构的保真度。此外,他们的无限值范围从异常值引起沉重的影响。这些缺陷可防止它们提供一致的评估。为了解决这些问题,我们提出了一个名为密度感知倒角距离(DCD)的新的相似度量。它来自CD的源自来自若干所需性质的效果:1)它可以检测密度分布的差异,因此与CD相比更加强烈的相似性。 2)更严格,具有详细的结构,比EMD明显更加计算; 3)界限值范围促进整个测试集更稳定和合理的评估。我们采用DCD来评估点云完成任务,实验结果表明,DCD关注整体结构和本地几何细节,即使CD和EMD相互矛盾,也能提供更可靠的评估。我们还可以使用DCD作为培训损失,这胜过与所有三个指标上的CD损失培训的相同模型。此外,我们提出了一种新的点鉴别器模块,其估计另一个引导的下采样步骤的优先级,并且它在DCD下实现了明显的改进以及CD和EMD的竞争结果。我们希望我们的工作可以为更全面而实用的点云相似性评估铺平道路。我们的代码将可用:https://github.com/wutong16/dentions_aware_Chamfer_distance。
translated by 谷歌翻译
以数据为中心的AI最近被证明更有效和高性能,而传统的以模式为中心的AI提供更少且更少的福利。它强调提高数据集的质量,以实现更好的模型性能。由于其巨大的实用性和越来越多,这一领域具有重要潜力。然而,我们在这一领域没有看到显着的研究进展,特别是在NLP中。我们提出DatacLue,它是第一个在NLP字段中应用的数据中心基准。我们还提供三个简单但有效的基线,以促进该领域的研究(改善宏F1高达5.7%的点)。此外,我们与人类注释者进行全面的实验,并显示了Dataclue的硬度。我们还尝试高级方法:忘记通知的引导标签校正方法。与Datacleue相关的所有资源,包括DataSet,Toolkit,排行榜和Baselines,可在Https://github.com/cluebenchmark/dataclue在线提供
translated by 谷歌翻译