情绪转换(EVC)寻求转换话语的情绪状态,同时保留语言内容和扬声器身份。在EVC,情绪通常被视为离散类别,忽略了言论也传达了听众可以感知的各种强度水平的情绪。在本文中,我们的目标是明确地表征和控制情绪强度。我们建议解开语言内容的扬声器风格,并将扬声器风格编码成一个嵌入的嵌入空间,形成情绪嵌入的原型。我们进一步从情感标记的数据库中了解实际的情感编码器,并研究使用相对属性来表示细粒度的情绪强度。为确保情绪可理解性,我们将情感分类损失和情感嵌入了EVC网络培训中的相似性损失。根据需要,所提出的网络控制输出语音中的细粒度情绪强度。通过目标和主观评估,我们验证了建议网络的情感表达和情感强度控制的有效性。
translated by 谷歌翻译
会话推荐系统(CRS)旨在通过自然语言对话推荐给用户的合适项目。对于开发有效的CRSS,主​​要技术问题是如何准确地推断用户偏好从非常有限的对话环境。为了解决问题,有希望的解决方案是纳入外部数据以丰富上下文信息。然而,先前的研究主要集中在针对某些特定类型的外部数据量身定制的融合模型,这是不普遍的模型,并利用多型外部数据。为了有效利用多型外部数据,我们提出了一种新型粗对对比学习框架,以改善CRS的数据语义融合。在我们的方法中,我们首先从不同的数据信号中提取并代表多粒度语义单元,然后以粗略的方式对齐相关的多型语义单元。为了实现这一框架,我们设计了用于建模用户偏好的粗粒细粒和细粒度的程序,前者侧重于更通用,粗粒粗粒语义融合,后者侧重于更具体,细粒度的语义融合。可以扩展这样的方法以包含更多种类的外部数据。两个公共CRS数据集的大量实验已经证明了我们在两种建议和对话任务中的方法的有效性。
translated by 谷歌翻译
实现通用语言情报是自然语言处理的长期目标,标准评估基准发挥基本和指导作用。我们认为,对于通用语言智能评估,基准本身需要全面和系统。为此,我们提出了Cuge,一种中文语言理解和生成评估基准,具有以下特征:(1)分层基准框架,其中数据集主要选择和组织语言能力 - 任务数据集层次结构。 (2)多级评分策略,其中基于分层框架提供了不同级别的模型性能。为了促进CUGE,我们提供了一个公共排行榜,可以自定义,以支持灵活的模型判断标准。代表性预先训练的语言模型的评估结果表明了对通用语言智能的完善的充足空间。 Cuge在Cuge.baai.ac.cn上公开提供。
translated by 谷歌翻译
我们呈现DD-NERF,一种用于代表人体几何形状和从任意输入视图的外观的新型推广隐含区域。核心贡献是一种双重扩散机制,利用稀疏的卷积神经网络来构建代表不同水平的人体的两个体积:粗糙的体积利用不清的可变形网格来提供大规模的几何指导,以及详细信息卷从本地图像功能中了解复杂的几何图形。我们还使用变压器网络聚合跨视图的图像特征和原始像素,以计算最终的高保真辐射域。各种数据集的实验表明,所提出的方法优于几何重建和新颖观看综合质量的先前工作。
translated by 谷歌翻译
由于面向任务导向的对话系统在我们的生活中越来越受欢迎,提出并探索了更现实的任务。然而,出现了新的实际挑战。例如,由于在现有公共数据集中缺少这种情况,当前对话系统无法在查询数据库时有效处理多个搜索结果。在本文中,我们提出了数据库搜索结果(DSR)歧义,这是一个专注于消除数据库搜索结果的新任务,这通过允许它们从多个选项中选择了多个选项而不是只有一个来增强用户体验。为研究这项任务,我们增强了受到流行的面向任务的对话数据集(Multimoz和SGD),转弯,由(a)通过预定义的语法和(b)为子集收集人类释义的(b)来解析歧义。我们发现,我们的增强对话数据的培训提高了模型处理模糊方案的能力,而不会牺牲未修改的转弯。此外,即使在没有域名数据的情况下,也有助于我们的模型帮助我们的模型提高DSR消歧的性能,表明它可以被学习为普遍对话技能。我们的数据和代码将公开可用。
translated by 谷歌翻译
通常观察到的最先进的自然语言技术问题,例如亚马逊alexa和苹果公司,是他们的服务不会因语言障碍而扩展到大多数发展中国家的公民。这种种群因其语言缺乏可用资源来构建NLP产品。本文介绍了allwoz,一个多语言多域面向任务的客户服务对话框数据集覆盖八种语言:英语,普通话,韩语,越南语,印地语,法国,葡萄牙语和泰国。此外,我们通过使用mt5与元学习来创建多语言数据集的基准。
translated by 谷歌翻译
具有更多数据,计算和参数的缩放语言模型在自然语言处理方面取得了重大进展。例如,由于缩放,GPT-3能够在内心学习任务上实现强烈结果。但是,培训这些大密度模型需要大量的计算资源。在本文中,我们提出并开发了名为Glam(通用语言模型)的语言模型系列,它使用稀疏激活的专家架构来规模模型容量,同时与致密变体相比,也产生显着更少的训练成本。最大的Glam具有1.2万亿参数,比GPT-3大约为7倍。它仅消耗了用于训练GPT-3的1/3的能量,并且需要一半的计算拖鞋进行推理,同时仍然在29个NLP任务中实现更好的整体零射击和一次性性能。
translated by 谷歌翻译
远程时间对齐至关重要,但对视频恢复任务有挑战性。最近,一些作品试图将远程对齐分成几个子对齐并逐步处理它们。虽然该操作有助于建模遥控对应关系,但由于传播机制,误差累积是不可避免的。在这项工作中,我们提出了一种新颖的通用迭代对准模块,其采用逐渐改进方案进行子对准,产生更准确的运动补偿。为了进一步提高对准精度和时间一致性,我们开发了一种非参数重新加权方法,其中每个相邻帧的重要性以用于聚合的空间方式自适应地评估。凭借拟议的策略,我们的模型在一系列视频恢复任务中实现了多个基准测试的最先进的性能,包括视频超分辨率,去噪和去束性。我们的项目可用于\ url {https:/github.com/redrock303/revisiting-temporal-alignment-for-video-Restion.git}。
translated by 谷歌翻译
虽然来自X-ray Sinograms的计算机断层摄影(CT)重建是临床诊断所必需的,但成像过程中的碘辐射诱导不可逆损伤,从而驾驶研究人员研究稀疏视图CT重建,即恢复高质量CT图像一套稀疏的一组席克图。建议迭代模型缓解稀疏视图CT图像中出现的伪像,但计算成本太昂贵。然后,基于深度学习的方法由于性能优异和计算而获得了普遍存在。但是,这些方法忽略了CNN的\ TextBF {本地}特征提取功能和Sinogram的\ TextBF {Global}特征之间的不匹配。为了克服这个问题,我们提出\ textbf {du} al- \ textbf {do} main \ textbf {trans}以前(\ textbf {dudotrans}),通过变压器的远程依赖性建模能力同时恢复信息化的中文曲线图和重建CT图像与增强和未加工的叠层图。利用如此新颖的设计,NIH-AAPM数据集和Covid-19数据集上的重建性能实验证实了Dudotrans的有效性和概括性与较少涉及的参数。广泛的实验还展示了具有稀疏视图CT重建的不同噪声级方面的鲁棒性。代码和模型在https://github.com/dudotrans/code上公开使用
translated by 谷歌翻译
受益于深度神经网络的发展,多物体跟踪(MOT)取得了积极进展。目前,基于实时的联合检测跟踪(JDT)的MOT跟踪器增加了越来越多的关注并导出了许多优秀的型号。然而,JDT跟踪器的稳健性很少研究,因为它的成熟协会算法攻击MOT系统是挑战,因为其成熟的协会算法被设计为在跟踪期间对错误进行稳健。在这项工作中,我们分析了JDT跟踪器的弱点,并提出了一种新的逆势攻击方法,称为Tracklet-Switch(Trasw),反对MOT的完整跟踪管道。具体地,旨在为重新ID特征和对象检测而生成对抗性示例的推挽损失和中心跳跃优化。 Trasw可以通过攻击极少帧来欺骗跟踪器无法跟踪后续帧中的目标。我们使用MOT挑战数据集(即2DMOT15,MOT17和MOT20)评估我们在高级深度跟踪器(即FAIRMOT,JDE,BYTTRATTRATT)上的方法。实验表明,通过仅对单一目标攻击平均攻击五个帧,Trasw可以通过仅攻击五个帧来实现超过95%的高度成功率,并且对于多目标攻击的相当高的成功率超过80%。该代码可在https://github.com/derryhub/fairmot-attack获得。
translated by 谷歌翻译