In this paper, we study the problem of knowledge-intensive text-to-SQL, in which domain knowledge is necessary to parse expert questions into SQL queries over domain-specific tables. We formalize this scenario by building a new Chinese benchmark KnowSQL consisting of domain-specific questions covering various domains. We then address this problem by presenting formulaic knowledge, rather than by annotating additional data examples. More concretely, we construct a formulaic knowledge bank as a domain knowledge base and propose a framework (ReGrouP) to leverage this formulaic knowledge during parsing. Experiments using ReGrouP demonstrate a significant 28.2% improvement overall on KnowSQL.
translated by 谷歌翻译
Conditional variational models, using either continuous or discrete latent variables, are powerful for open-domain dialogue response generation. However, previous works show that continuous latent variables tend to reduce the coherence of generated responses. In this paper, we also found that discrete latent variables have difficulty capturing more diverse expressions. To tackle these problems, we combine the merits of both continuous and discrete latent variables and propose a Hybrid Latent Variable (HLV) method. Specifically, HLV constrains the global semantics of responses through discrete latent variables and enriches responses with continuous latent variables. Thus, we diversify the generated responses while maintaining relevance and coherence. In addition, we propose Conditional Hybrid Variational Transformer (CHVT) to construct and to utilize HLV with transformers for dialogue generation. Through fine-grained symbolic-level semantic information and additive Gaussian mixing, we construct the distribution of continuous variables, prompting the generation of diverse expressions. Meanwhile, to maintain the relevance and coherence, the discrete latent variable is optimized by self-separation training. Experimental results on two dialogue generation datasets (DailyDialog and Opensubtitles) show that CHVT is superior to traditional transformer-based variational mechanism w.r.t. diversity, relevance and coherence metrics. Moreover, we also demonstrate the benefit of applying HLV to fine-tuning two pre-trained dialogue models (PLATO and BART-base).
translated by 谷歌翻译
Complex dialogue mappings (CDM), including one-to-many and many-to-one mappings, tend to make dialogue models generate incoherent or dull responses, and modeling these mappings remains a huge challenge for neural dialogue systems. To alleviate these problems, methods like introducing external information, reconstructing the optimization function, and manipulating data samples are proposed, while they primarily focus on avoiding training with CDM, inevitably weakening the model's ability of understanding CDM in human conversations and limiting further improvements in model performance. This paper proposes a Sentence Semantic \textbf{Seg}mentation guided \textbf{C}onditional \textbf{V}ariational \textbf{A}uto-\textbf{E}ncoder (SegCVAE) method which can model and take advantages of the CDM data. Specifically, to tackle the incoherent problem caused by one-to-many, SegCVAE uses response-related prominent semantics to constrained the latent variable. To mitigate the non-diverse problem brought by many-to-one, SegCVAE segments multiple prominent semantics to enrich the latent variables. Three novel components, Internal Separation, External Guidance, and Semantic Norms, are proposed to achieve SegCVAE. On dialogue generation tasks, both the automatic and human evaluation results show that SegCVAE achieves new state-of-the-art performance.
translated by 谷歌翻译
基于自动机的方法使机器人能够执行各种复杂的任务。但是,大多数现有的基于自动机的算法都高度依赖于已考虑任务的状态的手动定制表示,从而限制了其在深度强化学习算法中的适用性。为了解决这个问题,通过将变压器纳入强化学习中,我们开发了一个双转化器引导的时间逻辑框架(T2TL),该逻辑框架(T2TL)两次利用变压器的结构特征,即首先通过变压器模块编码LTL指令,以有效地理解对有效的理解培训期间的任务说明,然后再次通过变压器编码上下文变量,以改善任务性能。特别是,LTL指令由Co-Safe LTL指定。作为具有语义的改写操作,LTL的进展被利用以将复杂的任务分解为可学习的子目标,这不仅将非马克维亚奖励决策转换为马尔可夫的奖励决策过程,而且通过同时学习多个子 - 学习效率,提高了采样效率。任务。进一步纳入了环境不足的LTL预训练方案,以促进变压器模块的学习,从而改善LTL的表示。模拟和实验结果证明了T2TL框架的有效性。
translated by 谷歌翻译
透明的物体广泛用于工业自动化和日常生活中。但是,强大的视觉识别和对透明物体的感知一直是一个主要挑战。目前,由于光的折射和反射,大多数商用级深度摄像机仍然不擅长感知透明物体的表面。在这项工作中,我们从单个RGB-D输入中提出了一种基于变压器的透明对象深度估计方法。我们观察到,变压器的全球特征使得更容易提取上下文信息以执行透明区域的深度估计。此外,为了更好地增强细粒度的特征,功能融合模块(FFM)旨在帮助连贯的预测。我们的经验证据表明,与以前的最新基于卷积的数据集相比,我们的模型在最近的流行数据集中有了重大改进,例如RMSE增长25%,RER增长21%。广泛的结果表明,我们的基于变压器的模型可以更好地汇总对象的RGB和不准确的深度信息,以获得更好的深度表示。我们的代码和预培训模型将在https://github.com/yuchendoudou/tode上找到。
translated by 谷歌翻译
高分辨率表示对于基于视觉的机器人抓问题很重要。现有作品通常通过子网络将输入图像编码为低分辨率表示形式,然后恢复高分辨率表示。这将丢失空间信息,当考虑多种类型的对象或远离摄像机时,解码器引入的错误将更加严重。为了解决这些问题,我们重新审视了CNN的设计范式,以实现机器人感知任务。我们证明,与串行堆叠的卷积层相反,使用平行分支将是机器人视觉抓握任务的更强大设计。特别是,为机器人感知任务(例如,高分辨率代表和轻量级设计)提供了神经网络设计的准则,这些指南应对不同操纵场景中的挑战做出回应。然后,我们开发了一种新颖的抓地视觉体系结构,称为HRG-NET,这是一种平行分支结构,始终保持高分辨率表示形式,并反复在分辨率上交换信息。广泛的实验验证了这两种设计可以有效地提高基于视觉的握把和加速网络训练的准确性。我们在YouTube上的真实物理环境中显示了一系列比较实验:https://youtu.be/jhlsp-xzhfy。
translated by 谷歌翻译
这项工作提出了下一代人类机器人界面,只能通过视觉来推断和实现用户的操纵意图。具体而言,我们开发了一个集成了近眼跟踪和机器人操作的系统,以实现用户指定的操作(例如,抓取,拾取和位置等),在其中将视觉信息与人类的注意合并在一起,以创建为所需的映射机器人动作。为了实现视力指导的操纵,开发了一个头部安装的近眼跟踪设备,以实时跟踪眼球运动,以便可以确定用户的视觉注意力。为了提高抓地力性能,然后开发出基于变压器的GRASP模型。堆叠的变压器块用于提取层次特征,其中在每个阶段扩展了通道的体积,同时挤压了特征地图的分辨率。实验验证表明,眼球跟踪系统产生低的凝视估计误差,抓地力系统在多个握把数据集上产生有希望的结果。这项工作是基于凝视互动的辅助机器人的概念证明,该机器人具有巨大的希望,可以帮助老年人或上肢残疾在日常生活中。可在\ url {https://www.youtube.com/watch?v=yuz1hukyurm}上获得演示视频。
translated by 谷歌翻译
培训和测试数据之间的分布变化通常会破坏深度学习模型的性能。近年来,许多工作都注意存在分布转移的领域泛化(DG),而目标数据看不见。尽管算法设计取得了进展,但长期以来一直忽略了两个基础因素:1)基于正则化的目标(例如,分布对齐)的优化和2)DG的模型选择,因为无法利用有关目标域的知识。在本文中,我们提出了用于域概括的优化和选择技术的混合。为了进行优化,我们利用改编的混音来生成一个分发数据集,该数据集可以指导首选项方向并通过帕累托优化进行优化。对于模型选择,我们生成一个验证数据集,距离目标分布距离更遥远,从而可以更好地表示目标数据。我们还提出了一些理论见解。对一个视觉分类基准和三个时间序列基准的全面实验表明,我们的模型优化和选择技术可以在很大程度上可以改善现有域概括算法的性能,甚至可以取得新的最先进的结果。
translated by 谷歌翻译
由于视频帧中存在各种干扰,因此基于视频的人重新识别(REID)具有挑战性。最近的方法使用时间聚合策略来解决此问题。在这项工作中,我们提出了一个新颖的环境感应注意网络(CSA-NET),该网络既改进框架特征提取和时间聚集步骤。首先,我们介绍了上下文传感渠道注意(CSCA)模块,该模块强调了每个帧信息渠道的响应。这些信息通道不仅可以参考每个单独的框架,还可以参考整个序列的内容。因此,CSCA探索了序列的每个帧的个性和全局上下文。其次,我们提出了对比特征聚合(CFA)模块,该模块预测了时间聚集的框架权重。在这里,每个帧的重量是以对比的方式确定的:即,不仅是由每个单独框架的质量,而且还取决于顺序中其他帧的平均质量。因此,它有效地促进了相对良好的框架的贡献。四个数据集的广泛实验结果表明,CSA-NET始终达到最新的性能。
translated by 谷歌翻译
离线增强学习(RL)旨在从先前收集的静态轨迹数据中学习政策,而无需与真实环境进行交互。最近的作品通过将离线RL视为一个通用序列生成问题,从而提供了一种新的视角,该序列模型(例如变压器体系结构)可以通过轨迹模型进行模型,并将光束搜索重新用于计划算法。但是,在一般离线RL任务中使用的培训数据集非常有限,并且通常遭受分配覆盖率不足,这可能对训练序列的生成模型有害,但在先前的工作中没有引起足够的关注。在本文中,我们提出了一种名为Boottrapped Transformer的新型算法,该算法结合了自举的想法,并利用了学习的模型以自我生成更多的离线数据,以进一步增强序列模型训练。我们对两个离线RL基准测试进行了广泛的实验,并证明我们的模型可以在很大程度上纠正现有的离线RL训练限制并击败其他强大的基线方法。我们还分析了生成的伪数据,显示的特征可能会揭示离线RL训练。这些代码可在https://seqml.github.io/bootorl上找到。
translated by 谷歌翻译