Task-oriented dialogue (TOD) systems are mainly based on the slot-filling-based TOD (SF-TOD) framework, in which dialogues are broken down into smaller, controllable units (i.e., slots) to fulfill a specific task. A series of approaches based on this framework achieved remarkable success on various TOD benchmarks. However, we argue that the current TOD benchmarks are limited to surrogate real-world scenarios and that the current TOD models are still a long way from unraveling the scenarios. In this position paper, we first identify current status and limitations of SF-TOD systems. After that, we explore the WebTOD framework, the alternative direction for building a scalable TOD system when a web/mobile interface is available. In WebTOD, the dialogue system learns how to understand the web/mobile interface that the human agent interacts with, powered by a large-scale language model.
translated by 谷歌翻译
While transformers have greatly boosted performance in semantic segmentation, domain adaptive transformers are not yet well explored. We identify that the domain gap can cause discrepancies in self-attention. Due to this gap, the transformer attends to spurious regions or pixels, which deteriorates accuracy on the target domain. We propose to perform adaptation on attention maps with cross-domain attention layers that share features between the source and the target domains. Specifically, we impose consistency between predictions from cross-domain attention and self-attention modules to encourage similar distribution in the attention and output of the model across domains, i.e., attention-level and output-level alignment. We also enforce consistency in attention maps between different augmented views to further strengthen the attention-based alignment. Combining these two components, our method mitigates the discrepancy in attention maps across domains and further boosts the performance of the transformer under unsupervised domain adaptation settings. Our model outperforms the existing state-of-the-art baseline model on three widely used benchmarks, including GTAV-to-Cityscapes by 1.3 percent point (pp), Synthia-to-Cityscapes by 0.6 pp, and Cityscapes-to-ACDC by 1.1 pp, on average. Additionally, we verify the effectiveness and generalizability of our method through extensive experiments. Our code will be publicly available.
translated by 谷歌翻译
We present a dataset generator engine named Web-based Visual Corpus Builder (Webvicob). Webvicob can readily construct a large-scale visual corpus (i.e., images with text annotations) from a raw Wikipedia HTML dump. In this report, we validate that Webvicob-generated data can cover a wide range of context and knowledge and helps practitioners to build a powerful Visual Document Understanding (VDU) backbone. The proposed engine is publicly available at https://github.com/clovaai/webvicob.
translated by 谷歌翻译
使用深钢筋学习(DRL)开发了一种可以在一次尝试时生成最佳网格的网格生成方法。与传统方法不同,在该方法中,用户必须指定网格划分参数或从头开始对新给出的几何形状进行优化,开发的方法采用基于DRL的多条件(MC)优化来定义各种几何形状的网格划分参数。该方法涉及以下步骤:(1)开发用于结构化刀片段的基础算法;(2)制定MC优化问题,以优化开发基础算法时引入的网格划分参数;(3)通过使用DRL解决MC优化问题来开发基于DRL的网格生成算法。结果,开发的算法能够在各种叶片的单个试验中成功生成最佳网格。
translated by 谷歌翻译
虽然姿势估计是一项重要的计算机视觉任务,但它需要昂贵的注释,并且遭受了域转移的困扰。在本文中,我们调查了域自适应2D姿势估计的问题,这些估计会传输有关合成源域的知识,而无需监督。尽管最近已经提出了几个领域的自适应姿势估计模型,但它们不是通用的,而是专注于人姿势或动物姿势估计,因此它们的有效性在某种程度上限于特定情况。在这项工作中,我们提出了一个统一的框架,该框架可以很好地推广到各种领域自适应姿势估计问题上。我们建议使用输入级别和输出级线索(分别是像素和姿势标签)对齐表示,这有助于知识转移从源域到未标记的目标域。我们的实验表明,我们的方法在各个领域变化下实现了最先进的性能。我们的方法的表现优于现有的姿势估计基线,最高4.5%(PP),手部姿势估算高达7.4 pp,狗的动物姿势估计高达4.8 pp,而绵羊的姿势估计为3.3 pp。这些结果表明,我们的方法能够减轻各种任务甚至看不见的域和物体的转移(例如,在马匹上训练并在狗上进行了测试)。我们的代码将在以下网址公开可用:https://github.com/visionlearninggroup/uda_poseestimation。
translated by 谷歌翻译
深层模型必须学习强大而可转移的表示形式,以便在新领域上表现良好。尽管已经提出了域转移方法(例如,域的适应性,域的概括)来学习跨域的可转移表示,但通常将它们应用于在Imagenet上预先训练的重置骨架。因此,现有作品很少关注预训练对域转移任务的影响。在本文中,我们对领域适应和泛化的预训练进行了广泛的研究和深入分析,即:网络体系结构,大小,训练损失和数据集。我们观察到,仅使用最先进的主链优于现有的最先进的域适应基线,并将新的基本线设置为Office-Home和Domainnet在10.7 \%和5.5 \%上提高。我们希望这项工作可以为未来的领域转移研究提供更多见解。
translated by 谷歌翻译
当地客户的非IID数据集和异构环境被认为是联邦学习(FL)的一个主要问题,导致收敛性低迷而不会实现令人满意的性能。在本文中,我们提出了一种新颖的标签 - 方面聚类算法,可以通过选择与数据集接近的本地模型来保证地理位置分散的异构本地客户端之间的培训性能够近似于均匀分布式的类标签,这可能获得更快的最小化最小化损失并增加了流网络中的准确性。通过对建议的六种共同的非IID情景进行实验,经验证明,Vanilla FL聚合模型无法获得强大的收敛,产生偏置预先训练的本地模型,并漂移局部权重以误导最坏情况下的培训性。此外,我们在训练前定量估计本地模型的预期性能,它提供全球服务器,用于选择最佳客户,节省额外的计算成本。最终,为了在这种非IID情况下定位非收敛性,我们基于本地输入类标签设计集群算法,适应可能导致整体系统实现SWIFT融合作为全球培训的多样性和什锦客户继续。我们的论文显示,当本地训练数据集是非IID的非IID时,拟议的标签 - 明智的聚类与其他FL算法相比,与其他FL算法相比,表现出了提示和强大的融合。
translated by 谷歌翻译
开发了计算流体结构动力学(CFD-CSD)和深增强学习(深度RL)的综合框架,用于控制复杂流动的飞级柔性翼飞行器。复杂流动中传单的动态非常不稳定,非线性,这使得模型动态具有挑战性。因此,传统的控制方法,其中模型的动态,不足以调节这种复杂的动态。因此,在本研究中,提出了解决流体和结构的整个控制方程的集成框架,以产生传单的控制策略。为了成功学习控制策略,需要准确和充足的动态数据。然而,满足基于复杂动态的数据的质量和数量非常困难,因为一般来说,更准确的数据更昂贵。在本研究中,提出了两项​​策略来处理困境。为了获得准确的数据,采用CFD-CSD精确预测动态。为了获得充分的数据,设计了一种新的数据再现方法,其中在节省动态的同时在各种情况下复制所获得的数据。通过这些数据,该框架在各种流动条件下了解控制策略,并且显示在复杂流场中的传单中具有显着性能。
translated by 谷歌翻译
GPT-3显示了培训的大规模语言模型(LMS)的卓越情调学习能力,培训数十亿规模数据。在这里,我们解决了GPT-3纸张报告的一些剩余问题,例如非英语LM,不同大小模型的性能,以及最近引入的迅速优化对上下文学习的效果。为实现这一目标,我们介绍了HyperClova,一个韩国VPT-3的韩国变体训练在一个以韩国为中心的560b标准的令牌。通过我们的韩国特定标记化,HyperClova与我们的培训配置增强,显示了韩国各种下游任务的最先进的上下游零射击和几秒钟学习表演。此外,我们展示了基于及时的学习的性能优势,并演示如何集成到迅速的工程管道中。然后,我们讨论了通过引入Hyperclova Studio,互动提示工程界面向ML的非专家提供AI原型设计能力来实现No Code AI范例的可能性。最后,我们展示了我们具有三个成功的内部应用程序的方法的潜力。
translated by 谷歌翻译
社交媒体平台难以通过内容审核来保护用户免受有害内容的影响。这些平台最近利用机器学习模型来应对每天大量的用户生成内容。由于节制政策因国家和产品类型而异,因此每项政策训练和部署模型是很常见的。但是,这种方法效率很低,尤其是当策略发生变化时,需要在移动的数据分布上重新标记并重新训练数据集。为了减轻这种成本降低,社交媒体平台经常采用第三方内容审核服务,这些服务提供了多个子任务的预测分数,例如预测未成年人,粗鲁的手势或武器的存在,而不是直接提供最终的调节决策。但是,还没有广泛探索从多个子任务的预测分数中做出可靠的自动审核决策。在这项研究中,我们制定了内容节制的现实情况,并引入了一种简单而有效的阈值优化方法,该方法搜索了多个子任务的最佳阈值,以以具有成本效益的方式做出可靠的适度决策。广泛的实验表明,与现有的阈值优化方法和启发式方法相比,我们的方法在内容节制中表现出更好的性能。
translated by 谷歌翻译