有一个关键的需求,可以自动为开发人员提供小任务生成代码。 Sackoverflow等网站通过在小片段中提供解决方案提供了一种简单的方式,该解决方案提供了对开发人员想要代码的任何任务问题的完整答案。自然语言处理和特别质疑答案系统对解决这些任务非常有帮助。在本文中,我们开发了一个双倍的深度学习模型:SEQ2SEQ和一个二进制分类器,它采用意图(在自然语言中)和Python中的代码片段。我们培养了SEQ2Seq模型中的意图和代码话语,在那里我们决定将隐藏层嵌入来自编码器的隐藏层的效果来表示intent,而且类似地使用解码器的隐藏层嵌入式代码序列。然后我们组合这些嵌入物,然后培训一个简单的二进制神经网络分类器模型,以预测来自SEQ2Seq模型的预测代码序列正确回答了意图。我们发现隐藏的状态层的嵌入式略高于来自构造词汇的常规标准嵌入。除了由简单的任务代码片段基对的STAQC数据库之外,我们还在Conala DataSet上试验了我们的测试。我们经验证明,与使用SEQ2Seq模型的隐藏状态上下文向量相比,使用Python中的代码片段使用其他预先培训的嵌入式基于上下文。
translated by 谷歌翻译
Harnessing the benefits of drones for urban innovation at scale requires reliable aerial autonomy. One major barrier to advancing aerial autonomy has been collecting large-scale aerial datasets for training machine learning models. Due to costly and time-consuming real-world data collection through deploying drones, there has been an increasing shift towards using synthetic data for training models in drone applications. However, to increase generalizability of trained policies on synthetic data, incorporating domain randomization into the data generation workflow for addressing the sim-to-real problem becomes crucial. Current synthetic data generation tools either lack domain randomization or rely heavily on manual workload or real samples for configuring and generating diverse realistic simulation scenes. These dependencies limit scalability of the data generation workflow. Accordingly, there is a major challenge in balancing generalizability and scalability in synthetic data generation. To address these gaps, we introduce a modular scalable data generation workflow tailored to aerial autonomy applications. To generate realistic configurations of simulation scenes while increasing diversity, we present an adaptive layered domain randomization approach that creates a type-agnostic distribution space for assets over the base map of the environments before pose generation for drone trajectory. We leverage high-level scene structures to automatically place assets in valid configurations and then extend the diversity through obstacle generation and global parameter randomization. We demonstrate the effectiveness of our method in automatically generating diverse configurations and datasets and show its potential for downstream performance optimization. Our work contributes to generating enhanced benchmark datasets for training models that can generalize better to real-world situations.
translated by 谷歌翻译
社会对社交媒体的依赖不断增长,用户为新闻和信息产生的内容增强了不可靠的资源和虚假内容的影响,这使公众讨论并减少了对媒体的信任。验证此类信息的可信度是一项艰巨的任务,容易受到确认偏见的影响,从而开发了算法技术以区分假新闻和真实新闻。但是,大多数现有的方法都具有挑战性的解释,使得难以建立对预测的信任,并在许多现实世界中(例如,视听功能或出处的可用性)做出不现实的假设。在这项工作中,我们专注于使用可解释的功能和方法对文本内容的虚假新闻检测。特别是,我们开发了一个深层的概率模型,该模型使用各种自动编码器和双向长期记忆(LSTM)网络(LSTM)网络与语义主题相关的特征从贝叶斯混合模型推断出来。使用3个现实世界数据集的广泛的实验研究表明,我们的模型可与最先进的竞争模型达到可比的性能,同时促进从学习的主题中解释模型。最后,我们进行了模型消融研究,以证明整合神经嵌入和主题特征的有效性和准确性是通过在较低维嵌入中可分离性评估性能和定性性来定量的。
translated by 谷歌翻译
经过一段时间的减少,对单词一致性的兴趣再次增加,因为它们在类型学研究,跨语言注释投影和机器翻译等领域的有用性中再次增加。通常,对齐算法仅使用bitext,并且不利用许多平行语料库是多面关系的事实。在这里,我们通过考虑所有语言对,计算多种语言对之间的高质量单词对齐。首先,我们创建一个多平行单词对齐图,并将所有双语单词对齐对在一个图中。接下来,我们使用图形神经网络(GNN)来利用图形结构。我们的GNN方法(i)利用有关输入词的含义,位置和语言的信息,(ii)合并了来自多个并行句子的信息,(iii)添加并删除了初始对齐的边缘,并且(iv)产生了预测可以概括训练句子的模型。我们表明,社区检测为多平行单词对齐提供了有价值的信息。我们的方法在三个单词分配数据集和下游任务上的先前工作优于先前的工作。
translated by 谷歌翻译
本文介绍了我们提交给WMT21共享新闻翻译任务的受限轨道。我们专注于三个相对低的资源语言对孟加拉,从印地语,英语往返Hausa,以及来自Zulu的Xhosa。为了克服相对低行数据的限制,我们使用采用并行和单晶体数据的多任务目标训练多语言模型。此外,我们使用后退转换增强数据。我们还培养了一种双语模型,包括后退转换和知识蒸馏,然后使用序列到序列映射来组合两种模型。我们看到迄今为止英语和来自Hausa的Bleu Point的相对收益约为70%,以及与双语基线相比,孟加拉和从Zulu的孟加拉和从Zulu的相对改善约25%。
translated by 谷歌翻译
近来增加大型机器学习模型的趋势需要分发培训和推理任务。考虑到培训这些模型的巨大成本,必须在计算和沟通中解锁优化以获得最佳性能。然而,深入学习框架中的计算和通信内核之间的当前逻辑分离遍及此类障碍的优化机会。通过整体考虑破坏此抽象可以提供许多优化,以提供分布式工作负载中的性能改进。手动应用这些优化需要在每个场景中的底层计算和通信库中的修改,这是耗时和容易出错的。因此,我们呈现Coconet,用DSL表达具有计算和通信的程序。 Coconet包含几种机器学习感知转换,以优化程序和编译器以生成高性能内核。作为第一类构造的计算和通信允许用户在高级抽象上工作,并应用强大的优化,例如融合或传播和计算重叠。 Coconet使我们能够以几行代码在大型语言模型中优化数据,模型和管道平行工作负载。实验显示椰子显着优于最先进的分布式机器学习实现。
translated by 谷歌翻译