我们介绍了BenchClamp,这是一种评估受约束语言模型解析的基准测试,该基准通过通过限制性解码的启动或微调语言模型来基于输入文本的分析来产生语义输出。目前,预审前语言模型的开发人员基于分类,跨度提取和自由文本生成任务。语言解析在语言模型评估中被忽略,因为处理特定于任务的体系结构和表示的复杂性。最近的工作表明,当输出被限制为有效的语义表示时,从提示或微调的语言模型中产生的发电能力可以很好地表现。台式设备包括无上下文的语法,适用于六个具有不同输出含义表示形式的语义解析数据集,以及一个受约束的解码接口,以生成这些语法覆盖的输出。我们为每个数据集提供低,中和高资源分割,从而可以在不同的数据制度下准确比较各种语言模型。我们的基准测试既支持基于及时的学习又支持微调,并为语言模型开发人员提供了易于使用的工具包,以评估语义解析。
translated by 谷歌翻译
深神经网络(DNN)是医疗应用中有前途的工具。但是,由于通信的能源成本很高,因此在电池供电设备上实施复杂的DNN是具有挑战性的。在这项工作中,开发了卷积神经网络模型,用于检测心电图(ECG)信号的房颤。该模型表明,尽管接受了有限的可变长度输入数据训练,但表现出了高性能。重量修剪和对数定量合并以引入稀疏性并降低模型大小,可以利用这些稀疏性,以减少数据移动和降低计算复杂性。最终模型达到了91.1%的模型压缩率,同时保持高模型精度为91.7%,损失小于1%。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
分子模拟的粗粒度(CG)通过将选定的原子分组为伪珠并大幅加速模拟来简化粒子的表示。但是,这种CG程序会导致信息损失,从而使准确的背景映射,即从CG坐标恢复细粒度(FG)坐标,这是一个长期存在的挑战。受生成模型和e象网络的最新进展的启发,我们提出了一个新型模型,该模型严格嵌入了背态转换的重要概率性质和几何一致性要求。我们的模型将FG的不确定性编码为不变的潜在空间,并通过Equivariant卷积将其解码为FG几何形状。为了标准化该领域的评估,我们根据分子动力学轨迹提供了三个综合基准。实验表明,我们的方法始终恢复更现实的结构,并以显着的边距胜过现有的数据驱动方法。
translated by 谷歌翻译
强大的深度学习技术的发展为社会和个人带来了一些负面影响。一个这样的问题是假媒体的出现。为了解决这个问题,我们组织了可信赖的媒体挑战(TMC)来探讨人工智能(AI)如何利用如何打击假媒体。我们与挑战一起发布了一个挑战数据集,由4,380张假和2,563个真实视频组成。所有这些视频都伴随着Audios,采用不同的视频和/或音频操作方法来生产不同类型的假媒体。数据集中的视频具有各种持续时间,背景,照明,最小分辨率为360p,并且可能包含模拟传输误差和不良压缩的扰动。我们还开展了用户学习,以展示所作数据集的质量。结果表明,我们的数据集具有有希望的质量,可以在许多情况下欺骗人类参与者。
translated by 谷歌翻译
有效的人类学习取决于广泛的教育材料,与学习者目前对该主题保持一致。虽然互联网彻底改变了人类的学习或教育,但仍存在大量资源可访问性障碍。即,过剩的在线信息可以使其充满努力导航和发现高质量的学习材料。在本文中,我们提出了教育资源发现(ERD)管道,用于为新颖域自动化Web资源发现。管道由三个主要步骤组成:数据收集,功能提取和资源分类。我们从一个已知的源域开始,通过传输学习在两个看不见的目标域上进行资源发现。我们首先从一组种子文档中收集频繁查询并在网上搜索以获取候选资源,例如讲座幻灯片和介绍博客帖子。然后我们介绍一个小说预用信息检索深神经网络模型,查询文件屏蔽语言建模(QD-MLM),以提取这些候选​​资源的深度特征。我们应用基于树的分类器来决定候选人是否是一个积极的学习资源。当在两个类似但新的靶域评估时,管道在评估时实现0.94和0.82的F1分数。最后,我们展示了该管道如何使应用程序有益于应用:调查的领先段落生成。这是据我们所知,这是考虑各种网络资源的研究。我们还释放了39,728个手动标记的Web资源的语料库,以及来自NLP,计算机视觉(CV)和统计信息(统计数据)的659个查询。
translated by 谷歌翻译
科学主题的分类方案概述了其知识体系。它还可以用于促进访问研究文章和与受试者相关的其他材料。例如,ACM计算分类系统(CCS)用于ACM数字库搜索界面以及索引计算机科学论文。我们观察到,计算语言学(CL)和自然语言处理(NLP),不存在综合分类系统等CCS或数学主题分类(MSC)。我们提出了一个分类方案 - 基于在这一主题的77个大学课程的在线讲座的分析,Cl / NLP的Clicker。目前拟议的分类学包括334个主题,并侧重于CL / NLP的教育方面;它主要是基于,但不是完全,在NLP课程的讲义中。我们讨论这种分类系统如何帮助各种现实世界应用,包括辅导平台,资源检索,资源推荐,先决条件链学习和调查生成。
translated by 谷歌翻译
我们介绍了Plenoxels(plenoptic voxels),是一种光电型观测合成系统。Plenoxels表示作为具有球形谐波的稀疏3D网格的场景。该表示可以通过梯度方法和正则化从校准图像进行优化,而没有任何神经元件。在标准,基准任务中,Plenoxels优化了比神经辐射场更快的两个数量级,无需视觉质量损失。
translated by 谷歌翻译
预测道路用户的未来行为是自主驾驶中最具挑战性和最重要的问题之一。应用深度学习对此问题需要以丰富的感知信号和地图信息的形式融合异构世界状态,并在可能的期货上推断出高度多模态分布。在本文中,我们呈现MultiPath ++,这是一个未来的预测模型,实现了在流行的基准上实现最先进的性能。 MultiPath ++通过重新访问许多设计选择来改善多径架构。第一关键设计差异是偏离基于图像的基于输入世界状态的偏离,有利于异构场景元素的稀疏编码:多径++消耗紧凑且有效的折线,直接描述道路特征和原始代理状态信息(例如,位置,速度,加速)。我们提出了一种背景感知这些元素的融合,并开发可重用的多上下文选通融合组件。其次,我们重新考虑了预定义,静态锚点的选择,并开发了一种学习模型端到端的潜在锚嵌入的方法。最后,我们在其他ML域中探索合奏和输出聚合技术 - 常见的常见域 - 并为我们的概率多模式输出表示找到有效的变体。我们对这些设计选择进行了广泛的消融,并表明我们所提出的模型在协会运动预测竞争和Waymo开放数据集运动预测挑战上实现了最先进的性能。
translated by 谷歌翻译
本文介绍了学习迭代查询细化的元策略的设计代理的首先成功步骤。我们的方法使用机器读取来指导从聚合搜索结果中选择细化项。然后,使用简单但有效的搜索操作员能够赋予代理,以对查询和搜索结果发挥细粒度和透明控制。我们开发一种新颖的方式来发电综合搜索会话,它通过(自我)监督学习来利用基于变压器的语言模型的力量。我们还提出了一种强化学习代理,具有动态约束的动作,从划痕中了解互动搜索策略。我们使用传统的基于术语的BM25排名函数获得与最近神经方法相当的检索和回答质量性能。我们对搜索政策进行了深入的分析。
translated by 谷歌翻译