完成知识三胞胎的任务具有广泛的下游应用程序。结构和语义信息在知识图完成中起着重要作用。与以前依靠知识图的结构或语义的方法不同,我们建议将语义共同嵌入知识三胞胎的自然语言描述及其结构信息。我们的方法通过对概率结构化损失进行微调预训练的语言模型来嵌入完成任务的知识图,其中语言模型的正向通过捕获语义和损失重建结构。我们对各种知识图基准的广泛实验证明了我们方法的最新性能。我们还表明,由于语义的更好使用,我们的方法可以显着提高低资源制度的性能。代码和数据集可在https://github.com/pkusjh/lass上找到。
translated by 谷歌翻译
联合学习(FL)已成为机器学习中的实用且流行的范式。但是,目前,没有系统的解决方案涵盖不同的用例。从业者经常面临如何为其用例选择匹配的FL框架的挑战。在这项工作中,我们提出了Unifed,这是对现有开源FL框架进行标准化评估的第一个统一基准。在15个评估方案中,我们从功能,可用性和系统性能的角度出发了9个现有流行开源的FL框架的定性和定量评估结果。我们还根据基准结论提供有关框架选择的建议,并指出未来的改进方向。
translated by 谷歌翻译
我们考虑垂直逻辑回归(VLR)接受了迷你批次梯度下降训练,这种环境吸引了行业日益增长的兴趣,并被证明在包括金融和医学研究在内的广泛应用中很有用。我们在一系列开源联合学习框架中提供了对VLR的全面和严格的隐私分析,其中协议之间可能会有所不同,但是获得了获得本地梯度的过程。我们首先考虑了诚实而有趣的威胁模型,其中忽略了协议的详细实施,并且仅假定共享过程,我们将其作为甲骨文提取。我们发现,即使在这种一般环境下,在适当的批处理大小约束下,仍然可以从另一方恢复单维功能和标签,从而证明了遵循相同理念的所有框架的潜在脆弱性。然后,我们研究基于同态加密(HE)的协议的流行实例。我们提出了一种主动攻击,该攻击通过生成和压缩辅助密文来显着削弱对先前分析中批处理大小的约束。为了解决基于HE的协议中的隐私泄漏,我们基于差异隐私(DP)开发了一种简单的对策,并为更新的算法提供实用程序和隐私保证。最后,我们从经验上验证了我们对基准数据集的攻击和防御的有效性。总之,我们的发现表明,仅依靠他的所有垂直联合学习框架可能包含严重的隐私风险,而DP已经证明了其在水平联合学习中的力量,也可以在垂直环境中起着至关重要的作用,尤其是当耦合时使用HE或安全的多方计算(MPC)技术。
translated by 谷歌翻译
预测未来的世界事件是一项具有挑战性但有价值的任务。对气候,地缘政治冲突,大流行和经济指标的预测有助于塑造政策和决策。在这些领域中,专家人类的判断有助于最佳预测。鉴于语言建模的进步,这些预测可以自动化吗?为此,我们介绍了AutoCast,这是一个包含数千个预测问题和随附的新闻语料库的数据集。问题来自预测锦标赛,确保高质量,现实世界中的重要性和多样性。新闻语料库是按日期组织的,使我们能够精确模拟人类过去的预测(避免将来泄漏)的条件。我们的动机是由于数量级的预测数字的难度(例如,2022年的Covid-19的全球案例),我们还策划了Intervalqa,这是数值问题和校准的数值问题和指标的数据集。我们在预测任务上测试语言模型,并发现绩效远低于人类专家基线。但是,随着新闻语料库中相关信息的合并,绩效提高了绩效。总而言之,AutoCast对大型语言模型提出了一个新颖的挑战,并提高了性能可能会带来很大的实际收益。
translated by 谷歌翻译
在真实世界的机器学习应用中,可靠和安全的系统必须考虑超出标准测试设置精度的性能测量。这些其他目标包括分销(OOD)鲁棒性,预测一致性,对敌人的抵御能力,校准的不确定性估计,以及检测异常投入的能力。然而,提高这些目标的绩效通常是一种平衡行为,即今天的方法无法在不牺牲其他安全轴上的性能的情况下实现。例如,对抗性培训改善了对抗性鲁棒性,但急剧降低了其他分类器性能度量。同样,强大的数据增强和正则化技术往往提高鲁棒性,但损害异常检测,提出了对所有现有安全措施的帕累托改进是可能的。为满足这一挑战,我们设计了利用诸如分数形的图片的自然结构复杂性设计新的数据增强策略,这优于众多基线,靠近帕累托 - 最佳,并圆形提高安全措施。
translated by 谷歌翻译
问题回答模型努力推广到训练模式的新型组成,诸如更长的序列或更复杂的测试结构。目前的端到端模型学习扁平输入嵌入,可以丢失输入语法上下文。先前的方法通过学习置换不变模型来改善泛化,但这些方法不会扩展到更复杂的火车测试分裂。我们提出了接地的图形解码,一种通过与注意机制接地结构化预测来提高语言表示的组成概括的方法。接地使模型能够从输入中保留语法信息,从而显着提高复杂输入的泛化。通过预测包含查询条件的连词的结构化图,我们学习一个组不变的表示,而不会在目标域上做出假设。我们的模型显着优于现有的基础基础上的组成自由BASE问题(CFQ)数据集,这是一个有挑战性的基准,用于有问题的合成概括。此外,我们有效地解决了98%精度的MCD1分体式。
translated by 谷歌翻译
输入 - 输出(IO)示例的程序综合是一项长期挑战。虽然最近的作品在特定于域的语言(DSL)上表现出有限的成功,但将它们应用于现实世界的编程语言,例如C.由于复杂的语法和令牌变化,有三种主要挑战:(1)与许多DSL不同,像C如语言的程序需要首先编译,并且不会通过解释器执行; (2)程序搜索空间在编程语言的语法和语义变得更加复杂时呈指数增长; (3)收集实际计划的大规模数据集是非微不足道的。作为解决这些挑战的第一步,我们提出了Lasynth,并在限制-C域中表现出其疗效。更具体地,Lasynth学习潜在的表示,以近似于执行部分生成的程序的执行,即使它们在语法中不完整(寻址(1))。学习的执行显着提高了对现有方法的下一个令牌预测的性能,便于搜索(寻址(2))。最后,一旦接受了随机生成的地面真理计划和IO对,Lasynth可以合成更多简明的程序,类似于人为人写的代码。此外,使用这些合成程序再培训我们的模型,对于Karel和C程序合成的样本较少,表明利用学习程序合成器的承诺来提高输入 - 输出程序合成的数据集质量(寻址(3))。在评估程序执行输出是否与IO对匹配时,Lasynth达到55.2%的精度,即用数十个代币生成简单的C代码,包括环和分支,优先表现出没有执行者的现有方法约20%。
translated by 谷歌翻译
虽然编程是现代社会中最广泛适用的技能之一,但现代机器学习模型仍然无法对基本问题的解决方案。尽管重要的是,对评估代码生成令人惊讶的是,很少有效,并且难以准确地评估代码生成性能。为了满足这一挑战,我们介绍了一个用于代码生成的基准。与在更受限制的设置中的事先工作不同,我们的基准测试衡量模型采取任意自然语言规范的能力,并生成满意的Python代码。类似于公司如何评估候选软件开发人员,然后我们通过检查测试用例的生成代码来评估模型。我们的基准测试包括10,000个问题,从具有简单的单线解决方案来实现实质性算法挑战。我们在GitHub和我们的培训集上微调大型语言模型,我们发现语法错误的普遍性随着模型的提高而导致呈指数级递减。最近的模型如GPT-Neo可以通过大约20%的介绍性问题的测试用例,因此我们发现机器学习模型现在开始学习如何代码。随着自动代码生成的社会意义在未来几年增加,我们的基准可以提供跟踪进步的重要措施。
translated by 谷歌翻译
最近的研究已经证实了深度加强学习(RL)系统中的后门攻击的可行性。但是,现有攻击需要能够任意修改代理商的观察,将应用范围限制为atari游戏等简单的RL系统。在本文中,我们将后门攻击迁移到更复杂的RL系统涉及多个代理,并探讨触发后门的可能性而不直接操纵代理人的观察。作为概念证明,我们证明了对手可以在双人竞争RL系统中以自己的行动触发受害者的后门。我们在四个竞争环境中的原型和评估后杜拉利。结果表明,当后门被激活时,与未激活时,受害者的获胜率下降17%至37%。
translated by 谷歌翻译
许多智力努力需要解决数学问题,但这种技能仍然超出了计算机的能力。为了测量机器学习模型中的这种能力,我们介绍了数学,这是一个12,500个挑战性竞争数学问题的新数据集。数学中的每个问题都有一个完整的逐步解决方案,可用于教授模型来生成答案派生和解释。为了促进未来的研究和提高数学准确性,我们还提供了一个大型辅助预制数据集,有助于教导模型数学的基本原则。尽管我们能够提高数学准确性,但我们的结果表明,即使有巨大的变压器模型,即使有巨大的变压器模型也是相对较低的。此外,我们发现,如果缩放趋势持续,则无法增加预算和模型参数计数对于实现强大的数学推理,这将是不切实际的。虽然缩放变压器正在自动解决大多数基于文本的任务,但缩放目前没有解决数学。为了在数学问题上进行更多牵引,我们可能需要更广泛的研究界的新算法进步。
translated by 谷歌翻译