The state-of-the-art language model-based automatic metrics, e.g. BARTScore, benefiting from large-scale contextualized pre-training, have been successfully used in a wide range of natural language generation (NLG) tasks, including machine translation, text summarization, and data-to-text. Recent studies show that considering both major errors (e.g. mistranslated tokens) and minor errors (e.g. imperfections in fluency) can produce high-quality human judgments. This inspires us to approach the final goal of the evaluation metrics (human-like evaluations) by automatic error analysis. To this end, we augment BARTScore by incorporating the human-like error analysis strategies, namely BARTScore++, where the final score consists of both the evaluations of major errors and minor errors. Experimental results show that BARTScore++ can consistently improve the performance of vanilla BARTScore and outperform existing top-scoring metrics in 20 out of 25 test settings. We hope our technique can also be extended to other pre-trained model-based metrics. We will release our code and scripts to facilitate the community.
translated by 谷歌翻译
Transfer learning is a simple and powerful method that can be used to boost model performance of low-resource neural machine translation (NMT). Existing transfer learning methods for NMT are static, which simply transfer knowledge from a parent model to a child model once via parameter initialization. In this paper, we propose a novel transfer learning method for NMT, namely ConsistTL, which can continuously transfer knowledge from the parent model during the training of the child model. Specifically, for each training instance of the child model, ConsistTL constructs the semantically-equivalent instance for the parent model and encourages prediction consistency between the parent and child for this instance, which is equivalent to the child model learning each instance under the guidance of the parent model. Experimental results on five low-resource NMT tasks demonstrate that ConsistTL results in significant improvements over strong transfer learning baselines, with a gain up to 1.7 BLEU over the existing back-translation model on the widely-used WMT17 Turkish-English benchmark. Further analysis reveals that ConsistTL can improve the inference calibration of the child model. Code and scripts are freely available at https://github.com/NLP2CT/ConsistTL.
translated by 谷歌翻译
我们为机器翻译(MT)评估发布了70个小鉴别的测试集,称为方差感知测试集(VAT),从WMT16覆盖了35个翻译方向到WMT20竞争。VAT由一种新颖的方差感知过滤方法自动创建,该方法会在没有任何人工的情况下过滤当前MT测试集的不分度测试实例。实验结果表明,VAT在主流语言对和测试集中与人为判断的相关性方面优于原始的WMT测试集。进一步分析增值税的性质揭示了竞争MT系统的具有挑战性的语言特征(例如,低频词和专有名词),为构建未来MT测试集提供指导。测试集和准备方差感知MT测试集的代码可在https://github.com/nlp2ct/variance-aware-mt-test-sets自由使用。
translated by 谷歌翻译
对象检测是各种关键计算机视觉任务的基础,例如分割,对象跟踪和事件检测。要以令人满意的精度训练对象探测器,需要大量数据。但是,由于注释大型数据集涉及大量劳动力,这种数据策展任务通常被外包给第三方或依靠志愿者。这项工作揭示了此类数据策展管道的严重脆弱性。我们提出MACAB,即使数据策展人可以手动审核图像,也可以将干净的图像制作清洁的图像将后门浸入对象探测器中。我们观察到,当后门被不明确的天然物理触发器激活时,在野外实现了错误分类和披肩的后门效应。与带有清洁标签的现有图像分类任务相比,带有清洁通道的非分类对象检测具有挑战性,这是由于每个帧内有多个对象的复杂性,包括受害者和非视野性对象。通过建设性地滥用深度学习框架使用的图像尺度函数,II结合了所提出的对抗性清洁图像复制技术,以及在考虑到毒品数据选择标准的情况下,通过建设性地滥用图像尺度尺度,可以确保MACAB的功效。广泛的实验表明,在各种现实世界中,MacAB在90%的攻击成功率中表现出超过90%的攻击成功率。这包括披肩和错误分类后门效应,甚至限制了较小的攻击预算。最先进的检测技术无法有效地识别中毒样品。全面的视频演示位于https://youtu.be/ma7l_lpxkp4上,该演示基于yolov4倒置的毒药率为0.14%,yolov4 clokaking后门和更快的速度R-CNN错误分类后门。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
准确的实时流量预测对于智能运输系统(ITS)至关重要,它是各种智能移动应用程序的基石。尽管该研究领域以深度学习为主,但最近的研究表明,开发新模型结构的准确性提高正变得边缘。取而代之的是,我们设想可以通过在具有不同数据分布和网络拓扑的城市之间转移“与预测相关的知识”来实现改进。为此,本文旨在提出一个新型的可转移流量预测框架:域对抗空间 - 颞网(DASTNET)。 Dastnet已在多个源网络上进行了预训练,并通过目标网络的流量数据进行了微调。具体而言,我们利用图表表示学习和对抗域的适应技术来学习域不变的节点嵌入,这些嵌入式嵌入将进一步合并以建模时间流量数据。据我们所知,我们是第一个使用对抗性多域改编来解决网络范围的流量预测问题的人。 Dastnet始终优于三个基准数据集上的所有最新基线方法。训练有素的dastnet应用于香港的新交通探测器,并且在可用的探测器可用时(一天之内)可以立即(在一天之内)提供准确的交通预测。总体而言,这项研究提出了一种增强交通预测方法的替代方法,并为缺乏历史流量数据的城市提供了实际含义。
translated by 谷歌翻译
后门深度学习(DL)模型的行为通常在清洁输入上,但在触发器输入时不端行为,因为后门攻击者希望为DL模型部署构成严重后果。最先进的防御是限于特定的后门攻击(源无关攻击)或在该机器学习(ML)专业知识或昂贵的计算资源中不适用于源友好的攻击。这项工作观察到所有现有的后门攻击都具有不可避免的内在弱点,不可转换性,即触发器输入劫持劫持模型,但不能对另一个尚未植入同一后门的模型有效。通过此密钥观察,我们提出了不可转换性的反向检测(NTD)来识别运行时在运行时的模型欠测试(MUT)的触发输入。特定,NTD允许潜在的回溯静电预测输入的类别。同时,NTD利用特征提取器(FE)来提取输入的特征向量,并且从其预测类随机拾取的一组样本,然后比较FE潜在空间中的输入和样本之间的相似性。如果相似性低,则输入是对逆势触发输入;否则,良性。 FE是一个免费的预训练模型,私下从开放平台保留。随着FE和MUT来自不同来源,攻击者非常不可能将相同的后门插入其中两者。由于不可转换性,不能将突变处工作的触发效果转移到FE,使NTD对不同类型的后门攻击有效。我们在三个流行的定制任务中评估NTD,如面部识别,交通标志识别和一般动物分类,结果确认NDT具有高效率(低假验收率)和具有低检测延迟的可用性(低误报率)。
translated by 谷歌翻译
尽管深度神经网络模型在各种应用程序中表现出出色的性能,但它们的较大模型大小和广泛的浮点操作使移动计算平台上的部署成为主要挑战,尤其是在物联网设备上。一种吸引人的解决方案是模型量化,可降低模型大小并使用微控制器通常支持的整数操作。为此,1位量化的DNN模型或深二进制神经网络可最大化存储效率,其中BNN模型中的每个参数仅具有1位。在本文中,我们提出了一个可重构的BNN(RBNN),以进一步扩大资源约束的物联网设备的内存效率。通常,可以根据需要重新配置RBNN,以实现具有相同参数集的M(m> 1)不同的任务,因此只有一个任务决定了内存要求。换句话说,通过时间M改善了内存利用率。我们的广泛实验证实了多达七个常用的任务可以共存(M的值更大)。这些具有不同类别的任务在三个二氧化流行的DNN体系结构(包括VGG,Resnet和ReactNet)上没有准确性或微不足道的准确性下降。这些任务跨越了不同域,例如本文验证的计算机视觉和音频域,并以模型体系结构可以服务于这些跨域任务的先决条件。为了保护RBNN模型的知识属性,可以通过用户密钥和由固有硬件指纹生成的设备唯一的根键来控制重新配置。通过这样做,RBNN模型只能使用每个授权设备的每个付费用户使用,从而使用户和模型提供商受益。
translated by 谷歌翻译
This paper presents a machine learning approach to multidimensional item response theory (MIRT), a class of latent factor models that can be used to model and predict student performance from observed assessment data. Inspired by collaborative filtering, we define a general class of models that includes many MIRT models. We discuss the use of penalized joint maximum likelihood (JML) to estimate individual models and cross-validation to select the best performing model. This model evaluation process can be optimized using batching techniques, such that even sparse large-scale data can be analyzed efficiently. We illustrate our approach with simulated and real data, including an example from a massive open online course (MOOC). The high-dimensional model fit to this large and sparse dataset does not lend itself well to traditional methods of factor interpretation. By analogy to recommender-system applications, we propose an alternative "validation" of the factor model, using auxiliary information about the popularity of items consulted during an open-book exam in the course.
translated by 谷歌翻译
Real-world robotic grasping can be done robustly if a complete 3D Point Cloud Data (PCD) of an object is available. However, in practice, PCDs are often incomplete when objects are viewed from few and sparse viewpoints before the grasping action, leading to the generation of wrong or inaccurate grasp poses. We propose a novel grasping strategy, named 3DSGrasp, that predicts the missing geometry from the partial PCD to produce reliable grasp poses. Our proposed PCD completion network is a Transformer-based encoder-decoder network with an Offset-Attention layer. Our network is inherently invariant to the object pose and point's permutation, which generates PCDs that are geometrically consistent and completed properly. Experiments on a wide range of partial PCD show that 3DSGrasp outperforms the best state-of-the-art method on PCD completion tasks and largely improves the grasping success rate in real-world scenarios. The code and dataset will be made available upon acceptance.
translated by 谷歌翻译