我们介绍了一种计算关于数据集的学习任务的导数的方法。学习任务是从训练设置到验证错误的函数,可以由培训的深神经网络(DNN)表示。 “数据集导数”是一个线性运算符,围绕培训的模型计算,它通知每个训练样本的权重的扰动如何影响验证误差,通常在单独的验证数据集上计算。我们的方法,DIVA(可微分验证)铰接在预先训练的DNN周围的休假交叉验证误差的闭合形式微分表达上。这种表达构成数据集衍生物。 Diva可用于数据集自动策策,例如用错误的注释删除样本,使用其他相关样本增强数据集或重新平衡。更一般地,DIVA可用于优化数据集,以及模型的参数,作为培训过程的一部分,而无需单独的验证数据集,与AutomL的双层优化方法不同。为了说明DIVA的灵活性,我们向样本自动策展任务报告实验,如异常值拒绝,数据集扩展和多模态数据的自动聚合。
translated by 谷歌翻译
我们提出了一个新的框架,在增强的自然语言(TANL)之间的翻译,解决了许多结构化预测语言任务,包括联合实体和关系提取,嵌套命名实体识别,关系分类,语义角色标记,事件提取,COREREFED分辨率和对话状态追踪。通过培训特定于特定于任务的鉴别分类器来说,我们将其作为一种在增强的自然语言之间的翻译任务,而不是通过培训问题,而不是解决问题,而是可以轻松提取任务相关信息。我们的方法可以匹配或优于所有任务的特定于任务特定模型,特别是在联合实体和关系提取(Conll04,Ade,NYT和ACE2005数据集)上实现了新的最先进的结果,与关系分类(偶尔和默示)和语义角色标签(Conll-2005和Conll-2012)。我们在使用相同的架构和超参数的同时为所有任务使用相同的架构和超级参数,甚至在培训单个模型时同时解决所有任务(多任务学习)。最后,我们表明,由于更好地利用标签语义,我们的框架也可以显着提高低资源制度的性能。
translated by 谷歌翻译
鉴于对机器学习模型的访问,可以进行对手重建模型的培训数据?这项工作从一个强大的知情对手的镜头研究了这个问题,他们知道除了一个之外的所有培训数据点。通过实例化混凝土攻击,我们表明重建此严格威胁模型中的剩余数据点是可行的。对于凸模型(例如Logistic回归),重建攻击很简单,可以以封闭形式导出。对于更常规的模型(例如神经网络),我们提出了一种基于训练的攻击策略,该攻击策略接收作为输入攻击的模型的权重,并产生目标数据点。我们展示了我们对MNIST和CIFAR-10训练的图像分类器的攻击的有效性,并系统地研究了标准机器学习管道的哪些因素影响重建成功。最后,我们从理论上调查了有多差异的隐私足以通过知情对手减轻重建攻击。我们的工作提供了有效的重建攻击,模型开发人员可以用于评估超出以前作品中考虑的一般设置中的个别点的记忆(例如,生成语言模型或访问培训梯度);它表明,标准模型具有存储足够信息的能力,以实现培训数据点的高保真重建;它表明,差异隐私可以成功减轻该参数制度中的攻击,其中公用事业劣化最小。
translated by 谷歌翻译
我们提出了一个分散的“Local2Global”的图形表示学习方法,即可以先用来缩放任何嵌入技术。我们的Local2Global方法首先将输入图分成重叠的子图(或“修补程序”)并独立地培训每个修补程序的本地表示。在第二步中,我们通过估计使用来自贴片重叠的信息的刚性动作的一组刚性运动来将本地表示将本地表示与全局一致的表示。 Local2Global相对于现有工作的关键区别特征是,在分布式训练期间无需经常昂贵的参数同步训练曲线的培训。这允许Local2Global缩放到大规模的工业应用,其中输入图甚至可能均不适合存储器,并且可以以分布式方式存储。我们在不同大小的数据集上应用Local2Global,并表明我们的方法在边缘重建和半监督分类上的规模和准确性之间实现了良好的权衡。我们还考虑异常检测的下游任务,并展示如何使用Local2Global在网络安全网络中突出显示异常。
translated by 谷歌翻译
在文献中提出了以计算可处理方式指定规范人工制品(规范,合同,政策)的几种解决方案。已提出法律核心本体,以系统化与规范性推理相关的概念和关系。但是,在那些方面没有解决一般接受,并且没有识别出常见的地面(代表性计算),使我们能够轻松地比较它们。然而,所有这些努力共享代表规范性指令的相同动机,因此它可能有可能存在包含所有的代表性模型。此演示文稿将引入DPCL,用于指定以HOHFELD基本法律概念框架为中心的更高级别的策略(包括规范,合同等)的域特定语言(DSL)。 DPCL必须主要作为“模板”,即建筑参考的信息模型,而不是完全成熟的正式语言;它旨在明确规范规范语言应该预期的一般要求。在这方面,它相当朝着法律核心本体的方向,但不同于那些,我们的提议旨在保持DSL的特征,而不是一组逻辑框架中的一组公理:它意味着交叉编译向基础语言/工具充足于目标应用类型。我们在此提供一些语言功能的概述。
translated by 谷歌翻译
在机器人学中,数据采集通常扮演未知环境探索的关键部分。例如,存储有关探索地形的地形或环境中的自然危险的信息可以通知机器人的决策过程。因此,对这些数据安全地存储这些数据至关重要,并使其能够快速提供给机器人系统的运营商。在分散的系统中,如一群机器人,这需要几个挑战。要解决它们,我们提出了rass,一个分散的风险感知群体存储和路由机制,它专门依赖于邻居之间的本地信息共享,以建立存储和路由健身。我们通过基于物理模拟器的彻底实验测试我们的系统,并使用物理实验测试其现实世界的适用性。我们获得了令人信服的可靠性,路由速度和群体存储容量结果。
translated by 谷歌翻译
虚假图像的更高质量和广泛传播已经为可靠的法医制作产生了追求。最近已经提出了许多GaN图像探测器。然而,在现实世界的情景中,他们中的大多数都表现出有限的鲁棒性和泛化能力。此外,它们通常依赖于测试时间不可用的侧面信息,即它们不是普遍的。我们研究了这些问题,并基于有限的子采样架构和合适的对比学习范例提出了一种新的GaN图像检测器。在具有挑战性的条件下进行的实验证明了提出的方法是迈向通用GaN图像检测的第一步,确保对常见的图像障碍以及看不见的架构的良好概括。
translated by 谷歌翻译
我们提出了一种离散化设计,阐述了最近在Gagliardi和Russo(2021)中引入的算法,以合成来自约束,可能随机和非线性系统的示例的控制策略。在可能嘈杂的示例数据中不需要满足约束,这又可以从不同于控制的系统中收集。对于这种离散设计,我们讨论了许多属性并提供设计管道。我们术语作为离散的完全概率设计的设计在数值上基准测试,该示例涉及从从没有满足系统特定的致动约束的物理上不同的摆动的数据开始的致动约束的致动约束的致动约束。
translated by 谷歌翻译
目标。植物疾病的可持续管理是具有相关经济和环境影响的开放挑战。最佳策略依赖于有利条件下的现场侦察的人类专业知识,以评估当前存在和程度的疾病症状。这种劳动密集型任务被侦察的大场区域复杂化,与毫米级大小相结合待检测的早期症状。鉴于此,基于图像的早期疾病症状的检测是一种有吸引力的方法来实现这一过程,实现了可持续成本的潜在高吞吐量监测。方法。深入学习已成功应用于各个域,以通过培训程序学习过滤器来获取相关图像特征的自动选择。深入学习最近进入了植物疾病检测领域:在这项工作之后,我们提出了一种深入的学习方法,可以在黄瓜叶上识别白粉病。我们专注于应用于多光谱成像数据的无监督的深度学习技术,我们提出了使用AutoEncoder架构来调查疾病检测的两种策略:i)压缩空间中的特征集群化; II)异常检测。结果。通过定量指数评估了两种提出的方​​法。集群化方法本身并不完全能够提供准确的预测,但它确实迎合了相关信息。异常检测代替分辨率的显着潜力,这可以进一步被开发为具有非常有限数量的标记样本的监督架构之前。
translated by 谷歌翻译
海浪可再生能源快速成为近几十年来可再生能源行业的关键部分。通过在该过程中开发波能转换器作为主转换器技术,研究了它们的电力起飞(PTO)系统。调整PTO参数是一个具有挑战性的优化问题,因为这些参数与吸收功率输出之间存在复杂和非线性关系。在这方面,本研究旨在优化在澳大利亚海岸的珀斯的波路场景中的点吸收波能量转换器的PTO系统参数。转换器在数量上设计成振荡,以防止不规则,并且执行PTO设置的多维波和灵敏度分析。然后,要找到导致最高功率输出的最佳PTO系统参数,并入了十种优化算法,以解决非线性问题,包括Nelder-Mead搜索方法,主动集方法,顺序二次编程方法(SQP),多节透视优化器(MVO)和六种改进的遗传,代理和Fminsearch算法组合。在可行性景观分析之后,执行优化结果并在PTO系统设置方面提供最佳答案。最后,调查表明,遗传,替代和FMINSEARCH算法的修改组合可以优于所研究的波场景中的其他组合,以及PTO系统变量之间的相互作用。
translated by 谷歌翻译