尽管机器学习算法广泛用于解决技术,经济和社会相关性的问题,但是这些数据驱动算法的性能的可证实的保证是严重缺乏的,尤其是当数据源自不可靠的源并且被过度保护且易于访问的信道传输时。在本文中,我们采取了重要的步骤来弥合这一差距,并正式表明,为了优化准确性,二元分类算法 - 包括基于机器学习技术的算法 - 不可避免地对数据的对抗性操作变得更加敏感。此外,对于具有相同复杂度(即,分类边界的数量)的给定类别的算法,精度和灵敏度之间的基本交叉曲线仅取决于数据的统计,并且不能通过调整算法来改进。
translated by 谷歌翻译
现代机器翻译(MT)系统在干净的域内文本中表现良好。然而,人类生成的文本,特别是在社会媒体领域,充满了错别字,俚语,方言,惯用语和其他可能对输出翻译的准确性产生灾难性影响的噪音。在本文中,我们利用噪声文本的机器翻译(MTNT)数据集,通过在其他清洁数据中模拟自然发生的噪声来增强MT系统的稳健性。以这种方式合成噪声,我们最终能够使香草MT系统对自然产生的噪声具有弹性,并且部分地减轻由此产生的精度损失。
translated by 谷歌翻译
DiffEqFlux.jl是用于融合神经网络和差分方程的库。在这项工作中,我们从数据科学的角度描述微分方程,并讨论机器学习模型和微分方程之间的互补性。我们证明了将差分方程.jl定义的微分方程问题结合到aFlux定义的神经网络中的能力,反之亦然。能够将整个DifferentialEquations.jl套件用于此目的的优点可以通过简单集成策略失败的反例来证明,但DifferentialEquations.jllibrary提供的复杂集成策略成功。接下来是神经网络内部的延迟微分方程和随机微分方程的演示。 Weshow用于定义神经普通微分方程(嵌入到微分方程中的神经网络)的高级功能,并在Flux模型动物园中描述包括神经随机微分方程的额外模型。我们通过讨论用于微分方程求解器的反向传播的各种联合方法得出结论.DiffEqFlux.jl是对该区域的重要贡献,因为它允许从科学计算领域的数十年研究中开发的微分方程求解器的全权重被容易地应用。应对机器学习和数据科学带来的挑战。
translated by 谷歌翻译
手写签名验证领域在过去的几十年中得到了广泛的研究,但仍然是一个开放的研究问题。在离线(静态)签名验证中,签名写入过程的动态信息丢失,并且难以设计出能够区分真实签名和熟练伪造的良好特征提取器。在编写者独立的场景中,这个验证任务更加困难,这无疑是财务上的现实案例。在本文中,我们提出了一个用于离线写入器的集合模型,具有深度学习的独立签名验证任务。我们使用两个CNN进行特征提取,然后使用RGBT进行分类和堆叠以生成最终预测向量。我们对来自不同来源的各种数据集进行了大量实验,以维持数据集中的方差。我们已经在各种数据集上实现了最先进的性能。
translated by 谷歌翻译
深度神经网络(DNN)越来越多地被用于各种安全和关键任务系统中的传感和控制功能,如集体驾驶汽车,自动飞行器,医疗诊断和工业机器人。此类系统的故障可能导致生命或财产损失,这需要严格的验证和验证以提供高保真。虽然正在研究形式验证方法,但测试仍然是评估此类系统可靠性的主要技术。由于DNN处理的任务的性质,获得测试oracle数据的成本---给定输入的预期输出a.k.a.标签是高的,这显着影响了可以执行的测试的数量和质量。因此,优先考虑输入数据以有意义的方式测试DNN以降低标签成本可以大大提高测试效率。本文提出使用DNN的情绪量表来源于模型执行的计算,作为识别输入的手段好像要揭示弱点。我们通过实证评估了三种情感措施的优先级 - 信心,不确定性和企业 - 的效力,并比较了它们在揭示错误的能力和再培训效率方面的有效性。结果表明,情绪措施可以有效地标记暴露不可接受的DNN行为的输入。对于MNIST模型,正确标记的平均输入百分比范围为88%至94.8%。
translated by 谷歌翻译
我们研究了在极端变化的环境中的多玩家随机多臂强盗(MAB)问题。我们考虑一种碰撞模型,其中如果玩家是唯一选择手臂的玩家,则玩家会在手臂上接受奖励。我们设计了一些新颖的算法,即Round-Robin Sliding-Window Upper ConfidenceBound \#(RR-SW-UCB \#)和滑动窗口分布式学习优先化(SW-DLP)。我们严格地分析了这些算法,并表明这些算法的预期累积群体后悔受到时间的线性函数的上限,即,遗憾的时间平均收敛于零。我们用数字插图补充我们的分析结果。
translated by 谷歌翻译
基于内容的图像检索(CBIR)是多媒体信息检索中最活跃的研究领域之一。给定查询图像,任务是搜索存储库中的相关图像。像图像的颜色,纹理和形状特征向量等低级特征始终被认为是CBIR系统中的重要属性。因此,通过组合这些特征向量可以增强CBIR系统的性能。在本文中,我们提出了一种新的CBIR框架,通过使用多类SVM应用于索引,并使用相关比和平均差自动找到各个特征的适当权重。我们采用了四个特征描述符来表示颜色,纹理和形状特征。在检索期间,将查询图像的特征向量组合,加权并与数据库中的图像的特征向量进行比较,以对结果进行排序。对四个基准数据集进行了实验,并将性能与现有技术进行了比较,以验证我们提出的框架的优越性。
translated by 谷歌翻译
移动数据集是评估与地理信息系统相关的算法和促进实验再现性的基础。但隐私影响限制了共享此类数据集,因为即使聚合位置数据也容易受到成员资格推断攻击。当前的合成动态数据集生成器试图表面匹配先验建模的移动特性,这些特征不能准确地反映真实世界的特征。因此,对人体移动性进行建模以生成合成但语义和统计上逼真的轨迹对于发布具有令人满意的效用水平同时保留用户隐私的轨迹数据集是至关重要的。具体而言,人类移动性固有的长程依赖性对于利用判别模型和生成模型进行捕获具有挑战性。在本文中,我们对复现神经结构(RNN),生成对抗网络(GAN)和非参数copula的性能进行基准测试,以生成合成移动轨迹。我们根据它们的地理和语义相似性,昼夜节律,远程依赖性,训练和生成时间来评估生成的轨迹。我们还包括两个样本测试,用于评估观察到的和模拟的分布之间的统计相似性,并且我们分析了关于成员推断和位置序列攻击的隐私权衡。
translated by 谷歌翻译
互联网拥有丰富且迅速增加的高质量教育内容来源。现代大规模在线教育技术应用(例如个性化推荐和自动课程创建)需要推断教育概念之间的先决条件关系。我们提出PREREQ,一种新的监督学习方法,用于推断概念先决条件关系。 PREREQ是使用从Pairwise Latent Dirichlet Allocation模型获得的概念的潜在表示以及基于Siamese网络架构的神经网络设计的。 PREREQ可以从课程先决条件和标记的conceptprerequisite数据中学习未知的概念先决条件。它优于基准数据集的最先进方法,可以从非常少的训练数据中学习。 PREREQ还可以使用未标记的视频播放列表(一种稳定增长的培训数据源)来学习概念先决条件,从而避免了对课程先决条件的手动注释的需要。
translated by 谷歌翻译
通过集成多个异构数据源进行学习是许多任务中的常见要求。集体矩阵分解(CMF)是一种技术,可以从任意矩阵集合中学习共享的潜在表示。它可以用于同时完成一个或多个矩阵,用于预测未知条目。经典CMF方法假设潜在因子的相互作用中的线性,这可能是限制性的并且不能捕获复杂的非线性相互作用。在本文中,我们开发了第一个基于深度学习的方法,称为dCMF,用于多个共享表示的无监督学习,可以从任意的矩阵集合中模拟这种非线性交互。我们通过Multi-Task BayesianOptimization解决由于共享表示之间的依赖性而产生的优化挑战,并设计适用于超参数集体学习的采集函数。我们的实验表明,dCMF在集成异构数据用于预测建模方面明显优于以前的CMF算法。此外,在两个任务 - 基因 - 疾病关联的推荐和预测 - dCMF优于可以利用辅助信息源的最先进的矩阵完成算法。
translated by 谷歌翻译