域适应提供了一组功能强大的模型训练技术,可以提供特定于域的训练数据和具有未知相关性的补充数据。当用户需要使用来自不同来源,不同质量或不同时间范围的数据开发模型时,这些技术非常有用。我们构建了CrossTrainer,一个用于实际领域适应的系统。 CrossTrainer利用损失重新加权,在我们的实证分析中为各种数据集提供始终如一的高模型精度。然而,损失重新加权对于调整昂贵的权重超参数的选择是敏感的。我们利用损失重新加权的独特属性开发优化,允许CrossTrainer输出准确的模型,同时与初始超参数搜索相比改善训练时间。
translated by 谷歌翻译
Machine learning (ML) techniques are enjoying rapidly increasing adoption. However, designing and implementing the systems that support ML models in real-world deployments remains a significant obstacle, in large part due to the radically different development and deployment profile of modern ML methods, and the range of practical concerns that come with broader adoption. We propose to foster a new systems machine learning research community at the intersection of the traditional systems and ML communities, focused on topics such as hardware systems for ML, software systems for ML, and ML optimized for metrics beyond predictive accuracy. To do this, we describe a new conference, SysML, that explicitly targets research at the intersection of systems and machine learning with a program committee split evenly between experts in systems and ML, and an explicit focus on topics at the intersection of the two.
translated by 谷歌翻译
知识蒸馏(KD)是一种减少深度网络推理的计算开销的流行方法,其中使用ateacher模型的输出来训练更小,更快的学生模型。提示培训(即FitNets)通过将学生模型的中间代表性回归到教师模型的中间表示来扩展KD。在这项工作中,我们引入了bLock-wise中间表示训练(LIT),这是一种新颖的模型压缩技术,它扩展了深度网络压缩中的中间表示的使用,优于KD和hinttraining。 LIT有两个关键思想:1)LIT通过直接比较中间代表来训练与教师相同宽度(但深度较低)的学生; 2)LIT使用教师模型中前一个块的中间表示作为当前输入学生阻止培训,避免学生网络中不稳定的中间表示。我们表明,LIT可以显着降低网络深度,而不会降低精度 - 例如,LIT可以将CIFAR10上的ResNeXt-110压缩到aResNeXt-20(5.5x),将VDCNN-29压缩到VDCNN-9(3.2x) AmazonReviews不会丢失准确性,在给定精度的情况下优于KD并提示网络化培训。我们还表明,将LIT应用于相同的学生/教师架构可以提高学生模型在教师模型之上的准确性,优于最近提出的ResNet,ResNeXt和VDCNN上的Born Again Networks程序。最后,我们展示了LIT可以有效地压缩GAN生成器,这在KDframework中是不受支持的,因为GAN输出像素而不是概率。
translated by 谷歌翻译
深度高斯过程(DGP)可以模拟复杂的边缘密度以及复杂的映射。非高斯边缘对于模拟真实世界数据是必不可少的,并且可以通过将相关变量结合到模型来从DGP生成。先前关于DGP模型的工作已经引入了加性和使用变分推理,其中使用稀疏高斯过程和平均场高斯的组合用于近似后验。加性噪声衰减信号,并且高斯形式的变分布可能导致后验不准确。我们将噪声变量作为潜在协变量,并提出一种新颖的重要性加权目标,它利用分析结果并提供一种权衡计算的机制以提高准确性。我们的研究结果表明,重要加权目标在实践中运作良好,并且始终优于经典变分推理,尤其是对于更深层次的模型。
translated by 谷歌翻译
差异隐私关注预测质量,同时测量对信息包含在数据中的个人的隐私影响。我们考虑与引起结构化稀疏性的规则制定者的差异私人风险最小化问题。已知这些正则化器是凸的,但它们通常是不可微分的。我们分析了标准的不同私有算法,例如输出扰动,Frank-Wolfe和目标扰动。输出扰动是一种差异私有算法,众所周知,它可以很好地降低强凸的风险。以前的工作已经导出了与维度无关的超额风险界限。在本文中,我们假设一类特定的凸但非光滑正则化器,它们导致广义线性模型的结构化稀疏性和损失函数。我们还考虑差异私有Frank-Wolfeal算法来优化风险最小化问题的双重性。我们得出这两种算法的过度风险界限。两个边界都取决于双范数的单位球的高斯宽度。我们还表明,风险最小化问题的客观扰动等同于双优化问题的输出扰动。这是在差异隐私的背景下分析风险最小化问题的双重优化问题的第一部作品。
translated by 谷歌翻译
我们提出了一个替代和统一的决策框架,通过使用量子力学,提供更广泛的认知和决策模型,能够代表比经典模型更多的信息。这个框架可以容纳和预测里德和格里菲斯报告的几个认知偏差,而不会过度依赖关于启发式的,也不是关于心智计算资源的假设。
translated by 谷歌翻译
声学数据提供从生物学和通信到海洋和地球科学等领域的科学和工程见解。我们调查了机器学习(ML)的进步和变革潜力,包括声学领域的深度学习。 ML是用于自动检测和利用模式印度的广泛的统计技术家族。相对于传统的声学和信号处理,ML是数据驱动的。给定足够的训练数据,ML可以发现特征之间的复杂关系。通过大量的训练数据,ML candiscover模型描述复杂的声学现象,如人类语音和混响。声学中的ML正在迅速发展,具有令人瞩目的成果和未来的重大前景。我们首先介绍ML,然后在五个声学研究领域强调MLdevelopments:语音处理中的源定位,海洋声学中的源定位,生物声学,地震探测和日常场景中的环境声音。
translated by 谷歌翻译
由于持久性图不允许内部产品结构,因此需要在Hilbert空间中映射才能使用内核方法。如果此类映射必然会扭曲持久性图表上的度量标准,则很自然。 Weshow表示具有瓶颈距离的持久性图表不允许将嵌入到Hilbert空间中。作为我们证明的一部分,我们展示了任何可分离的,有界的度量空间等距嵌入到具有瓶颈距离的持久性图的空间中。作为推论,我们还计算了这个空间的广义圆度,负数类型和渐近维数。
translated by 谷歌翻译
在证据监测期间对信念变化的两种不同动态模型进行了评估:马尔可夫和量子。他们通过实验进行了实验测试,其中参与者监测初始时间段的证据,进行概率评级,然后监测更多证据,然后进行第二次评级。通过以提供第一次评级对第二次评级的干扰效应的测试的方式操纵时间间隔来对模型进行定性测试。马尔科夫模型在量子模型预测干扰的情况下预测无干扰。还使用泛化标准方法对两个模型进行定量比较:将参数拟合到来自一组时间间隔的数据,然后使用这些相同参数来预测来自另一组时间间隔的数据。结果表明,马尔可夫和量子模型的某些特征需要准确地说明结果。
translated by 谷歌翻译
最近关于神经网络的对抗性脆弱性的研究已经表明,对于对抗性攻击而言训练得更强大的模型表现出比非强健对应物更可解释的显着性图。我们的目标是通过考虑输入图像和效果图之间的对齐来量化这种行为。我们假设,当决策边界的距离增加时,对齐也是如此。在线性模型的情况下,这种连接是严格正确的。我们通过基于使用局部Lipschitz正则化训练的模型的实验来确认这些理论发现,并确定神经网络的线性特性削弱了这种关系。
translated by 谷歌翻译