我们提出了一种深度强化学习方法来优化静态编译器中计算图的执行成本。关键思想是将神经网络策略与遗传算法 - 偏差随机密钥遗传算法(BRKGA)相结合。在给定要优化的输入图的情况下,策略被训练以预测BRKGA中的采样突变和交叉的节点级概率分布。我们的方法“基于REINFORCE的遗传算法学习”(REGAL)使用该策略转移到新图表的能力,以显着提高遗传算法的解决方案质量,以获得相同的客观评估预算。作为一个具体的应用,我们通过联合优化设备布局和调度来显示TensorFlow图中最小化峰值记忆的结果。在以前看不见的图表上,REGAL的峰值内存平均比BRKGA低3.56%,优于我们比较的所有算法,并且比下一个最佳算法的改进大4.4倍。我们还对生产编译器团队的XLA图表性能基准进行了评估,并且比BRKGA平均降低了3.74%的峰值内存,再次超越了所有人。我们的方法和分析是通过收集372个独特的真实世界TensorFlow图表的数据集来实现的,这比以前的工作多了一个数量级。
translated by 谷歌翻译
基于树的机器学习模型,例如随机森林,决策树和梯度增强树,是当今实践中使用的最流行的非线性预测模型,但是对于解释它们的预测却相对较少关注。在这里,我们通过三个主要贡献显着提高了树模型的可解性:1)基于游戏理论计算最优解释的第一个多项式时间算法。 2)一种直接测量局部特征相互作用效果的新型解释。 3)一组新的工具,用于基于每个预测的许多局部解释来理解全局模型结构。我们将这些工具应用于三个医学机器学习问题,并展示如何结合许多高质量的局部解释使我们能够代表全局结构,同时保持对原始模型的本地忠诚度。这些工具可以使我们知道i)在美国一般人群中识别高幅度但低频率的非线性死亡率因素,ii)突出显示具有共同风险特征的不同群体子群,iii)识别慢性肾病危险因素之间的非线性相互作用, iv)通过识别哪些特征随着时间的推移降低模型的性能来监控部署在医院中的机器学习模型。鉴于基于树的机器学习模型的普及,这些对其可解释性的改进对于广泛的领域具有影响。
translated by 谷歌翻译
LIBS2ML是一个基于可扩展二阶学习算法的库,用于解决大规模问题,即机器学习中的大数据问题.LIBS2ML是使用MEX文件开发的,即C ++与MATLAB / Octaveinterface一起利用这两个世界的优势,即使用MATLAB更快地学习使用C ++和简单的I / O.大多数可用的库都是在MATLAB / Python / R中,它们非常慢并且不适合大规模学习,或者在C / C ++中没有简单的方法来获取输入和显示结果。所以LIBS2ML完全是独一无二的,因为它专注于可扩展的二阶方法,热门的研究课题,并且基于MEX文件。因此它为研究人员提供了一个综合的环境来评估他们的技术,它也为机器学习从业者提供了一个有效的工具。大规模的学习问题。 LIBS2ML是一个开源,高效,可扩展,可扩展,可读,可移植且易于使用的库。该库可以从URL下载:\ url {https://github.com/jmdvinodjmd/LIBS2ML}。
translated by 谷歌翻译
智能手机的广泛采用极大地增加了攻击和移动恶意软件传播的风险,特别是在Android平台上。基于机器学习的解决方案已经被用作取代基于设计的反恶意软件系统的工具。但是,恶意软件作者利用来自恶意和合法样本的属性来估计统计差异,以便创建对抗性示例。因此,为了评估机器学习算法在恶意软件检测中的漏洞,我们建议使用不同的攻击场景来扰乱恶意应用程序(app)。通过这种方式,分类算法不适合地对数据点集合进行判别函数,最终产生更高的分类率。此外,为了区分对抗性实例和良性样本,我们提出了两种防御机制来对抗攻击。为了使我们的攻击和解决方案无效,我们在三个不同的基准数据集上测试我们的模型。我们还使用各种分类算法测试我们的方法,并使用雅可比矩阵将它们与最先进的数据中毒方法进行比较。有希望的结果表明,生成的对抗样本可以非常高的概率逃避检测。此外,当我们用于强化开发的反恶意软件系统时,由我们的攻击模型生成的回避变量提高了检测率。
translated by 谷歌翻译
双边和非本地均值过滤器是基于内核的过滤器的实例,其通常用于图像处理。最近表明,可以使用核矩阵的低秩近似来执行灰度图像的快速且准确的双边滤波。更具体地,基于核矩阵的特征分解,使用空间卷积对整体滤波进行近似,对于该空间卷积,可以使用有效的算法。不幸的是,这种技术无法扩展到高维数据,如颜色和高光谱图像。这仅仅是因为需要计算/存储大矩阵并在此情况下执行其特征分解。我们展示了如何使用Nystr \“om方法解决这个问题,这种方法通常用于近似大矩阵的特征分解。所得算法也可用于非局部均值滤波。我们证明了我们的双边和非局部均值滤波方法的有效性。特别是,我们的方法与最先进的快速算法相比具有竞争力,而且它具有对近似误差的理论保证。
translated by 谷歌翻译
我们研究了隐私数据发布的问题,其中数据通过隐私保证可用,同时尽可能保持数据的可用性 - 这在医疗保健和其他具有敏感数据的领域中非常重要。特别地,我们提出了一种利用隐私保证来屏蔽私人数据的方法,同时确保在掩蔽数据上训练的分类器与在原始数据上训练的分类器类似,以保持可维护性。我们分析了该方法的理论风险和传统的输入扰动方法。结果表明,与输入扰动相比,该方法具有较低的风险,特别是当训练样本的数量变大时。我们在$ 12 $基准数据集上说明了所提出的数据屏蔽方法对隐私敏感学习的有效性。
translated by 谷歌翻译
目前,随机逼近方法是处理大规模机器学习问题的主要研究方向之一。从随机一阶方法出发,现在焦点转向随机二阶方法,因为它们收敛速度更快。在本文中,我们提出了一种新的随机信任RegiOn不精确牛顿方法,称为STRON,它使用共轭梯度(CG)来解决信任区域子问题。该方法在梯度和Hessian值的计算中使用渐进子采样,具有随机近似和满批量方案的优点。我们使用现有的方差减少技术扩展STRON以处理噪声梯度,并使用预处理共轭梯度(PCG)子问题求解器。我们进一步扩展STRON以解决SVM。最后,理论结果证明了STRON的超线性收敛性,实证结果证明了该方法对具有基准标记数据集的现有方法的有效性。
translated by 谷歌翻译
通常采用面内像素间距来获取三维(3D)生物医学图像集,所述面内像素间距远小于图像之间的面外间距。可以使用图像插值来减少在许多应用中可能有害的合成各向异性。已经证明光流和/或其他基于注册的内插器在过去的这种插值中起作用。当获取的图像由描述流体流速的信号组成时,可以使用附加信息来指导插值过程。在本文中,我们提出了一种基于光流的图像插值框架,它还可以最小化插值数据中的合成发散。
translated by 谷歌翻译
传统的反馈控制方法可以通过使用显式模型(例如刚体运动方程)捕获结构来非常有效地解决各种类型的机器人控制问题。然而,现代制造中的许多控制问题涉及接触和摩擦,这对于一阶物理建模是困难的。因此,将控制设计方法应用于这些类型的问题通常会导致脆弱且不准确的控制器,必须手动调整以进行部署。已证明强制学习(RL)方法能够通过与环境的交互来学习连续机器人控制器,即使对于包括摩擦和接触的问题。在本文中,我们研究如何通过将它们分解为通过常规反馈控制方法有效求解的部分以及用RL求解的残差来解决现实世界中的困难控制问题。最终控制策略是两个控制信号的叠加。我们通过训练代理来演示我们的方法,以成功执行涉及联系人和不稳定对象的真实世界块组装任务。
translated by 谷歌翻译
我们提出了一种新的视频编码算法,为低延迟模式学习端到端。在此设置中,我们的方法在几乎整个比特率范围内都优于所有现有的视频编码。据我们所知,这是第一个基于ML的方法。我们在低延迟模式下评估我们针对不同分辨率的标准视频压缩测试集的方法,以及针对所有主流商业编解码器的基准测试。在标准清晰度视频上,相对于我们的算法,HEVC / H.265,AVC / H.264和VP9通常会产生高达60%的代码。高清1080p视频,H.265和VP9通常可以产生高达20%的代码,而H.264则高出35%。此外,我们的方法不会受到块效应和像素化的影响,从而产生视觉上更令人愉悦的视频。我们提出两项主要贡献。第一种是用于视频压缩的新颖架构,其(1)推广运动估计以执行超出简单翻译的任何学习的补偿,(2)而不是严格地依赖于先前传输的参考帧,维持由模型学习的任意信息的状态,以及(3)能够共同压缩所有传输的信号(例如光流和残余)。其次,我们提出了一个基于ML的空间速率控制的框架:即,为每个帧在空间分配可变比特率的机制。这是视频编码的关键组件,据我们所知,这些组件尚未在机器学习环境中进行开发。
translated by 谷歌翻译