机器学习工作流程开发是一个反复试验的过程:开发人员通过测试小的修改来迭代工作流程,直到达到所需的准确性。不幸的是,现有的机器学习系统只关注模型训练 - 只占整个开发时间的一小部分 - 而忽略了解决迭代开发问题。我们建议使用Helix,amachine学习系统来优化执行情况 - 智能地缓存和重用,或者重新计算中间体。 Helix在其斯卡拉DSL中捕获了各种各样的应用程序需求,其简洁的语法定义了数据处理,模型规范和学习的统一过程。我们证明了重用问题可以被转换为Max-Flow问题,而缓存问题则是NP-Hard。我们为后者开发有效的轻量级启发式算法。 Empiricalevaluation显示Helix不仅能够在一个统一的工作流程中处理各种各样的用例,而且速度更快,在四个实际上提供比最先进系统(如DeepDive或KeystoneML)高达19倍的运行时间减少。世界在自然语言处理,计算机视觉,社会和自然科学中的应用。
translated by 谷歌翻译
我们应用数值方法结合有限差分时域(FDTD)模拟,利用新颖的多保真高斯过程方法,利用五维参数空间上的多目标品质因数优化等离子体镜面滤色器的传输特性。我们将这些结果与传统的无导数全局搜索算法进行比较,例如(单保真)高斯过程优化方案和粒子群优化 - 纳米光子学社区中常用的方法,这是在Lumerical商业光子学软件中实现的。我们在几个预先收集的现实数据集上展示了各种数值优化方法的性能,并表明通过廉价模拟适当地交易廉价信息源,可以更有效地优化具有固定预算的传输属性。
translated by 谷歌翻译
当出现具有不同成本的多个相互依赖的信息源时,我们如何有效地收集信息以优化未知功能?例如,在优化机器人系统时,智能地交换计算机模拟和真实的机器人测试可以带来显着的节省。现有方法,例如基于多保真GP-UCB或基于熵搜索的方法,或者对不同保真度的交互作出简单假设,或者使用缺乏理论保证的简单启发法。在本文中,我们研究多保真贝叶斯优化与多输出之间的复杂结构依赖关系,并提出了MF-MI-Greedy,这是一个解决这个问题的原理算法框架。特别是,我们使用基于共享潜在结构的加性高斯过程来模拟不同的保真度。目标函数。然后,我们使用成本敏感的互信息增益进行有效的贝叶斯全局优化。我们提出一个简单的遗憾概念,其中包含不同保真度的成本,并证明MF-MI-Greedy实现了低度遗憾。我们在合成数据集和真实数据集上展示了我们算法的强大经验性能。
translated by 谷歌翻译
数据应用程序开发人员和数据科学家花费大量时间迭代机器学习(ML)工作流程 - 通过修改数据中心处理,模型训练和后处理步骤 - 通过心房和错误来实现所需的模型性能。加速机器学习的现有工作侧重于加快工作流程的一次性执行,未能解决典型ML开发的增量和动态性质。我们提出了Helix,一种声明式机器学习系统,通过优化端到端和跨迭代的工作流执行来加速迭代开发。 Helix通过程序分析和先前结果的智能重用最小化了每次迭代的运行时间,这些结果是选择性物质化的 - 为了潜在的未来利益而牺牲物化成本 - 加速未来的迭代。此外,Helix还提供了可视化工作流程DAG的图形界面,并比较了可以实现迭代开发的版本。通过两个ML应用程序,分类和结构化预测,与会者将体验Helix编程接口的模糊性以及使用Helix进行迭代开发的速度和简易性。在我们的评估中,与最先进的机器学习工具相比,Helix在累计运行时间方面实现了数量级的降低。
translated by 谷歌翻译
我们从组合搜索空间的演示中研究了学习良好搜索策略的问题。我们提出了回顾性模仿学习,在经过专家的初步培训后,通过学习自己的回顾性解决方案来提高自身。也就是说,当策略在出错和回溯后最终在搜索树中达到可行的解决方案时,它会通过删除回溯来建立一个改进的搜索跟踪到解​​决方案,然后用于进一步训练策略。我们的方法的一个关键特征是它可以迭代地扩展或转移到比最初的专家演示更大的问题尺寸,从而大大扩展其适用性,超越传统的模仿学习。 Weshowes我们的方法在两个任务上的有效性:合成mazesolving和基于整数程序的风险感知路径规划。
translated by 谷歌翻译
关于人类语言和动物声乐序列(歌曲)之间的差异的普遍信念是它们属于不同类别的计算复杂性,动物歌曲属于常规语言,而人类语言是不规则的。然而,这一论点缺乏经验证据,因为对动物歌曲的超常规分析尚未得到充分研究。本文的目的是使用长臂猿数据作为案例研究,对动物歌曲进行超常规分析,并证明超常规分析可以有效地与非人类数据一起使用。一个关键的发现是超级分析不会增加解释力,而是提供紧凑分析。例如,允许不规则性的语法规则较少。这种模式类似于先前对人类语言的计算分析,因此,无法拒绝人类语言和动物歌曲由相同类型的语法系统管理的零假设。
translated by 谷歌翻译
尽管深度学习取得了巨大成功,但我们对如何训练凸凸神经网络的理解仍然相当有限。大多数现有的理论工作只涉及具有一个隐藏层的神经网络,而且对于多层神经网络知之甚少。递归神经网络(RNN)是在自然语言处理应用中广泛使用的特殊多层网络。与前馈网络相比,它们特别难以分析,因为权重参数在整个时间范围内重复使用。我们可以说是对训练RNN的收敛速度的第一个理论上的理解。具体来说,当神经元的数量足够大时 - 意味着训练数据大小和时间范围内的多项式 - 以及随机初始化权重时,我们表明梯度下降和随机梯度下降都可以最小化线性收敛中的训练损失率,即$ \ varepsilon \ proptoe ^ { - \ Omega(T)} $。
translated by 谷歌翻译
情感分析,也称为意见挖掘,是分析人们的观点,情感,态度和情感的研究领域。由于歌曲和情绪彼此相互依赖,因此歌曲对情感分析很重要。基于所选择的歌曲,很容易找到听众的心情,将来它可以用于推荐。歌词是数据集的源代码,其中包含有助于分析和分类从中生成的情感的单词。现在有一天,我们在歌曲中观察到很多句内和句内混合的代码混合,这些歌曲对观众产生了不同的影响。为了研究这种影响,我们创建了一个泰卢固语歌曲数据集,其中包含泰卢固语 - 英语代码混合和纯正的泰卢固语歌曲。在本文中,我们将基于其唤醒的歌曲分类为激动人心或非激动人心。我们开发了一种语言识别工具,并引入了由此获得的代码混合功能作为附加功能。具有这些附加功能的我们的系统比我们的数据集上的传统方法准确度高4-5%。
translated by 谷歌翻译
We introduce the Million Song Dataset Challenge: a large-scale, personalized music recommendation challenge, where the goal is to predict the songs that a user will listen to, given both the user's listening history and full information (including meta-data and content analysis) for all songs. We explain the taste profile data, our goals and design choices in creating the challenge, and present baseline results using simple, off-the-shelf recommendation algorithms.
translated by 谷歌翻译
We introduce the Million Song Dataset, a freely-available collection of audio features and metadata for a million contemporary popular music tracks. We describe its creation process, its content, and its possible uses. Attractive features of the Million Song Database include the range of existing resources to which it is linked, and the fact that it is the largest current research dataset in our field. As an illustration , we present year prediction as an example application, a task that has, until now, been difficult to study owing to the absence of a large set of suitable data. We show positive results on year prediction, and discuss more generally the future development of the dataset.
translated by 谷歌翻译