机器学习工作流程开发是一个反复试验的过程:开发人员通过测试小的修改来迭代工作流程,直到达到所需的准确性。不幸的是,现有的机器学习系统只关注模型训练 - 只占整个开发时间的一小部分 - 而忽略了解决迭代开发问题。我们建议使用Helix,amachine学习系统来优化执行情况 - 智能地缓存和重用,或者重新计算中间体。 Helix在其斯卡拉DSL中捕获了各种各样的应用程序需求,其简洁的语法定义了数据处理,模型规范和学习的统一过程。我们证明了重用问题可以被转换为Max-Flow问题,而缓存问题则是NP-Hard。我们为后者开发有效的轻量级启发式算法。 Empiricalevaluation显示Helix不仅能够在一个统一的工作流程中处理各种各样的用例,而且速度更快,在四个实际上提供比最先进系统(如DeepDive或KeystoneML)高达19倍的运行时间减少。世界在自然语言处理,计算机视觉,社会和自然科学中的应用。
translated by 谷歌翻译
数据应用程序开发人员和数据科学家花费大量时间迭代机器学习(ML)工作流程 - 通过修改数据中心处理,模型训练和后处理步骤 - 通过心房和错误来实现所需的模型性能。加速机器学习的现有工作侧重于加快工作流程的一次性执行,未能解决典型ML开发的增量和动态性质。我们提出了Helix,一种声明式机器学习系统,通过优化端到端和跨迭代的工作流执行来加速迭代开发。 Helix通过程序分析和先前结果的智能重用最小化了每次迭代的运行时间,这些结果是选择性物质化的 - 为了潜在的未来利益而牺牲物化成本 - 加速未来的迭代。此外,Helix还提供了可视化工作流程DAG的图形界面,并比较了可以实现迭代开发的版本。通过两个ML应用程序,分类和结构化预测,与会者将体验Helix编程接口的模糊性以及使用Helix进行迭代开发的速度和简易性。在我们的评估中,与最先进的机器学习工具相比,Helix在累计运行时间方面实现了数量级的降低。
translated by 谷歌翻译
学习图中节点的分布式表示是网络分析中具有广泛应用的关键原因。线性图嵌入方法通过优化正边缘和负边缘的可能性来学习这种表示,同时约束嵌入向量的维度。我们认为这些方法的泛化性能不是由于通常认为的维数约束,而是由于嵌入向量的小范数。提供理论和经验证据是为了支持这一论点:(a)我们证明,无论嵌入维数如何,这些方法的广义误差都可以通过限制向量的范数来限制; (b)我们证明了线性图嵌入方法的广义化性能与嵌入向量的范数有关,由于SGD的早期停止和消失的梯度,这种规范很小。我们进行了广泛的实验来验证分析,并展示了适当的规范正则化在实践中的重要性。
translated by 谷歌翻译
评估图像处理技术功效的传统指标无法理解现代图像处理方法的能力和局限性 - 特别是那些通过深度学习实现的方法。在工程解决方案中应用图像处理时,科学家或工程师需要使用clearmetrics来证明他们的设计决策。通过在图像处理之前和之后应用盲/无参考图像空间质量(BRISQUE),结构相似性(SSIM)指数得分和峰值信噪比(PSNR),我们可以以有意义的方式量化质量改进并确定给定方法的最低可恢复图像质量。
translated by 谷歌翻译
模块化子系统的组件正在投入使用,以便在交通,医疗保健和工业自动化等高风险,时间关键任务中执行传感,推理和决策。我们通过使用强化学习来指导组成系统的一组交互模块的配置,从而增加了整体计算系统效用的机会。在全系统范围内进行优化的挑战是一个组合问题。通过修改其配置来提高特定模块性能的本地尝试通常会导致系统性能的整体效用损失,因为下游模块的输入分布急剧变化。我们提出了metareasoning技术,它考虑了输入的丰富表示,监视整个管道的状态,并在运行中调整模块的配置,以最大化系统操作的效用。我们通过各种强化学习技术在现实世界和合成管道中显示出显着的改进。
translated by 谷歌翻译
在“安全运营中心”(SoC)工作的安全分析师在确保组织安全方面发挥着重要作用。他们对不断演变和新攻击的背景知识数量在检测攻击的能力方面存在显着差异。开源威胁智能源(如有关网络攻击的文本描述)可以以结构化方式存储在网络安全知识图中。网络安全知识图对于帮助安全分析师检测网络威胁至关重要,因为它以可以查询的语义三元组的形式存储大量网络威胁信息。语义三元组包含twocybersecurity实体,它们之间有关系。在这项工作中,我们提出了一个系统来创建基于网络安全文本的语义三元组,使用深度学习方法来提取可能的关系。我们使用通过我们的系统生成的语义三元组集来在网络安全知识图中断言。安全分析师可以从知识图中检索此数据,并使用此信息来形成有关网络攻击的决策。
translated by 谷歌翻译
我们提出了一种深度强化学习方法来优化静态编译器中计算图的执行成本。关键思想是将神经网络策略与遗传算法 - 偏差随机密钥遗传算法(BRKGA)相结合。在给定要优化的输入图的情况下,策略被训练以预测BRKGA中的采样突变和交叉的节点级概率分布。我们的方法“基于REINFORCE的遗传算法学习”(REGAL)使用该策略转移到新图表的能力,以显着提高遗传算法的解决方案质量,以获得相同的客观评估预算。作为一个具体的应用,我们通过联合优化设备布局和调度来显示TensorFlow图中最小化峰值记忆的结果。在以前看不见的图表上,REGAL的峰值内存平均比BRKGA低3.56%,优于我们比较的所有算法,并且比下一个最佳算法的改进大4.4倍。我们还对生产编译器团队的XLA图表性能基准进行了评估,并且比BRKGA平均降低了3.74%的峰值内存,再次超越了所有人。我们的方法和分析是通过收集372个独特的真实世界TensorFlow图表的数据集来实现的,这比以前的工作多了一个数量级。
translated by 谷歌翻译
我们介绍了KnowBias,这是一个用于检测政治偏见等文本内容的系统,如社交媒体帖子和新闻文章。在可扩展文本分类的空间中,常见的问题是域不匹配,其中易于访问的训练数据(即,推文)在格式上不对应于期望的测试域(即,更长形式的文章内容)。虽然诸如单词或句子嵌入之类的通用文本编码器可以用于traintarget不可知分类器,但是这种方案导致在长篇文章上表现不佳。我们的主要观点是,长篇文章是中性和政治性句子的混合,而推文则集中在意见上。我们提出了一个两步分类系统,首先在评估时自动从输入文本文档中过滤掉中性句子,然后将得到的文本输入到极性分类器中。我们使用各种测试套件评估我们的两个测试套件,包括一组推文和长篇文章,其中注释是众包的,以减少标签噪声,测量准确性和Spearman-rho等级相关性。在实践中,KnowBias在这些推文上实现了86%(rho = 0.65)的高精度,在长篇文章中实现了75%(rho = 0.69)。
translated by 谷歌翻译
Recommender systems that can learn from cross-session data to dynamically predict the next item a user will choose are crucial for online platforms. However, existing approaches often use out-of-the-box sequence models which are limited by speed and memory consumption, are often infeasible for production environments, and usually do not incorporate cross-session information, which is crucial for effective recommendations. Here we propose Hierarchical Temporal Convolutional Networks (HierTCN), a hierarchical deep learning architecture that makes dynamic recommendations based on users' sequential multi-session interactions with items. HierTCN is designed for web-scale systems with billions of items and hundreds of millions of users. It consists of two levels of models: The high-level model uses Recurrent Neural Networks (RNN) to aggregate users' evolving long-term interests across different sessions, while the low-level model is implemented with Temporal Convolutional Networks (TCN), utilizing both the long-term interests and the short-term interactions within sessions to predict the next interaction. We conduct extensive experiments on a public XING dataset and a large-scale Pinterest dataset that contains 6 million users with 1.6 billion interactions. We show that HierTCN is 2.5x faster than RNN-based models and uses 90% less data memory compared to TCN-based models. We further develop an effective data caching scheme and a queue-based mini-batch generator, enabling our model to be trained within 24 hours on a single GPU. Our model consistently outperforms state-of-the-art dynamic recommendation methods, with up to 18% improvement in recall and 10% in mean reciprocal rank.
translated by 谷歌翻译
程序性文本描述了实体及其在某些过程中的相互作用,以独特的微妙方式描述实体。首先,eachentity可能有一些可观察到的离散属性,例如它的状态或位置;对这些进行建模涉及强加全局结构和强制执行一致性。其次,实体可能具有不明确的属性,但可以通过神经网络有效地诱导和跟踪。在本文中,我们提出了一种结构化的神经结构,它反映了实体演化的这种双重性质。模型周期性地跟踪每个实体,在每个步骤更新其隐藏的连续表示以包含相关的状态信息。全局离散状态结构用神经CRF显式建模,改变实体的隐藏表示。该CRF可以随着时间的推移明确地捕获对实体状态的约束,例如,强制执行该实体状态在销毁之后不能移动到某个位置。我们评估了我们提出的模型对QA任务的性能,而不是ProPara数据集中的过程段落,并发现我们的模型实现了最先进的结果。
translated by 谷歌翻译