机器学习工作流程开发是一个反复试验的过程:开发人员通过测试小的修改来迭代工作流程,直到达到所需的准确性。不幸的是,现有的机器学习系统只关注模型训练 - 只占整个开发时间的一小部分 - 而忽略了解决迭代开发问题。我们建议使用Helix,amachine学习系统来优化执行情况 - 智能地缓存和重用,或者重新计算中间体。 Helix在其斯卡拉DSL中捕获了各种各样的应用程序需求,其简洁的语法定义了数据处理,模型规范和学习的统一过程。我们证明了重用问题可以被转换为Max-Flow问题,而缓存问题则是NP-Hard。我们为后者开发有效的轻量级启发式算法。 Empiricalevaluation显示Helix不仅能够在一个统一的工作流程中处理各种各样的用例,而且速度更快,在四个实际上提供比最先进系统(如DeepDive或KeystoneML)高达19倍的运行时间减少。世界在自然语言处理,计算机视觉,社会和自然科学中的应用。
translated by 谷歌翻译
数据应用程序开发人员和数据科学家花费大量时间迭代机器学习(ML)工作流程 - 通过修改数据中心处理,模型训练和后处理步骤 - 通过心房和错误来实现所需的模型性能。加速机器学习的现有工作侧重于加快工作流程的一次性执行,未能解决典型ML开发的增量和动态性质。我们提出了Helix,一种声明式机器学习系统,通过优化端到端和跨迭代的工作流执行来加速迭代开发。 Helix通过程序分析和先前结果的智能重用最小化了每次迭代的运行时间,这些结果是选择性物质化的 - 为了潜在的未来利益而牺牲物化成本 - 加速未来的迭代。此外,Helix还提供了可视化工作流程DAG的图形界面,并比较了可以实现迭代开发的版本。通过两个ML应用程序,分类和结构化预测,与会者将体验Helix编程接口的模糊性以及使用Helix进行迭代开发的速度和简易性。在我们的评估中,与最先进的机器学习工具相比,Helix在累计运行时间方面实现了数量级的降低。
translated by 谷歌翻译
学习图中节点的分布式表示是网络分析中具有广泛应用的关键原因。线性图嵌入方法通过优化正边缘和负边缘的可能性来学习这种表示,同时约束嵌入向量的维度。我们认为这些方法的泛化性能不是由于通常认为的维数约束,而是由于嵌入向量的小范数。提供理论和经验证据是为了支持这一论点:(a)我们证明,无论嵌入维数如何,这些方法的广义误差都可以通过限制向量的范数来限制; (b)我们证明了线性图嵌入方法的广义化性能与嵌入向量的范数有关,由于SGD的早期停止和消失的梯度,这种规范很小。我们进行了广泛的实验来验证分析,并展示了适当的规范正则化在实践中的重要性。
translated by 谷歌翻译
Recommender systems that can learn from cross-session data to dynamically predict the next item a user will choose are crucial for online platforms. However, existing approaches often use out-of-the-box sequence models which are limited by speed and memory consumption, are often infeasible for production environments, and usually do not incorporate cross-session information, which is crucial for effective recommendations. Here we propose Hierarchical Temporal Convolutional Networks (HierTCN), a hierarchical deep learning architecture that makes dynamic recommendations based on users' sequential multi-session interactions with items. HierTCN is designed for web-scale systems with billions of items and hundreds of millions of users. It consists of two levels of models: The high-level model uses Recurrent Neural Networks (RNN) to aggregate users' evolving long-term interests across different sessions, while the low-level model is implemented with Temporal Convolutional Networks (TCN), utilizing both the long-term interests and the short-term interactions within sessions to predict the next interaction. We conduct extensive experiments on a public XING dataset and a large-scale Pinterest dataset that contains 6 million users with 1.6 billion interactions. We show that HierTCN is 2.5x faster than RNN-based models and uses 90% less data memory compared to TCN-based models. We further develop an effective data caching scheme and a queue-based mini-batch generator, enabling our model to be trained within 24 hours on a single GPU. Our model consistently outperforms state-of-the-art dynamic recommendation methods, with up to 18% improvement in recall and 10% in mean reciprocal rank.
translated by 谷歌翻译
程序性文本描述了实体及其在某些过程中的相互作用,以独特的微妙方式描述实体。首先,eachentity可能有一些可观察到的离散属性,例如它的状态或位置;对这些进行建模涉及强加全局结构和强制执行一致性。其次,实体可能具有不明确的属性,但可以通过神经网络有效地诱导和跟踪。在本文中,我们提出了一种结构化的神经结构,它反映了实体演化的这种双重性质。模型周期性地跟踪每个实体,在每个步骤更新其隐藏的连续表示以包含相关的状态信息。全局离散状态结构用神经CRF显式建模,改变实体的隐藏表示。该CRF可以随着时间的推移明确地捕获对实体状态的约束,例如,强制执行该实体状态在销毁之后不能移动到某个位置。我们评估了我们提出的模型对QA任务的性能,而不是ProPara数据集中的过程段落,并发现我们的模型实现了最先进的结果。
translated by 谷歌翻译
我们考虑最近提出的语境马尔可夫决策过程(CMDP)的强化学习(RL)框架,其中代理具有与可能无限集合中选择的表格环境的一系列情形交互。这些环境的参数取决于在每集开始时代理可用的上下文向量。在本文中,我们在使用广义线性模型(GLM)从上下文获得MDP参数的设置中提出了一种无后悔的在线RL算法。拟议算法\ texttt {GL-ORL}依赖于有效的在线更新,并且还具有内存效率。我们对算法的分析在logit linkcase中给出了新的结果,并改善了线性情况下的先前界限。我们的算法使用高效的Online Newton Step更新来构建置信集。此外,还有强凸凸链接功能,我们还展示了从anyonline no-regret算法到置信集的一般转换。
translated by 谷歌翻译
流行病情报涉及使用信息(例如医院记录)和非正式来源(例如网络上的用户生成的文本)检测疾病爆发。在本次调查中,我们讨论了使用文本数据集的流行病学智能方法,将其称为“基于文本的智能智能”。我们从两大类来看过去的工作:健康提及分类(从大量选择相关文本)和健康事件检测(从相关文本集合中预测流行事件)。我们讨论的焦点是这两个类别的基本计算语言技术。该调查还提供了关于流行病情报的注释技术,资源和评估策略的最新技术细节。
translated by 谷歌翻译
神经网络在软件中变得越来越普遍,因此能够验证它们的行为是很重要的。因为验证神经网络的正确性极具挑战性,所以通常关注这些系统的其他属性的验证。特别是一个重要的特性是鲁棒性。然而,大多数现有的鲁棒性定义都集中在输入是对偶的最坏情况。这种鲁棒性的概念太强大,并且不太可能被实际的神经网络所满足和可验证。观察神经网络的实际输入是从非对抗性概率分布中得出的,我们提出了一种新的鲁棒性概念:概率鲁棒性,它要求神经网络具有至少$(1 - \ epsilon)$概率的鲁棒性。输入分布。这种概率方法是实用的,并提供了估计神经网络鲁棒性的原则方法。我们还提出了一种基于抽象解释和重要性抽样的算法,用于检查神经网络是否具有概率稳健性。我们的算法使用抽象解释来近似神经网络的行为,并计算违反鲁棒性的输入区域的近似。然后,它使用重要采样来抵消这种过度近似的影响,并计算出神经网络违反鲁棒性的概率的准确估计。
translated by 谷歌翻译
当与功能近似器结合时,非政策时间差异(TD)学习方法遭受分歧的风险,这种现象称为致命的三元组。人们早就注意到,某些特征表示比其他特征更好。在本文中,我们研究了特征规范化如何防止分歧和改进训练。我们称之为CrossNorm的方法可以被视为批量标准化的一种新变体,它将多模式分布的数据作为中心,这些数据发生在非策略TDupdates中。我们凭经验证明CrossNorm可以提高学习过程的稳定性。我们将CrossNorm应用于DDPG和TD3,并在一系列MuJoCo基准任务中实现稳定的训练和改进的性能。此外,我们首次能够在不使用目标网络的情况下稳定地训练DDPG。
translated by 谷歌翻译
确保分类器在敏感特征(例如,种族或性别)方面是非歧视性的或公平的是一个热门话题。在这个任务中取得进展需要确定公平的定义,在过去的几年里,这方面已经提出了几个建议。然而,其中一些假定二元敏感特征(从而排除分类或实际值敏感组),或导致非凸目标(因此反过来影响优化环境)。在本文中,我们提出了一个新的公平定义,它推广了一些现有的提议,同时提出了一般敏感特征并导致了一个凸面目标。关键思想是强制执行由敏感特征引起的每个子组的预期损失(或风险)。相称。我们展示了这与数学金融风险度量的丰富文献有何关联。作为特殊情况,这导致基于最小化风险条件值(CVaR)的新的凸公平感知目标。
translated by 谷歌翻译