机器学习正在从艺术和科学转变为可供每个开发人员使用的技术。在不久的将来,每个平台上的每个应用程序都将包含训练有素的模型,以编码开发人员无法创作的基于数据的决策。这提出了一个重要的工程挑战,因为目前数据科学和建模在很大程度上与标准软件开发过程脱钩。这种分离使得在应用程序内部的机器学习能力不必要地变得困难,并且进一步阻碍了开发人员将MLin置于首位。在本文中,我们介绍了ML .NET,这是一个在过去十年中在Microsoft开发的框架,用于应对在大型软件应用程序中轻松发布机器学习模型的挑战。我们提出了它的架构,并阐明了形成它的应用程序需求。具体而言,我们引入了DataView,它是ML .NET的核心数据抽象,它可以有效地,一致地捕获完整的预测管道,并在训练和推理生命周期中进行。我们结束了论文,对ML .NET进行了令人惊讶的有利的性能研究,与更多的接受者相比,并讨论了一些经验教训。
translated by 谷歌翻译
真相发现是广泛的统计方法的通用名称,旨在根据来自嘈杂来源的多个答案提取正确的问题答案。例如,众包平台中的工作人员。在本文中,我们设计了由\ emph {proxyvoting}启发的简单真理发现方法,这些方法对那些答案接近其他工作者的工人给予更高的权重。我们证明,在标准统计假设下,基于代理的真实发现(\ PTD)允许我们估计每个工人的真实能力,工人是否面临问题,其答案是真实的,分类的,orrankings。然后,我们通过对合成和真实数据的广泛实证研究证明,PTD比未加权聚合要好得多,并且在所有上述领域中与其他真实发现方法竞争良好。
translated by 谷歌翻译
在本文中,我们研究了超参数假设下独立级联模型中鲁棒影响最大化的问题。在socialnetworks中,用户会影响并受到具有相似特征的个人的影响,因此他们与某些功能相关联。影响最大化的最新研究方向集中在图上的边缘概率不是任意的,而是作为用户特征和全局超参数的函数生成的情况。我们提出了amodel,其目标是最大化最坏情况下的影响因子数量,以获得该超参数的任何可能值。我们提供的理论结果表明,在我们的模型中,适当的鲁棒解是NP-hard和算法,实现了不正确的鲁棒优化。我们使用基于采样的技术和着名的乘法权重更新算法。此外,我们根据经验验证我们的方法,并证明它优于最先进的强大影响最大化技术。
translated by 谷歌翻译
对于出于隐私原因必须删除历史数据的机构而言,灾难性遗忘可能是一个重大问题。例如,医院可能无法永久保留患者数据。但仅靠近期数据训练的神经网络往往会忘记对旧数据的经验教训。我们提出了基于变分推理的不同的私人连续学习框架。我们使用旧数据集的差异私有生成模型估计当前模型的过去数据的可能性。
translated by 谷歌翻译
一些机器学习应用程序需要不断学习 - 数据集序列中的数据库,每个数据集用于训练,然后永久丢弃。从贝叶斯的角度来看,持续学习似乎是直截了当的:鉴于模型后验,人们只会将其作为下一个任务的先行者。然而,精确的后验评估对于许多模型来说是难以处理的,特别是对于贝叶斯神经网络(BNN)。相反,经常寻求后验近似。不幸的是,当使用后验相关时,先前关注的方法在评估中没有成功地设计为捕获现实的连续学习用例的属性。作为先前关注方法的替代方案,我们引入了一种新的近似贝叶斯方法,即持续学习损失。我们的损失不依赖于早期任务的后续,而是通过改变似然项来调整模型本身。我们称这些方法以可能性为重点。然后,我们将关注先验和可能性的方法合并为一个目标,将两个视图结合在一个单一的贝叶斯连续学习的统一框架下。
translated by 谷歌翻译
大规模有效的河流洪水预报受到众多因素的阻碍,最明显的是需要依靠当前方法中的人体校准,特定地点的有限数据量以及建立足够准确的大陆/全球水平模型的计算难度。机器学习(ML)在这种情况下非常有用:学习模型在复杂的高维场景中经常超越人类专家,而传递或多任务学习框架是利用本地信号来提高全局性能的有吸引力的解决方案。我们建议在这些优势的基础上,开发MLsystems,以便及时准确地预测河流洪水。
translated by 谷歌翻译
学习水文模型以进行大规模准确的河流洪水预测是一项非常重要的挑战。其中一个主要困难是需要真正进行现场河流流量测量,这种测量可能非常稀缺且不可靠,特别是在洪水每年造成最大损害的地区。因此,在这项工作中,我们解决了不同河流地区的河流流量估算问题。现有数据的核心特征(例如卫星测量)是我们很少有关于manylocations的测量,所有测量共享与水排放相同的物理学。在一个简单但功能强大的共同机制回归(CMR)模型中使用本地组件以及捕获全局放电机制的共享组件来捕获这种情况。由此产生的学习目标是非凸的,但我们通过利用跨站点的连接局部测量的能力,我们可以找到它的全局最优。特别是,使用可证明接近最佳精度的光谱初始化,我们可以使用标准下降方法找到最佳值。我们使用模拟证明了我们的方法对放电估计问题的有效性。
translated by 谷歌翻译
捕获图像的有趣组件是图像理解的一个关键方面。当说话者注释图像时,选择具有信息性的标签很大程度上取决于前瞻性听众的先验知识。通过分类和交流的认知理论,我们提出了一种新的无监督方法来模拟这种先验知识并量化描述的信息性。具体来说,我们计算标签的知识如何减少标签空间的不确定性,并利用它来对标签进行排序以描述图像。虽然完全估计问题是可行的,但我们描述了使用树结构图形模型来近似熵减少的有效算法。我们使用10K地面实况评级的新评估集评估我们在开放图像数据集上的方法,并发现它与人类评估者达到约65%的一致性,大部分优于其他无监督的基线方法。
translated by 谷歌翻译
广义零射击学习(GZSL)是学习分类器的问题,其中一些类具有样本,而其他类是以零射击学习方式(ZSL)从边缘信息(例如语义属性或文本描述)中学习的。 GZSL的一个主要挑战是始终如一地学习这两个不同的领域。在这里,我们描述了一种概率方法,将模型分解为三个模块化组件,然后将它们组合在一起。具体来说,我们的模型由三个分类器组成:一个“门控”模型,它轻柔地决定样本是来自“看见”类还是两个专家:一个ZSLexpert,以及一个看到类的专家模型。我们在这种方法中解决了两个主要的困难:如何在没有任何训练样本的情况下提供准确的门控概率估计;以及如何在观察其域外的样本时使用专家预测。我们方法的关键见解是在三个模型之间传递信息,以提高彼此的准确性,同时保持模块化结构。我们在三个标准GZSL基准数据集(AWA,CUB,SUN)上测试我们的方法,Domain-Aware GZSL(DAZL),并发现它在很大程度上优于最先进的GZSL模型。 DAZL也是第一款缩小差距并超越GZSL生成模型性能的模型,尽管它是一种轻量级模型,更容易训练和调整。
translated by 谷歌翻译
我们介绍了第一个完全无监督的可变形3D形状的对应学习方法。我们模型的关键是理解自然变形(例如姿势的变化)大致保留了表面的主题结构,产生了一个自然的标准,可以推动学习过程,使失真最小化预测。在此基础上,我们需要注释数据,并用纯几何标准代替。得到的学习模型是类不可知的,并且能够容忍训练阶段的任何类型的可变形几何数据。与现有的监督方法相比,这些方法专注于培训时间所见的课程,我们展示了更强的概括性以及适用于各种具有挑战性的设置。我们在广泛的对应基准测试中展示了我们的方法,在准确性,概括性和效率方面,我们的表现优于其他方法。
translated by 谷歌翻译