Curated knowledge graphs encode domain expertise and improve the performance of recommendation, segmentation, ad targeting, and other machine learning systems in several domains. As new concepts emerge in a domain, knowledge graphs must be expanded to preserve machine learning performance. Manually expanding knowledge graphs, however, is infeasible at scale. In this work, we propose a method for knowledge graph expansion with humans-in-the-loop. Concretely, given a knowledge graph, our method predicts the "parents" of new concepts to be added to this graph for further verification by human experts. We show that our method is both accurate and provably "human-friendly". Specifically, we prove that our method predicts parents that are "near" concepts' true parents in the knowledge graph, even when the predictions are incorrect. We then show, with a controlled experiment, that satisfying this property increases both the speed and the accuracy of the human-algorithm collaboration. We further evaluate our method on a knowledge graph from Pinterest and show that it outperforms competing methods on both accuracy and human-friendliness. Upon deployment in production at Pinterest, our method reduced the time needed for knowledge graph expansion by ~400% (compared to manual expansion), and contributed to a subsequent increase in ad revenue of 20%.
translated by 谷歌翻译
We study the problem of finding elements in the intersection of an arbitrary conic variety in $\mathbb{F}^n$ with a given linear subspace (where $\mathbb{F}$ can be the real or complex field). This problem captures a rich family of algorithmic problems under different choices of the variety. The special case of the variety consisting of rank-1 matrices already has strong connections to central problems in different areas like quantum information theory and tensor decompositions. This problem is known to be NP-hard in the worst-case, even for the variety of rank-1 matrices. Surprisingly, despite these hardness results we give efficient algorithms that solve this problem for "typical" subspaces. Here, the subspace $U \subseteq \mathbb{F}^n$ is chosen generically of a certain dimension, potentially with some generic elements of the variety contained in it. Our main algorithmic result is a polynomial time algorithm that recovers all the elements of $U$ that lie in the variety, under some mild non-degeneracy assumptions on the variety. As corollaries, we obtain the following results: $\bullet$ Uniqueness results and polynomial time algorithms for generic instances of a broad class of low-rank decomposition problems that go beyond tensor decompositions. Here, we recover a decomposition of the form $\sum_{i=1}^R v_i \otimes w_i$, where the $v_i$ are elements of the given variety $X$. This implies new algorithmic results even in the special case of tensor decompositions. $\bullet$ Polynomial time algorithms for several entangled subspaces problems in quantum entanglement, including determining $r$-entanglement, complete entanglement, and genuine entanglement of a subspace. While all of these problems are NP-hard in the worst case, our algorithm solves them in polynomial time for generic subspaces of dimension up to a constant multiple of the maximum possible.
translated by 谷歌翻译
我们考虑了由法院诉讼中的电子发现诸如诸如e-Dissoververy的申请激励的分类的多方协议。我们确定一项协议,该协议保证请求方收到所有响应文件,而发送方揭示了证明已收到所有响应文件所必需的无响应文件的最低金额。该协议可以嵌入到机器学习框架中,该框架可以实现积分的自动标签,并且由此产生的多方协议等同于标准的一方分类问题(如果一方分类问题满足自然的独立性,替代物业)。我们的正式保证专注于有正确分配文档的线性分类器的情况。
translated by 谷歌翻译
捕获和归因于代码变更引起的生产中的性能回归很难;事先预测它们,甚至更努力。关于自动学习预测软件中性能回归的入门,本文介绍了我们在Meta研究和部署基于ML的回归预测管道时获得的经验。在本文中,我们报告了一项比较研究,其复杂性增加了四个ML模型,从(1)代码 - opaque,(2)单词袋,(3)基于转换的变压器到(4)基于定制变压器的模型,创造的超大通信器。我们的调查表明,性能预测问题的固有难度,其特征是良性对回归变化的不平衡。我们的结果还质疑了基于变压器的架构在性能预测中的一般适用性:基于基础的代码伯特方法的性能令人惊讶。我们高度定制的超大号架构最初实现了预测性能,这与简单的单词模型相当,并且仅在下游用例中优于它们。超级人员将其转移到应用程序的这种能力很少有学习示例提供了在Meta实践中部署它的机会:它可以作为预滤波器来解决不太可能引入回归的更改,从而缩小更改空间的变化空间搜索回归高达43%,比随机基线提高45倍。为了进一步洞悉超大号公园,我们通过一系列计算反事实解释进行了探索。这些突出显示了代码的哪些部分更改模型认为重要的,从而验证了学习的黑框模型。
translated by 谷歌翻译
我们为梯度下降提供了收敛分析,以解决高斯分布中不可知的问题。与研究零偏差的设置的先前工作不同,我们考虑了当relu函数的偏见非零时更具挑战性的情况。我们的主要结果确定,从随机初始化开始,从多项式迭代梯度下降输出中,具有很高的概率,与最佳relu函数的误差相比,可以实现竞争错误保证。我们还提供有限的样本保证,这些技术将其推广到高斯以外的更广泛的边际分布。
translated by 谷歌翻译
随着技术的发展,信用卡欺诈的数量一直在增长,人们可以利用它。因此,实施一种健壮有效的方法来检测此类欺诈非常重要。机器学习算法适合这些任务,因为它们试图最大程度地提高预测的准确性,因此可以依靠。但是,在机器学习模型中存在一个即将到来的缺陷,由于样本集中的类别分布之间存在不平衡的原因,因此可能表现不佳。因此,在许多相关任务中,数据集有少数观察到的欺诈案件(有时发现了1%的正欺诈实例)。因此,这种不平衡的存在可能会通过将所有标签视为多数级别来影响任何学习模型的行为,因此在模型做出的预测中不允许概括概括。我们培训了生成对抗网络(GAN),以产生大量令人信服的(可靠)的少数族裔典范,可用于缓解培训集中的类失衡,从而更有效地学习数据。
translated by 谷歌翻译
血压(BP)是心血管疾病和中风最有影响力的生物标志物之一;因此,需要定期监测以诊断和预防医疗并发症的任何出现。目前携带的携带BP监测的无齿状方法,虽然是非侵入性和不引人注目的,涉及围绕指尖光肌谱(PPG)信号的显式特征工程。为了规避这一点,我们提出了一种端到端的深度学习解决方案,BP-Net,它使用PPG波形来估计通过中间连续动脉BP来估计收缩压BP(SBP),平均压力(MAP)和舒张压BP(DBP) (ABP)波形。根据英国高血压协会(BHS)标准的条款,BP-Net为SBP估计实现了DBP和地图估计和B级的A级。 BP-Net还满足了医疗仪器(AAMI)标准的推进和地图估计,分别实现了5.16mmHg和2.89mmHg的平均误差(MAE),分别用于SBP和DBP。此外,我们通过在Raspberry PI 4设备上部署BP-Net来建立我们的方法的无处不在的潜力,并为我们的模型实现4.25毫秒的推理时间来将PPG波形转换为ABP波形。
translated by 谷歌翻译
心房颤动(AF)是全球最普遍的心律失常,其中2%的人口受影响。它与增加的中风,心力衰竭和其他心脏相关并发症的风险有关。监测风险的个体和检测无症状AF可能导致相当大的公共卫生益处,因为无误的人可以采取预防措施的生活方式改变。随着可穿戴设备的增加,个性化的医疗保健将越来越多。这些个性化医疗保健解决方案需要准确地分类生物信号,同时计算廉价。通过推断设备,我们避免基于云和网络连接依赖性等基于云的系统固有的问题。我们提出了一种有效的管道,用于实时心房颤动检测,精度高精度,可在超边缘设备中部署。本研究中采用的特征工程旨在优化所拟议的管道中使用的资源有效的分类器,该分类器能够以每单纯折衷的内存足迹以10 ^ 5倍型号优惠。分类准确性2%。我们还获得了更高的准确性约为6%,同时消耗403 $ \ times $较小的内存,与以前的最先进的(SOA)嵌入式实现相比为5.2 $ \ times $。
translated by 谷歌翻译
假新闻是制作作为真实的信息,有意欺骗读者。最近,依靠社交媒体的人民币为新闻消费的人数显着增加。由于这种快速增加,错误信息的不利影响会影响更广泛的受众。由于人们对这种欺骗性的假新闻的脆弱性增加,在早期阶段检测错误信息的可靠技术是必要的。因此,作者提出了一种基于图形的基于图形的框架社会图,其具有多头关注和发布者信息和新闻统计网络(SOMPS-Net),包括两个组件 - 社交交互图(SIG)和发布者和新闻统计信息(PNS)。假设模型在HealthStory DataSet上进行了实验,并在包括癌症,阿尔茨海默,妇产科和营养等各种医疗主题上推广。 Somps-Net明显优于其他基于现实的图表的模型,在HealthStory上实验17.1%。此外,早期检测的实验表明,Somps-Net预测的假新闻文章在其广播仅需8小时内为79%确定。因此,这项工作的贡献奠定了在早期阶段捕获多种医疗主题的假健康新闻的基础。
translated by 谷歌翻译
机器学习(ML)模型在许多软件工程任务中起着越来越普遍的作用。然而,由于大多数模型现在由不透明的深度神经网络供电,因此开发人员可能很难理解为什么该模型的结论以及如何对模型的预测作用。这一问题的激励,本文探讨了源代码模型的反事实解释。这种反事实解释构成了模型“改变其思想”的源代码的最小变化。我们将反事实解释生成整合到真实世界中的源代码的模型。我们描述了影响能够找到现实和合理的反事工艺解释的能力,以及对模型用户的这种解释的有用性。在一系列实验中,我们研究了我们对三种不同模型的方法的功效,每个模型都是基于在源代码上运行的伯特式架构。
translated by 谷歌翻译