我们应对嵌入功能的挑战,以改善点击率预测过程。我们选择了三个模型:逻辑回归,分解机和深层分解机,因为我们的基准并提出了五个不同的功能嵌入模块:嵌入缩放,FM嵌入,嵌入编码,NN嵌入,嵌入和嵌入重新加权模块。嵌入模块是改善基线模型特征嵌入的一种方式,并以端到端方式与其余模型参数一起训练。每个模块分别添加到基线模型中,以获得新的增强模型。我们在用于基准点击率预测模型的公共数据集上测试了增强模型的预测性能。我们的结果表明,几个建议的嵌入模块为预测性能提供了重要的提高,而不会大幅度增加训练时间。
translated by 谷歌翻译
点击率(CTR)预测是许多应用程序的关键任务,因为它的准确性对用户体验和平台收入有直接影响。近年来,CTR预测已在学术界和工业中广泛研究,导致各种各样的CTR预测模型。不幸的是,仍然缺乏标准化的基准和CTR预测研究的统一评估协议。这导致现有研究中的不可重复或甚至不一致的实验结果,这在很大程度上限制了他们研究的实用价值和潜在影响。在这项工作中,我们的目标是对CTR预测进行开放基准测试,并以可重复的方式表现不同模型的严格比较。为此,我们运行{超过7,000多个实验,总共超过12,000 GPU小时,在多个数据集设置上重新评估24个现有型号}。令人惊讶的是,我们的实验表明,具有足够的超参数搜索和模型调整,许多深层模型的差异比预期较小。结果还表明,在CTR预测的建模上取得实际进展确实是一个非常具有挑战性的研究任务。我们相信,我们的基准工作不仅可以让研究人员可以方便地衡量新型模型的有效性,而且还使他们与艺术的国家相当相提并论。我们公开发布了我们工作的基准工具,评估协议和实验环境,以促进该领域的可重复研究。
translated by 谷歌翻译
点击率预测是商业推荐系统中的核心任务之一。它旨在预测用户点击给定用户和项目特征的特定项目的概率。随着特征相互作用引入非线性,它们被广泛采用以提高CTR预测模型的性能。因此,有效的建模特征互动在研究和工业领域引起了很多关注。目前的方法通常可以分为三类:(1)NA \“IVE方法,它不会模拟特征交互,只使用原始特征;(2)记忆方法,通过显式将其视为新功能而记住功能交互。分配可培训嵌入式;(3)分解方法,学习原始特征的潜在矢量和通过分解功能的隐式模型相互作用。研究表明,由于不同特征相互作用的独特特征,这些方法之一的建模特征交互是次优。为了解决这个问题,我们首先提出一个称为OptInter的一般框架,该框架可以找到每个功能交互的最合适的建模方法。可以将不同的最先进的深度CTR模型视为optinter的实例。实现功能Optinter,我们还介绍了一种自动搜索最佳建模方法的学习算法。W e在四个大型数据集中进行广泛的实验。我们的实验表明,Optinter可提高最佳的最先进的基线深度CTR模型,高达2.21%。与回忆的方法相比,这也优于基线,我们减少了高达91%的参数。此外,我们进行了几项消融研究,以研究Optinter不同组分的影响。最后,我们提供关于替代替代品结果的可解释讨论。
translated by 谷歌翻译
Learning feature interactions is the key to success for the large-scale CTR prediction and recommendation. In practice, handcrafted feature engineering usually requires exhaustive searching. In order to reduce the high cost of human efforts in feature engineering, researchers propose several deep neural networks (DNN)-based approaches to learn the feature interactions in an end-to-end fashion. However, existing methods either do not learn both vector-wise interactions and bit-wise interactions simultaneously, or fail to combine them in a controllable manner. In this paper, we propose a new model, xDeepInt, based on a novel network architecture called polynomial interaction network (PIN) which learns higher-order vector-wise interactions recursively. By integrating subspace-crossing mechanism, we enable xDeepInt to balance the mixture of vector-wise and bit-wise feature interactions at a bounded order. Based on the network architecture, we customize a combined optimization strategy to conduct feature selection and interaction selection. We implement the proposed model and evaluate the model performance on three real-world datasets. Our experiment results demonstrate the efficacy and effectiveness of xDeepInt over state-of-the-art models. We open-source the TensorFlow implementation of xDeepInt: https://github.com/yanyachen/xDeepInt.
translated by 谷歌翻译
因子化机器(FM)是在处理高维稀疏数据时建模成对(二阶)特征交互的普遍存在方法。然而,一方面,FM无法捕获患有组合扩展的高阶特征相互作用,另一方面,考虑每对特征之间的相互作用可能引入噪声和降低预测精度。为了解决问题,我们通过在图形结构中自然表示特征来提出一种新颖的方法图形因子分子机器(GraphFM)。特别地,设计了一种新颖的机制来选择有益特征相互作用,并将它们装配为特征之间的边缘。然后我们所提出的模型将FM的交互功能集成到图形神经网络(GNN)的特征聚合策略中,可以通过堆叠图层模拟图形结构特征上的任意顺序特征交互。关于若干现实世界数据集的实验结果表明了我们提出的方法的合理性和有效性。
translated by 谷歌翻译
预测用户肯定响应(例如,购买和点击)概率是Web应用程序中的关键任务。为了识别原始数据的预测特征,最先进的极端深层分解机模型(XDEEPFM)引入了新的交互网络,以明确地利用矢量方面的特征交互。然而,由于交互网络中的每个隐藏层是特征映射的集合,因此它可以基本上作为不同特征映射的集合来观看。在这种情况下,仅使用单个目标来最小化预测损失可能导致过度拟合并产生相关的错误。在本文中,提出了一种集合分集增强的极端深度分解机模型(DEXDEEPFM),其设计了每个隐藏层中的集合多样性度量,并在客观函数中考虑集合多样性和预测精度。此外,还引入了注意机制,以区分集合多样性措施与不同的特征互动令的重要性。对三次公共实时数据集进行了广泛的实验,以展示所提出的模型的有效性。
translated by 谷歌翻译
在本文中,我们考虑点击率(CTR)预测问题。因子化机器及其变体考虑配对特征交互,但通常我们不会由于高时间复杂度而使用FM进行高阶功能交互。鉴于许多领域的深度神经网络(DNN)的成功,研究人员提出了几种基于DNN的模型来学习高阶功能交互。已广泛用于从功能嵌入到最终登录的功能嵌入的可靠映射,从而广泛使用多层。在本文中,我们的目标是更多地探索这些高阶功能的交互。然而,高阶特征互动值得更加关注和进一步发展。灵感来自计算机愿景中密集连接的卷积网络(DENSENET)的巨大成就,我们提出了一种新颖的模型,称为殷勤基于DENENET的分解机(ADNFM)。 ADNFM可以通过使用前馈神经网络的所有隐藏层作为隐式的高阶功能来提取更全面的深度功能,然后通过注意机制选择主导特征。此外,使用DNN的隐式方式的高阶交互比以明确的方式更具成本效益,例如在FM中。两个真实数据集的广泛实验表明,所提出的模型可以有效地提高CTR预测的性能。
translated by 谷歌翻译
在点击率(CTR)预测方案中,用户的顺序行为很好地利用来捕获最近文献中的用户兴趣。然而,尽管正在广泛研究,但这些顺序方法仍然存在三个限制。首先,现有方法主要利用对用户行为的注意,这并不总是适用于CTR预测,因为用户经常点击与任何历史行为无关的新产品。其次,在真实场景中,很久以前存在许多具有运营的用户,但最近的次数相对不活跃。因此,难以通过早期行为精确地捕获用户的当前偏好。第三,不同特征子空间中用户历史行为的多个表示主要被忽略。为了解决这些问题,我们提出了一种多互动关注网络(Mian),全面提取各种细粒度特征之间的潜在关系(例如,性别,年龄和用户档案)。具体而言,MIAN包含多交互式层(MIL),其集成了三个本地交互模块,通过顺序行为捕获用户偏好的多个表示,并同时利用细粒度的用户特定的以及上下文信息。此外,我们设计了一个全局交互模块(GIM)来学习高阶交互,平衡多个功能的不同影响。最后,脱机实验结果来自三个数据集,以及在大型推荐系统中的在线A / B测试,展示了我们提出的方法的有效性。
translated by 谷歌翻译
点击率(CTR)估计已成为许多现实世界应用中最基本的任务之一,并且已经提出了各种深层模型来解决此问题。一些研究证明了纤维是最好的性能模型之一,并且胜过Avazu数据集上的所有其他模型。,这大大降低了模型的大小,同时进一步提高了其性能。三个公共数据集的扩展实验表明,纤维纤维++有效地将纤维的非安装模型参数降低到三个数据集上的12倍至16倍,并且具有与DNN模型的可比型号,这是最小的一个模型,这是最小的一个模型另一方面,与最新的CTR方法相比,在深层CTR模型中,纤维网++可取得显着的性能改善。
translated by 谷歌翻译
作为在线广告和标记的关键组成部分,点击率(CTR)预测引起了行业和学术界领域的许多关注。最近,深度学习已成为CTR的主流方法论。尽管做出了可持续的努力,但现有的方法仍然构成了一些挑战。一方面,功能之间的高阶相互作用尚未探索。另一方面,高阶相互作用可能会忽略低阶字段的语义信息。在本文中,我们提出了一种名为Fint的新型预测方法,该方法采用了现场感知的交互层,该层捕获了高阶功能交互,同时保留了低阶现场信息。为了凭经验研究金融的有效性和鲁棒性,我们对三个现实数据库进行了广泛的实验:KDD2012,Criteo和Avazu。获得的结果表明,与现有方法相比,该五颗粒可以显着提高性能,而无需增加所需的计算量。此外,提出的方法通过A/B测试使大型在线视频应用程序的广告收入增加了约2.72 \%。为了更好地促进CTR领域的研究,我们发布了我们的代码以及参考实施,网址为:https://github.com/zhishan01/fint。
translated by 谷歌翻译
在这项工作中,我们审查并评估了一个具有公开可用和广泛使用的数据集的深度学习知识追踪(DLKT)模型,以及学习编程的新型学生数据集。评估的DLKT模型已重新实现,用于评估先前报告的结果的可重复性和可复制性。我们测试在与模型的主要架构上独立于模型的比较模型中找到的不同输入和输出层变化,以及在某些研究中隐含地和明确地使用的不同最大尝试计数选项。几个指标用于反映评估知识追踪模型的质量。评估的知识追踪模型包括Vanilla-DKT,两个长短期内存深度知识跟踪(LSTM-DKT)变体,两个动态键值存储器网络(DKVMN)变体,以及自我细致的知识跟踪(SAKT)。我们评估Logistic回归,贝叶斯知识跟踪(BKT)和简单的非学习模型作为基准。我们的结果表明,DLKT模型一般优于非DLKT模型,DLKT模型之间的相对差异是微妙的,并且在数据集之间经常变化。我们的研究结果还表明,通常的纯模型,例如平均预测,比更复杂的知识追踪模型更好地表现出更好的性能,尤其是在准确性方面。此外,我们的公制和封路数据分析显示,用于选择最佳模型的度量标准对模型的性能有明显的影响,并且该度量选择可以影响模型排名。我们还研究了输入和输出层变化的影响,过滤出长期尝试序列,以及随机性和硬件等非模型属性。最后,我们讨论模型性能可重量和相关问题。我们的模型实现,评估代码和数据作为本工作的一部分发布。
translated by 谷歌翻译
特征交互已被识别为机器学习中的一个重要问题,这对于点击率(CTR)预测任务也是非常重要的。近年来,深度神经网络(DNN)可以自动从原始稀疏功能中学习隐式非线性交互,因此已广泛用于工业CTR预测任务。然而,在DNN中学到的隐式特征交互不能完全保留原始和经验特征交互的完整表示容量(例如,笛卡尔产品)而不会损失。例如,简单地尝试学习特征A和特征B <A,B>作为新特征的显式笛卡尔产品表示可以胜过先前隐式功能交互模型,包括基于分解机(FM)的模型及其变体。在本文中,我们提出了一个共同行动网络(CAN),以近似于显式成对特征交互,而不会引入太多的附加参数。更具体地,给出特征A及其相关的特征B,通过学习两组参数来建模它们的特征交互:1)嵌入特征A和2)以表示特征B的多层Perceptron(MLP)。近似通过通过特征B的MLP网络传递特征A的嵌入可以获得特征交互。我们将这种成对特征交互作为特征合作,并且这种共动网单元可以提供拟合复合物的非常强大的容量功能交互。公共和工业数据集的实验结果表明,可以优于最先进的CTR模型和笛卡尔产品方法。此外,可以在阿里巴巴的显示广告系统中部署,获得12 \%的CTR和8 \%关于每个Mille(RPM)的收入,这是对业务的巨大改进。
translated by 谷歌翻译
高维计算(HDC)是用于数据表示和学习的范式,起源于计算神经科学。HDC将数据表示为高维,低精度向量,可用于学习或召回等各种信息处理任务。高维空间的映射是HDC中的一个基本问题,现有方法在输入数据本身是高维时会遇到可伸缩性问题。在这项工作中,我们探索了一个基于哈希的流媒体编码技术。我们正式表明,这些方法在学习应用程序的性能方面具有可比的保证,同时比现有替代方案更有效。我们在一个流行的高维分类问题上对这些结果进行了实验验证,并表明我们的方法很容易扩展到非常大的数据集。
translated by 谷歌翻译
保险公司经常使用的广义线性模型(GLM)的质量取决于相互作用变量的选择。搜索互动是耗时的,尤其是对于具有大量变量的数据集,这取决于精算师的专家判断,并且通常依赖于视觉性能指标。因此,我们提出了一种方法,可以自动化寻找相互作用的过程,这些过程应添加到GLM中以提高其预测能力。我们的方法依赖于神经网络和一种特定于模型的交互检测方法,该方法在计算上比传统使用的方法更快。在数值研究中,我们在不同的数据集上提供了方法的结果:开源数据,人工数据和专有数据。
translated by 谷歌翻译
由于其适应性和从稀疏数据中学习的能力,分解机(FMS)被广泛用于推荐系统。但是,对于稀疏数据中无处不在的非相互作用特征,现有的FMS只能通过其嵌入的内部产物估算与这些特征相对应的参数。不可否认,他们无法学习这些功能的直接相互作用,这限制了模型的表现力。为此,我们首先提出了受混合启发的MixFM,以生成辅助培训数据以增强FMS。与需要人工成本和专业知识的现有增强策略不同,以收集其他信息,例如位置和领域,这些额外的数据仅由原始的数据组合而没有任何专业知识支持。更重要的是,如果要混合的父样本具有非相互作用的特征,则MixFM将建立其直接相互作用。其次,考虑到MixFM可能会产生冗余甚至有害实例,我们进一步提出了由显着性引导混合措施(称为SMFM)提供动力的新型分解机。在自定义显着性的指导下,SMFM可以生成更具翔实的邻居数据。通过理论分析,我们证明所提出的方法最大程度地减少了概括误差的上限,这对增强FMS具有有益的效果。值得注意的是,我们给出了FM的第一个概括结构,这意味着概括需要更多的数据,并且在足够的表示能力下需要较小的嵌入大小。最后,在五个数据集上进行的大量实验证实,我们的方法优于基准。此外,结果表明,“中毒”混合数据同样对FM变体有益。
translated by 谷歌翻译
异构表格数据是最常用的数据形式,对于众多关键和计算要求的应用程序至关重要。在同质数据集上,深度神经网络反复显示出卓越的性能,因此被广泛采用。但是,它们适应了推理或数据生成任务的表格数据仍然具有挑战性。为了促进该领域的进一步进展,这项工作概述了表格数据的最新深度学习方法。我们将这些方法分为三组:数据转换,专业体系结构和正则化模型。对于每个小组,我们的工作提供了主要方法的全面概述。此外,我们讨论了生成表格数据的深度学习方法,并且还提供了有关解释对表格数据的深层模型的策略的概述。因此,我们的第一个贡献是解决上述领域中的主要研究流和现有方法,同时强调相关的挑战和开放研究问题。我们的第二个贡献是在传统的机器学习方法中提供经验比较,并在五个流行的现实世界中的十种深度学习方法中,具有不同规模和不同的学习目标的经验比较。我们已将作为竞争性基准公开提供的结果表明,基于梯度增强的树合奏的算法仍然大多在监督学习任务上超过了深度学习模型,这表明对表格数据的竞争性深度学习模型的研究进度停滞不前。据我们所知,这是对表格数据深度学习方法的第一个深入概述。因此,这项工作可以成为有价值的起点,以指导对使用表格数据深入学习感兴趣的研究人员和从业人员。
translated by 谷歌翻译
对于工业规模的广告系统,对广告点击率(CTR)的预测是一个核心问题。广告点击构成了一类重要的用户参与,通常用作广告对用户有用的主要信号。此外,在每次点击收费的广告系统中,单击费用期望值直接输入价值估计。因此,对于大多数互联网广告公司而言,CTR模型开发是一项重大投资。此类问题的工程需要许多适合在线学习的机器学习(ML)技术,这些技术远远超出了传统的准确性改进,尤其是有关效率,可重复性,校准,信用归因。我们介绍了Google搜索广告CTR模型中部署的实用技术的案例研究。本文提供了一项行业案例研究,该研究强调了当前的ML研究的重要领域,并说明了如何评估有影响力的新ML方法并在大型工业环境中有用。
translated by 谷歌翻译
冠状质量弹出(CME)是最地理化的空间天气现象,与大型地磁风暴有关,有可能引起电信,卫星网络中断,电网损失和故障的干扰。因此,考虑到这些风暴对人类活动的潜在影响,对CME的地理效果的准确预测至关重要。这项工作着重于在接近太阳CME的白光冠状动脉数据集中训练的不同机器学习方法,以估计这种新爆发的弹出是否有可能诱导地磁活动。我们使用逻辑回归,k-nearest邻居,支持向量机,向前的人工神经网络以及整体模型开发了二进制分类模型。目前,我们限制了我们的预测专门使用太阳能发作参数,以确保延长警告时间。我们讨论了这项任务的主要挑战,即我们数据集中的地理填充和无效事件的数量以及它们的众多相似之处以及可用变量数量有限的极端失衡。我们表明,即使在这种情况下,这些模型也可以达到足够的命中率。
translated by 谷歌翻译
在2015年和2019年之间,地平线的成员2020年资助的创新培训网络名为“Amva4newphysics”,研究了高能量物理问题的先进多变量分析方法和统计学习工具的定制和应用,并开发了完全新的。其中许多方法已成功地用于提高Cern大型Hadron撞机的地图集和CMS实验所执行的数据分析的敏感性;其他几个人,仍然在测试阶段,承诺进一步提高基本物理参数测量的精确度以及新现象的搜索范围。在本文中,在研究和开发的那些中,最相关的新工具以及对其性能的评估。
translated by 谷歌翻译
即使机器学习算法已经在数据科学中发挥了重要作用,但许多当前方法对输入数据提出了不现实的假设。由于不兼容的数据格式,或数据集中的异质,分层或完全缺少的数据片段,因此很难应用此类方法。作为解决方案,我们提出了一个用于样本表示,模型定义和培训的多功能,统一的框架,称为“ Hmill”。我们深入审查框架构建和扩展的机器学习的多个范围范式。从理论上讲,为HMILL的关键组件的设计合理,我们将通用近似定理的扩展显示到框架中实现的模型所实现的所有功能的集合。本文还包含有关我们实施中技术和绩效改进的详细讨论,该讨论将在MIT许可下发布供下载。该框架的主要资产是其灵活性,它可以通过相同的工具对不同的现实世界数据源进行建模。除了单独观察到每个对象的一组属性的标准设置外,我们解释了如何在框架中实现表示整个对象系统的图表中的消息推断。为了支持我们的主张,我们使用框架解决了网络安全域的三个不同问题。第一种用例涉及来自原始网络观察结果的IoT设备识别。在第二个问题中,我们研究了如何使用以有向图表示的操作系统的快照可以对恶意二进制文件进行分类。最后提供的示例是通过网络中实体之间建模域黑名单扩展的任务。在所有三个问题中,基于建议的框架的解决方案可实现与专业方法相当的性能。
translated by 谷歌翻译