机器学习技术,与数据结构合并,导致学习静态索引,创新和强大的工具,用于加速二进制搜索,使用其他空间相对于被搜索到的表。这种空间致力于ML模型。虽然在他们的阶段,但由于分类表搜索程序的普遍性,它们在方法上和实际上很重要。在现代应用中,模型空间是一个关键因素,实际上,关于该领域的一个重大开放问题是评估一个人在多大程度上享受学习索引的速度,同时使用常量或几乎恒定的空间模型。我们通过(a)在此处介绍两个新模型,即表示为{\ bf ko-bfs}和{\ bf sy-rmi}; (b)通过系统地探索现有模型的层次结构的时间空间权衡,即{\ bf sosd}中的{\ bf sosd}中的时间表。我们记录了一种新颖且复杂的时空折衷图片,这对用户来说非常丰富。我们通过实验表明{\ bf ko-bfs}可以加快恒定空间中的插值搜索和统一二进制搜索。对于其他版本的二进制搜索,我们的第二种模型以及双标准{\ BF PGM}索引可以实现速度,其模型空间比表所拍摄的0.05 \%$的型号。有竞争力在时间空间与现有建议的权衡方面。 {\ bf sy-rmi}和bi-criteria {\ bf pgm}在内部内存层次结构的各个级别中相互作用。最后,我们的调查结果对设计者感兴趣,因为它们强调了对学习指标中的时空关系的进一步研究的需要。
translated by 谷歌翻译
搜索排序的数据({\ BF SOSD},简而言之)是一种高度工程化的软件平台,用于基准获得学习索引,后者是通过将机器学习技术与经典组合在一起的方式搜索分类表的新颖且相当有效的提议算法。在这样的平台和相关的基准测试实验中,在自然和直观的选择之后,通过标准(教科书)二进制搜索过程执行最终搜索阶段。然而,最近的研究,不使用机器学习预测,表明统一的二进制搜索,简化以避免主循环中的\ vir {分支},在要搜索的表格中的标准对应物时,性能优异地是相对较小的,例如,在L1或L2缓存中拟合。 k-ary搜索的类似结果即使在大桌子上也是如此。人们期望学习索引中的类似行为。通过一组广泛的实验,与现有技术相干,我们表明,对于学习的索引,并且就{\ bf sosd}软件而言,使用标准例程(二进制或k-ary搜索)在所有内部存储器级别上优​​于均匀的一个。这一事实提供了到目前为止所制作的自然选择的定量理由。我们的实验还表明,统一的二进制和k-ary搜索可能是有利的,以便在学习索引中节省空间,同时授予良好的性能。我们的研究结果是对这种新颖和快速增长的区域的方法有关,以及有兴趣在应用领域中使用学习索引的从业者,例如数据库和搜索引擎。
translated by 谷歌翻译
Learned Bloom Filters, i.e., models induced from data via machine learning techniques and solving the approximate set membership problem, have recently been introduced with the aim of enhancing the performance of standard Bloom Filters, with special focus on space occupancy. Unlike in the classical case, the "complexity" of the data used to build the filter might heavily impact on its performance. Therefore, here we propose the first in-depth analysis, to the best of our knowledge, for the performance assessment of a given Learned Bloom Filter, in conjunction with a given classifier, on a dataset of a given classification complexity. Indeed, we propose a novel methodology, supported by software, for designing, analyzing and implementing Learned Bloom Filters in function of specific constraints on their multi-criteria nature (that is, constraints involving space efficiency, false positive rate, and reject time). Our experiments show that the proposed methodology and the supporting software are valid and useful: we find out that only two classifiers have desirable properties in relation to problems with different data complexity, and, interestingly, none of them has been considered so far in the literature. We also experimentally show that the Sandwiched variant of Learned Bloom filters is the most robust to data complexity and classifier performance variability, as well as those usually having smaller reject times. The software can be readily used to test new Learned Bloom Filter proposals, which can be compared with the best ones identified here.
translated by 谷歌翻译
索引是支持大型数据库中有效查询处理的有效方法。最近,已积极探索了替代或补充传统索引结构的学习指数的概念,以降低存储和搜索成本。但是,在高维度空间中准确有效的相似性查询处理仍然是一个开放的挑战。在本文中,我们提出了一种称为LIMS的新型索引方法,该方法使用数据群集,基于枢轴的数据转换技术和学习的索引来支持度量空间中的有效相似性查询处理。在LIM中,将基础数据分配到簇中,使每个群集都遵循相对均匀的数据分布。数据重新分布是通过利用每个集群的少量枢轴来实现的。类似的数据被映射到紧凑的区域,而映射的值是完全顺序的。开发机器学习模型是为了近似于磁盘上每个数据记录的位置。有效的算法设计用于基于LIMS的处理范围查询和最近的邻居查询,以及具有动态更新的索引维护。与传统索引和最先进的学习索引相比,对现实世界和合成数据集的广泛实验证明了LIM的优势。
translated by 谷歌翻译
决策树学习是机器学习中广泛使用的方法,在需要简洁明了的模型的应用中受到青睐。传统上,启发式方法用于快速生产具有相当高准确性的模型。然而,一个普遍的批评是,从精度和大小方面,所产生的树可能不一定是数据的最佳表示。近年来,这激发了最佳分类树算法的发展,这些算法与执行一系列本地最佳决策的启发式方法相比,在全球范围内优化决策树。我们遵循这一工作线,并提供了一种基于动态编程和搜索的最佳分类树的新颖算法。我们的算法支持对树的深度和节点数量的约束。我们方法的成功归因于一系列专门技术,这些技术利用了分类树独有的属性。传统上,最佳分类树的算法受到了高运行时的困扰和有限的可伸缩性,但我们在一项详细的实验研究中表明,我们的方法仅使用最先进的时间所需的时间,并且可以处理数十个数据集的数据集在数千个实例中,提供了几个数量级的改进,并特别有助于实现最佳决策树的实现。
translated by 谷歌翻译
无论是在功能选择的领域还是可解释的AI领域,都有基于其重要性的“排名”功能的愿望。然后可以将这种功能重要的排名用于:(1)减少数据集大小或(2)解释机器学习模型。但是,在文献中,这种特征排名没有以系统的,一致的方式评估。许多论文都有不同的方式来争论哪些具有重要性排名最佳的特征。本文通过提出一种新的评估方法来填补这一空白。通过使用合成数据集,可以事先知道特征重要性得分,从而可以进行更系统的评估。为了促进使用新方法的大规模实验,在Python建造了一个名为FSEVAL的基准测定框架。该框架允许并行运行实验,并在HPC系统上的计算机上分布。通过与名为“权重和偏见”的在线平台集成,可以在实时仪表板上进行交互探索图表。该软件作为开源软件发布,并在PYPI平台上以包裹发行。该研究结束时,探索了一个这样的大规模实验,以在许多方面找到参与算法的优势和劣势。
translated by 谷歌翻译
流媒体数据中对异常的实时检测正在受到越来越多的关注,因为它使我们能够提高警报,预测故障并检测到整个行业的入侵或威胁。然而,很少有人注意比较流媒体数据(即在线算法)的异常检测器的有效性和效率。在本文中,我们介绍了来自不同算法家族(即基于距离,密度,树木或投影)的主要在线检测器的定性合成概述,并突出了其构建,更新和测试检测模型的主要思想。然后,我们对在线检测算法的定量实验评估以及其离线对应物进行了彻底的分析。检测器的行为与不同数据集(即元功能)的特征相关,从而提供了对其性能的元级分析。我们的研究介绍了文献中几个缺失的见解,例如(a)检测器对随机分类器的可靠性以及什么数据集特性使它们随机执行; (b)在线探测器在何种程度上近似离线同行的性能; (c)哪种绘制检测器的策略和更新原始图最适合检测仅在数据集的功能子空间中可见的异常; (d)属于不同算法家族的探测器的有效性与效率之间的权衡是什么; (e)数据集的哪些特定特征产生在线算法以胜过所有其他特征。
translated by 谷歌翻译
大多数机器学习算法由一个或多个超参数配置,必须仔细选择并且通常会影响性能。为避免耗时和不可递销的手动试验和错误过程来查找性能良好的超参数配置,可以采用各种自动超参数优化(HPO)方法,例如,基于监督机器学习的重新采样误差估计。本文介绍了HPO后,本文审查了重要的HPO方法,如网格或随机搜索,进化算法,贝叶斯优化,超带和赛车。它给出了关于进行HPO的重要选择的实用建议,包括HPO算法本身,性能评估,如何将HPO与ML管道,运行时改进和并行化结合起来。这项工作伴随着附录,其中包含关于R和Python的特定软件包的信息,以及用于特定学习算法的信息和推荐的超参数搜索空间。我们还提供笔记本电脑,这些笔记本展示了这项工作的概念作为补充文件。
translated by 谷歌翻译
我们介绍了Proteus,这是一种新型的自设计近似范围滤波器,它根据采样数据进行配置,以便针对给定的空间要求优化其误报率(FPR)。 Proteus统一了最先进的范围过滤器的概率和确定性设计空间,以在较大的用例中实现稳健的性能。 Proteus的核心是我们的上下文前缀FPR(CPFPR)模型 - 在其设计空间中基于前缀过滤器的FPR的正式框架。我们从经验上证明了模型和Proteus在合成工作负载和现实世界数据集上优化的能力的准确性。我们进一步评估了RockSDB中的Proteus,并表明它能够将端到端的性能提高到5.3倍,而不是更脆的先进方法,例如Surf和Rosetta。我们的实验还表明,与端到端的性能增长相比,建模的成本并不显着,并且Proteus对工作负载转移的稳定性。
translated by 谷歌翻译
算法配置(AC)与对参数化算法最合适的参数配置的自动搜索有关。目前,文献中提出了各种各样的交流问题变体和方法。现有评论没有考虑到AC问题的所有衍生物,也没有提供完整的分类计划。为此,我们引入分类法以分别描述配置方法的交流问题和特征。我们回顾了分类法的镜头中现有的AC文献,概述相关的配置方法的设计选择,对比方法和问题变体相互对立,并描述行业中的AC状态。最后,我们的评论为研究人员和从业人员提供了AC领域的未来研究方向。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
分层多代理系统提供了分析,模型和模拟复杂系统的方便和相关的方式,这些方法由不同的抽象级别交互的大量实体组成。在本文中,我们引入了哈姆雷特(基于等级代理的机器学习平台),一个基于分层多种代理系统的混合机学习平台,促进了地理上和/或本地分布式机器学习实体的研究和民主化。所提出的系统模拟了一种机器学习解决方案,作为超图,并根据其先天的能力和学习技能自主地建立异质代理的多级结构。哈姆雷特辅助机器学习系统的设计和管理,并为研究社区提供分析功能,以通过灵活和可定制的查询评估现有和/或新算法/数据集。所提出的混合机器学习平台不承担对学习算法/数据集的类型的限制,并且理论上被证明是声音,并且具有多项式计算要求。此外,它是在120次训练和四个在24台机器学习算法和9个标准数据集上执行的四个广义批量测试任务的经验检查。提供的实验结果不仅在平台的一致性和正确性方面建立了信心,而且还证明了其测试和分析能力。
translated by 谷歌翻译
最新研究建议用学习模型替换现有的索引结构。然而,当前学习的索引往往有许多超级参数,通常不会提供任何错误保证,并且构建昂贵。我们介绍实用的学习指数(Plex)。Plex仅有一个HyperParameter $ \ epsilon $(最大预测错误),并且在构建和查找时间之间提供比最先进的方法在更好的权衡之间。与RadixSpline类似,Plex由样条曲线和(多级)基数层组成。它首先构建一个满足给定$ \ epsilon $的样条曲线,然后对花键点的分布进行ad-hoc分析,以快速调整基数层。
translated by 谷歌翻译
尽管相似性搜索研究的不断发展,但它仍然面临着由于数据的复杂性而面临的相同挑战,例如维度和计算距离距离功能的诅咒。已证明,各种机器学习技术能够用简单的线性功能组合来代替精心设计的数学模型,通常以正式保证的准确性和正确的查询性能来获得速度和简单性。作者通过为3D蛋白质结构搜索的复杂问题提供了轻巧的解决方案来探索这一研究趋势的潜力。该解决方案由三个步骤组成:(i)将3D蛋白结构信息转换为非常紧凑的向量,(ii)使用概率模型将这些向量分组并通过返回给定数量的类似对象和(iii)来响应查询,并且)最终的过滤步骤,该步骤应用基本的向量距离函数来完善结果。
translated by 谷歌翻译
分类链是一种用于在多标签分类中建模标签依赖性的有效技术。但是,该方法需要标签的固定静态顺序。虽然理论上,任何顺序都足够了,实际上,该订单对最终预测的质量具有大量影响。动态分类链表示每个实例对分类的想法,可以动态选择预测标签的顺序。这种方法的天真实现的复杂性是禁止的,因为它需要训练一系列分类器,以满足标签的每种可能置换。为了有效地解决这个问题,我们提出了一种基于随机决策树的新方法,该方法可以动态地选择每个预测的标签排序。我们凭经验展示了下一个标签的动态选择,通过在否则不变的随机决策树模型下使用静态排序。 %和实验环境。此外,我们还展示了基于极端梯度提升树的替代方法,其允许更具目标的动态分级链训练。我们的结果表明,该变体优于随机决策树和其他基于树的多标签分类方法。更重要的是,动态选择策略允许大大加速培训和预测。
translated by 谷歌翻译
\ textit {约束路径发现}的经典问题是一个经过充分研究但充满挑战的主题,在各个领域,例如沟通和运输等各个领域的应用。权重限制了最短路径问题(WCSPP),作为仅具有一个侧面约束的约束路径查找的基本形式,旨在计划成本最佳路径,其权重/资源使用受到限制。鉴于问题的双标准性质(即处理路径的成本和权重),解决WCSPP的方法具有一些带有双目标搜索的共同属性。本文在约束路径查找和双目标搜索中利用了最新的基于A*的最新技术,并为WCSPP提供了两种精确的解决方案方法,两者都可以在非常大的图表上解决硬性问题实例。我们从经验上评估了算法在新的大型和现实的问题实例上的性能,并在时空指标中显示出它们比最新算法的优势。本文还调查了优先级队列在被a*的约束搜索中的重要性。我们通过对逼真的和随机图进行了广泛的实验来展示,基于桶的队列没有打破打盘的方式可以有效地改善详尽的双标准搜索的算法性能。
translated by 谷歌翻译
本文调查了股票回购,特别是分享回购公告。它解决了如何识别此类公告,股票回购的超额回报以及股票回购公告后的回报的预测。我们说明了两种NLP方法,用于自动检测股票回购公告。即使有少量的培训数据,我们也可以达到高达90%的准确性。该论文利用这些NLP方法生成一个由57,155个股票回购公告组成的大数据集。通过分析该数据集,本论文的目的是表明大多数宣布回购的公司的大多数公司都表现不佳。但是,少数公司的表现极大地超过了MSCI世界。当查看所有公司的平均值时,这种重要的表现过高会导致净收益。如果根据公司的规模调整了基准指数,则平均表现过高,并且大多数表现不佳。但是,发现宣布股票回购的公司至少占其市值的1%,即使使用调整后的基准,也平均交付了显着的表现。还发现,在危机时期宣布股票回购的公司比整个市场更好。此外,生成的数据集用于训练72个机器学习模型。通过此,它能够找到许多可以达到高达77%并产生大量超额回报的策略。可以在六个不同的时间范围内改善各种性能指标,并确定明显的表现。这是通过训练多个模型的不同任务和时间范围以及结合这些不同模型的方法来实现的,从而通过融合弱学习者来产生重大改进,以创造一个强大的学习者。
translated by 谷歌翻译
比较不同的汽车框架是具有挑战性的,并且经常做错了。我们引入了一个开放且可扩展的基准测试,该基准遵循最佳实践,并在比较自动框架时避免常见错误。我们对71个分类和33项回归任务进行了9个著名的自动框架进行了详尽的比较。通过多面分析,评估模型的准确性,与推理时间的权衡以及框架失败,探索了自动框架之间的差异。我们还使用Bradley-terry树来发现相对自动框架排名不同的任务子集。基准配备了一个开源工具,该工具与许多自动框架集成并自动化经验评估过程端到端:从框架安装和资源分配到深入评估。基准测试使用公共数据集,可以轻松地使用其他Automl框架和任务扩展,并且具有最新结果的网站。
translated by 谷歌翻译
即使机器学习算法已经在数据科学中发挥了重要作用,但许多当前方法对输入数据提出了不现实的假设。由于不兼容的数据格式,或数据集中的异质,分层或完全缺少的数据片段,因此很难应用此类方法。作为解决方案,我们提出了一个用于样本表示,模型定义和培训的多功能,统一的框架,称为“ Hmill”。我们深入审查框架构建和扩展的机器学习的多个范围范式。从理论上讲,为HMILL的关键组件的设计合理,我们将通用近似定理的扩展显示到框架中实现的模型所实现的所有功能的集合。本文还包含有关我们实施中技术和绩效改进的详细讨论,该讨论将在MIT许可下发布供下载。该框架的主要资产是其灵活性,它可以通过相同的工具对不同的现实世界数据源进行建模。除了单独观察到每个对象的一组属性的标准设置外,我们解释了如何在框架中实现表示整个对象系统的图表中的消息推断。为了支持我们的主张,我们使用框架解决了网络安全域的三个不同问题。第一种用例涉及来自原始网络观察结果的IoT设备识别。在第二个问题中,我们研究了如何使用以有向图表示的操作系统的快照可以对恶意二进制文件进行分类。最后提供的示例是通过网络中实体之间建模域黑名单扩展的任务。在所有三个问题中,基于建议的框架的解决方案可实现与专业方法相当的性能。
translated by 谷歌翻译
近年来,在平衡(超级)图分配算法的设计和评估中取得了重大进展。我们调查了过去十年的实用算法的趋势,用于平衡(超级)图形分区以及未来的研究方向。我们的工作是对先前有关该主题的调查的更新。特别是,该调查还通过涵盖了超图形分区和流算法来扩展先前的调查,并额外关注并行算法。
translated by 谷歌翻译