深度神经网络(DNN)及其变体已被广泛用于多种真实应用,例如图像分类,面部/语音识别,欺诈检测等。除了许多重要的机器学习任务外,随着人造网络模仿脑细胞的运作方式,DNN还显示了在输入和输出数据之间存储非线性关系的能力,这表现出通过DNN存储数据的潜力。我们设想了一个新的数据存储范式“ DNN-AS-A-DATABASE”,其中数据是在训练有素的机器学习模型中编码的。与直接以原始格式记录数据的传统数据存储相比,基于学习的结构(例如DNN)可以隐式编码输入和输出的数据对,并仅在提供输入数据时,才能计算/实现不同分辨率的实际输出数据。这种新的范式可以通过允许在不同级别上的灵活数据隐私设置,通过新硬件的加速(例如衍射神经网络和AI芯片)进行快速计算,从而极大地增强数据安全性,并可以推广到分布式DNN - 基于存储/计算。在本文中,我们提出了这个基于学习的数据存储的新颖概念,该概念利用一种名为基于学习的记忆单元(LMU)的学习结构来存储,组织和检索数据。作为案例研究,我们将DNNs用作LMU中的发动机,并研究基于DNN的数据存储的数据容量和准确性。我们的初步实验结果表明,通过达到DNN存储的高(100%)精度,基于学习的数据存储的可行性。我们探索和设计有效的解决方案,以利用基于DNN的数据存储来管理和查询关系表。我们讨论如何将解决方案推广到其他数据类型(例如图形)和分布式DNN存储/计算等环境。
translated by 谷歌翻译
最近,数据库管理系统(DBMS)社区目睹了机器学习(ML)解决方案的DBMS任务的能力。尽管表现明显,但这些现有解决方案几乎不会被认为是令人满意的。首先,DBMS中的基于ML的方法不够有效,因为它们在每个特定任务上进行了优化,并且无法探索或理解任务之间的内部连接。其次,培训过程具有严重的限制,妨碍他们的实用性,因为他们需要从划痕中恢复整个模型以获得新的dB。此外,对于每个再次,它们需要过多的训练数据,这对于新的DB来获得和不可用的非常昂贵。我们建议探讨ML方法跨任务和跨DBS的传递,以解决这些基本缺点。在本文中,我们提出了一个统一的模型MTMLF,它使用多任务培训程序来捕获任务的可转让知识和预先列车前的微调程序,以蒸馏出跨DBS的可转移元知识。我们认为,此范例更适合云DB服务,并且有可能彻底改变ML如何在DBMS中使用的方式。此外,为了证明MTMLF的预测力和可行性,我们提供了关于查询优化任务的具体和非常有希望的案例研究。最后但并非最不重要的是,我们沿着这一工作线讨论了几个具体的研究机会。
translated by 谷歌翻译
Cardinality estimation is one of the most fundamental and challenging problems in query optimization. Neither classical nor learning-based methods yield satisfactory performance when estimating the cardinality of the join queries. They either rely on simplified assumptions leading to ineffective cardinality estimates or build large models to understand the data distributions, leading to long planning times and a lack of generalizability across queries. In this paper, we propose a new framework FactorJoin for estimating join queries. FactorJoin combines the idea behind the classical join-histogram method to efficiently handle joins with the learning-based methods to accurately capture attribute correlation. Specifically, FactorJoin scans every table in a DB and builds single-table conditional distributions during an offline preparation phase. When a join query comes, FactorJoin translates it into a factor graph model over the learned distributions to effectively and efficiently estimate its cardinality. Unlike existing learning-based methods, FactorJoin does not need to de-normalize joins upfront or require executed query workloads to train the model. Since it only relies on single-table statistics, FactorJoin has small space overhead and is extremely easy to train and maintain. In our evaluation, FactorJoin can produce more effective estimates than the previous state-of-the-art learning-based methods, with 40x less estimation latency, 100x smaller model size, and 100x faster training speed at comparable or better accuracy. In addition, FactorJoin can estimate 10,000 sub-plan queries within one second to optimize the query plan, which is very close to the traditional cardinality estimators in commercial DBMS.
translated by 谷歌翻译
近年来,在平衡(超级)图分配算法的设计和评估中取得了重大进展。我们调查了过去十年的实用算法的趋势,用于平衡(超级)图形分区以及未来的研究方向。我们的工作是对先前有关该主题的调查的更新。特别是,该调查还通过涵盖了超图形分区和流算法来扩展先前的调查,并额外关注并行算法。
translated by 谷歌翻译
我们设计了一个用户友好且可扩展的知识图构建(KGC)系统,用于从非结构化语料库中提取结构化知识。与现有的KGC系统不同,Gbuilder提供了一种灵活且用户定义的管道,可以包含IE模型的快速开发。可以使用更多基于内置的模板或启发式操作员和可编程操作员来适应来自不同域的数据。此外,我们还为Gbuilder设计了基于云的自适应任务计划,以确保其在大规模知识图构造上的可扩展性。实验评估不仅证明了Gbuilder在统一平台中组织多个信息提取模型的能力,还证实了其在大规模KGC任务上的高可扩展性。
translated by 谷歌翻译
在本文中,我们介绍了零射成本模型,使学习成本估计能够推广到看不见的数据库。与最先进的工作负载驱动方法相比,需要在每个新数据库上执行大量训练查询,因此零击成本模型因此允许在没有的盒子中实例化学习成本模型昂贵的培训数据收集。要启用此类零拍成本模型,我们建议基于预先训练的成本模型的新学习范例。作为支持将此类预先训练的成本模型转移到解密数据库的核心贡献,我们介绍了一种新的模型架构和表示技术,用于将查询工作负载编码为对这些模型的输入。正如我们将在我们的评估中展示,零射成本估计可以为广泛的(现实世界)数据库的最先进模型提供更准确的成本估算,而无需在未操作数据库上执行任何查询执行。此外,我们表明零击成本模型可以在几次拍摄模式下使用,从而通过在看不见的数据库上使用少量额外的训练查询来进一步提高其质量。
translated by 谷歌翻译
即使机器学习算法已经在数据科学中发挥了重要作用,但许多当前方法对输入数据提出了不现实的假设。由于不兼容的数据格式,或数据集中的异质,分层或完全缺少的数据片段,因此很难应用此类方法。作为解决方案,我们提出了一个用于样本表示,模型定义和培训的多功能,统一的框架,称为“ Hmill”。我们深入审查框架构建和扩展的机器学习的多个范围范式。从理论上讲,为HMILL的关键组件的设计合理,我们将通用近似定理的扩展显示到框架中实现的模型所实现的所有功能的集合。本文还包含有关我们实施中技术和绩效改进的详细讨论,该讨论将在MIT许可下发布供下载。该框架的主要资产是其灵活性,它可以通过相同的工具对不同的现实世界数据源进行建模。除了单独观察到每个对象的一组属性的标准设置外,我们解释了如何在框架中实现表示整个对象系统的图表中的消息推断。为了支持我们的主张,我们使用框架解决了网络安全域的三个不同问题。第一种用例涉及来自原始网络观察结果的IoT设备识别。在第二个问题中,我们研究了如何使用以有向图表示的操作系统的快照可以对恶意二进制文件进行分类。最后提供的示例是通过网络中实体之间建模域黑名单扩展的任务。在所有三个问题中,基于建议的框架的解决方案可实现与专业方法相当的性能。
translated by 谷歌翻译
基数估计(Cardest)是查询优化器的中央组件,在生成DBMS中的高质量查询计划方面发挥着重要作用。使用传统和ML增强的方法,在过去几十年中,在过去几十年中已经广泛研究了Cardest问题。虽然,Cardest中最困难的问题,即如何在多个表上估算连接查询大小,尚未得到广泛解决。目前的方法要么回复独立假设,要么用沉重的负担应用技术,其性能仍然远非令人满意。更糟糕的是,现有的卡最多的卡片通常旨在优化一个目标,即推理速度或估计准确性,这不能适应不同的场合。在本文中,我们提出了一个非常一般的框架,称为胶水,以解决这些挑战。其关键的想法是在不同表格中优雅地解耦并无损合并单个表卡最大的结果,以估计加入查询大小。胶水支持使用任何现有的Cardest方法获取单个表格明智的Cardest结果,可以处理任何复杂的连接模式。因此,它很容易适应具有不同性能要求的不同场景,即,OLTP具有快速估计时间或OLAP,具有高估计精度。同时,我们显示胶水可以无缝集成到计划搜索过程中,并能够支持计算不同数量的值。所有这些属性都表现出在现实世界DBMS中部署胶水的潜在进步。
translated by 谷歌翻译
Graph neural networks (GNNs) have been demonstrated to be a powerful algorithmic model in broad application fields for their effectiveness in learning over graphs. To scale GNN training up for large-scale and ever-growing graphs, the most promising solution is distributed training which distributes the workload of training across multiple computing nodes. However, the workflows, computational patterns, communication patterns, and optimization techniques of distributed GNN training remain preliminarily understood. In this paper, we provide a comprehensive survey of distributed GNN training by investigating various optimization techniques used in distributed GNN training. First, distributed GNN training is classified into several categories according to their workflows. In addition, their computational patterns and communication patterns, as well as the optimization techniques proposed by recent work are introduced. Second, the software frameworks and hardware platforms of distributed GNN training are also introduced for a deeper understanding. Third, distributed GNN training is compared with distributed training of deep neural networks, emphasizing the uniqueness of distributed GNN training. Finally, interesting issues and opportunities in this field are discussed.
translated by 谷歌翻译
索引是支持大型数据库中有效查询处理的有效方法。最近,已积极探索了替代或补充传统索引结构的学习指数的概念,以降低存储和搜索成本。但是,在高维度空间中准确有效的相似性查询处理仍然是一个开放的挑战。在本文中,我们提出了一种称为LIMS的新型索引方法,该方法使用数据群集,基于枢轴的数据转换技术和学习的索引来支持度量空间中的有效相似性查询处理。在LIM中,将基础数据分配到簇中,使每个群集都遵循相对均匀的数据分布。数据重新分布是通过利用每个集群的少量枢轴来实现的。类似的数据被映射到紧凑的区域,而映射的值是完全顺序的。开发机器学习模型是为了近似于磁盘上每个数据记录的位置。有效的算法设计用于基于LIMS的处理范围查询和最近的邻居查询,以及具有动态更新的索引维护。与传统索引和最先进的学习索引相比,对现实世界和合成数据集的广泛实验证明了LIM的优势。
translated by 谷歌翻译
在过去十年中,图形内核引起了很多关注,并在结构化数据上发展成为一种快速发展的学习分支。在过去的20年中,该领域发生的相当大的研究活动导致开发数十个图形内核,每个图形内核都对焦于图形的特定结构性质。图形内核已成功地成功地在广泛的域中,从社交网络到生物信息学。本调查的目标是提供图形内核的文献的统一视图。特别是,我们概述了各种图形内核。此外,我们对公共数据集的几个内核进行了实验评估,并提供了比较研究。最后,我们讨论图形内核的关键应用,并概述了一些仍有待解决的挑战。
translated by 谷歌翻译
最近提出了基于子图的图表学习(SGRL)来应对规范图神经网络(GNNS)遇到的一些基本挑战,并在许多重要的数据科学应用(例如链接,关系和主题预测)中证明了优势。但是,当前的SGRL方法遇到了可伸缩性问题,因为它们需要为每个培训或测试查询提取子图。扩大规范GNN的最新解决方案可能不适用于SGRL。在这里,我们通过共同设计学习算法及其系统支持,为可扩展的SGRL提出了一种新颖的框架Surel。 Surel采用基于步行的子图表分解,并将步行重新形成子图,从而大大降低了子图提取的冗余并支持并行计算。具有数百万个节点和边缘的六个同质,异质和高阶图的实验证明了Surel的有效性和可扩展性。特别是,与SGRL基线相比,Surel可以实现10 $ \ times $ Quad-Up,具有可比甚至更好的预测性能;与规范GNN相比,Surel可实现50%的预测准确性。
translated by 谷歌翻译
众所周知,加入操作(尤其是N-Way,多到许多人的加入)是耗时和资源的。在大尺度上,关于桌子和联接量的大小,当前的最新方法(包括使用嵌套环/哈希/排序 - 合并算法的二进制加入算法,或者,或者,最糟糕的案例最佳连接算法(wojas)),甚至可能无法给定合理的资源和时间限制产生任何答案。在这项工作中,我们介绍了一种新的n-way qui-join处理方法,即图形结合(GJ)。关键想法是两个方面:首先,将物理连接计算问题映射到PGMS并引入调整的推理算法,该算法可以计算基于运行的编码(RLE)基于连接的汇总摘要,并需要实现结合结果所必需的所有统计信息。其次,也是最重要的是,要表明,像GJ这样的联接算法(像GJ一样)产生了上述联接介绍摘要,然后对其进行删除,可以在时空中引入巨大的性能优势。通过工作,TPCD和LASTFM数据集的加入查询进行了全面的实验,将GJ与PostgreSQL和MonetDB进行了比较,以及UMBRA系统中实现的最先进的WOJA。内存中加入计算的结果表明,性能改善的速度分别比PostgreSQL,MONETDB和UMBRA快64倍,388倍和6倍。对于磁盘加入计算,GJ的速度比PostgreSQL,MONETDB和UMBRA的速度分别高达820X,717X和165X。此外,GJ空间需求分别高达21,488倍,38,333倍和78,750倍,分别比PostgreSQL,MonetDB和Umbra小。
translated by 谷歌翻译
我们介绍了一个自动选择数据结构的框架,以支持分析工作负载的有效计算。我们的贡献是双重的。首先,我们介绍了一种新颖的低级中间语言,可以表达各种查询处理范例背后的算法,例如经典加入,GroupJoin和数据库内机器学习引擎。此语言围绕词典的概念设计,并允许更精细地选择其低级实现。其次,通过组合机器学习和程序推理,自动推断出替代实施的成本模型。使用在给定硬件架构上的字典操作的分析数据集上培训的回归模型来学习字典成本模型。使用静态程序分析推断出计划成本模型。我们的实验结果表明,训练有素的成本模型在微基准上的有效性。此外,我们表明,我们的框架生成的代码的性能要么擅长,要么与最先进的分析查询引擎和最近的数据库内机器学习框架相同。
translated by 谷歌翻译
In this tutorial paper, we look into the evolution and prospect of network architecture and propose a novel conceptual architecture for the 6th generation (6G) networks. The proposed architecture has two key elements, i.e., holistic network virtualization and pervasive artificial intelligence (AI). The holistic network virtualization consists of network slicing and digital twin, from the aspects of service provision and service demand, respectively, to incorporate service-centric and user-centric networking. The pervasive network intelligence integrates AI into future networks from the perspectives of networking for AI and AI for networking, respectively. Building on holistic network virtualization and pervasive network intelligence, the proposed architecture can facilitate three types of interplay, i.e., the interplay between digital twin and network slicing paradigms, between model-driven and data-driven methods for network management, and between virtualization and AI, to maximize the flexibility, scalability, adaptivity, and intelligence for 6G networks. We also identify challenges and open issues related to the proposed architecture. By providing our vision, we aim to inspire further discussions and developments on the potential architecture of 6G.
translated by 谷歌翻译
近年来,基于Weisfeiler-Leman算法的算法和神经架构,是一个众所周知的Graph同构问题的启发式问题,它成为具有图形和关系数据的机器学习的强大工具。在这里,我们全面概述了机器学习设置中的算法的使用,专注于监督的制度。我们讨论了理论背景,展示了如何将其用于监督的图形和节点表示学习,讨论最近的扩展,并概述算法的连接(置换 - )方面的神经结构。此外,我们概述了当前的应用和未来方向,以刺激进一步的研究。
translated by 谷歌翻译
在本文中,我们展示了我们对数据库的所谓零射击学习的愿景,这是数据库组件的新学习方法。对于数据库的零拍摄学习是通过最近的转移学习的进步,例如GPT-3等型号的进步,并且可以在禁止框中支持一个新的数据库,而无需培训新模型。此外,通过进一步再培训未经看台数据库的模型,它可以很容易地扩展到几次拍摄的学习。作为本文的第一个具体贡献,我们展示了零射击学习的可行性,用于物理成本估算的任务,并具有非常有前途的初始结果。此外,作为第二种贡献,我们讨论了与数据库的零射击学习相关的核心挑战,并呈现路线图,以扩展到零射击学习,以扩展到超出成本估计的许多其他任务,甚至超出经典数据库系统和工作负载。
translated by 谷歌翻译
越来越多的工作已经认识到利用机器学习(ML)进步的重要性,以满足提取访问控制属性,策略挖掘,策略验证,访问决策等有效自动化的需求。在这项工作中,我们调查和总结了各种ML解决不同访问控制问题的方法。我们提出了ML模型在访问控制域中应用的新分类学。我们重点介绍当前的局限性和公开挑战,例如缺乏公共现实世界数据集,基于ML的访问控制系统的管理,了解黑盒ML模型的决策等,并列举未来的研究方向。
translated by 谷歌翻译
Video, as a key driver in the global explosion of digital information, can create tremendous benefits for human society. Governments and enterprises are deploying innumerable cameras for a variety of applications, e.g., law enforcement, emergency management, traffic control, and security surveillance, all facilitated by video analytics (VA). This trend is spurred by the rapid advancement of deep learning (DL), which enables more precise models for object classification, detection, and tracking. Meanwhile, with the proliferation of Internet-connected devices, massive amounts of data are generated daily, overwhelming the cloud. Edge computing, an emerging paradigm that moves workloads and services from the network core to the network edge, has been widely recognized as a promising solution. The resulting new intersection, edge video analytics (EVA), begins to attract widespread attention. Nevertheless, only a few loosely-related surveys exist on this topic. A dedicated venue for collecting and summarizing the latest advances of EVA is highly desired by the community. Besides, the basic concepts of EVA (e.g., definition, architectures, etc.) are ambiguous and neglected by these surveys due to the rapid development of this domain. A thorough clarification is needed to facilitate a consensus on these concepts. To fill in these gaps, we conduct a comprehensive survey of the recent efforts on EVA. In this paper, we first review the fundamentals of edge computing, followed by an overview of VA. The EVA system and its enabling techniques are discussed next. In addition, we introduce prevalent frameworks and datasets to aid future researchers in the development of EVA systems. Finally, we discuss existing challenges and foresee future research directions. We believe this survey will help readers comprehend the relationship between VA and edge computing, and spark new ideas on EVA.
translated by 谷歌翻译
我们为AI驱动数据库提供了一个SYSML框架。使用Baihe,可能会改装现有的关系数据库系统以使用学习组件进行查询优化或其他常见任务,例如例如,学习索引结构。为确保Baihe的实用性和现实世界适用性,其高级架构基于以下要求:与核心系统的分离,最小的第三方依赖,鲁棒性,稳定性和容错,以及稳定性和可配置性。基于高级架构,我们将描述Baihe的具体实现PostgreSQL,并为学习查询优化器提供了实例使用情况。为了服务于从业者,以及DB和AI4DB社区的研究人员将在开源许可下发布PostgreSQL的Baihe。
translated by 谷歌翻译