上下文:大数据的有效处理是SQL和NOSQL数据库的一项具有挑战性的任务,在这种数据库中,有效的软件体系结构起着至关重要的作用。 SQL数据库设计用于构建数据和支持垂直可扩展性。相反,水平可伸缩性由NOSQL数据库支持,并且可以有效地处理较大的非结构化数据。可以根据组织的需求选择正确的范式;但是,做出正确的选择通常可能具有挑战性。 SQL和NOSQL数据库遵循不同的体系结构。同样,混合模型之后是NOSQL数据库的每个类别。因此,对于多个云服务提供商(CSP)的云消费者来说,数据移动变得困难。此外,每个云平台IAAS,PAAS,SaaS和DBAAS还监视各种范式。目的:该系统文献综述(SLR)旨在研究与SQL和NOSQL数据库软件体系结构相关的相关文章,并解决各种云平台之间的数据可移植性和互操作性。最新的状态通过观察缩放,性能,可用性,一致性和分片特性,介绍了SQL和NOSQL数据库的许多性能比较研究。根据研究研究,NOSQL数据库设计的结构可以是大数据分析的正确选择,而SQL数据库适合OLTP数据库。研究人员提出了许多与云中数据流动相关的方法。开发了基于平台的API,这使用户的数据移动变得困难。因此,在跨多个CSP的数据移动期间发现了数据可移植性和互操作性问题。为了最大程度地减少开发人员的努力和互操作性,要求统一的API使数据移动在各种云平台之间相对易于访问。
translated by 谷歌翻译
通过分析大量数据来提供决策支持,大数据正在改革许多工业域。大数据测试旨在确保大数据系统在维护数据的性能和质量时运行平稳且无错误。但是,由于数据的多样性和复杂性,测试大数据具有挑战性。虽然众多研究对大数据测试进行了综合审查,但解决了测试技术和挑战的综合性尚未混淆。因此,我们对大数据测试技术(2010年 - 2021年)进行了系统审查。本文通过突出显示每个处理阶段的技术来讨论测试数据的处理。此外,我们讨论了挑战和未来的方向。我们的发现表明,已经使用不同的功能,非功能性和组合(功能和非功能性)测试技术来解决与大数据相关的特定问题。同时,在MapReduce验证阶段,大多数测试挑战都面临。此外,组合测试技术是与其他技术相结合的应用技术之一(即随机测试,突变测试,输入空间分区和等价测试),以解决在大数据测试期间面临的各种功能故障挑战。
translated by 谷歌翻译
The number of scientific publications continues to rise exponentially, especially in Computer Science (CS). However, current solutions to analyze those publications restrict access behind a paywall, offer no features for visual analysis, limit access to their data, only focus on niches or sub-fields, and/or are not flexible and modular enough to be transferred to other datasets. In this thesis, we conduct a scientometric analysis to uncover the implicit patterns hidden in CS metadata and to determine the state of CS research. Specifically, we investigate trends of the quantity, impact, and topics for authors, venues, document types (conferences vs. journals), and fields of study (compared to, e.g., medicine). To achieve this we introduce the CS-Insights system, an interactive web application to analyze CS publications with various dashboards, filters, and visualizations. The data underlying this system is the DBLP Discovery Dataset (D3), which contains metadata from 5 million CS publications. Both D3 and CS-Insights are open-access, and CS-Insights can be easily adapted to other datasets in the future. The most interesting findings of our scientometric analysis include that i) there has been a stark increase in publications, authors, and venues in the last two decades, ii) many authors only recently joined the field, iii) the most cited authors and venues focus on computer vision and pattern recognition, while the most productive prefer engineering-related topics, iv) the preference of researchers to publish in conferences over journals dwindles, v) on average, journal articles receive twice as many citations compared to conference papers, but the contrast is much smaller for the most cited conferences and journals, and vi) journals also get more citations in all other investigated fields of study, while only CS and engineering publish more in conferences than journals.
translated by 谷歌翻译
负责任的AI被广泛认为是我们时代最大的科学挑战之一,也是释放AI市场并增加采用率的关键。为了应对负责任的AI挑战,最近已经发布了许多AI伦理原则框架,AI系统应该符合这些框架。但是,没有进一步的最佳实践指导,从业者除了真实性之外没有什么。同样,在算法级别而不是系统级的算法上进行了重大努力,主要集中于数学无关的道德原则(例如隐私和公平)的一部分。然而,道德问题在开发生命周期的任何步骤中都可能发生,从而超过AI算法和模型以外的系统的许多AI,非AI和数据组件。为了从系统的角度操作负责任的AI,在本文中,我们采用了一种面向模式的方法,并根据系统的多媒体文献综述(MLR)的结果提出了负责任的AI模式目录。与其呆在道德原则层面或算法层面上,我们专注于AI系统利益相关者可以在实践中采取的模式,以确保开发的AI系统在整个治理和工程生命周期中负责。负责的AI模式编目将模式分为三组:多层次治理模式,可信赖的过程模式和负责任的逐设计产品模式。这些模式为利益相关者实施负责任的AI提供了系统性和可行的指导。
translated by 谷歌翻译
Video, as a key driver in the global explosion of digital information, can create tremendous benefits for human society. Governments and enterprises are deploying innumerable cameras for a variety of applications, e.g., law enforcement, emergency management, traffic control, and security surveillance, all facilitated by video analytics (VA). This trend is spurred by the rapid advancement of deep learning (DL), which enables more precise models for object classification, detection, and tracking. Meanwhile, with the proliferation of Internet-connected devices, massive amounts of data are generated daily, overwhelming the cloud. Edge computing, an emerging paradigm that moves workloads and services from the network core to the network edge, has been widely recognized as a promising solution. The resulting new intersection, edge video analytics (EVA), begins to attract widespread attention. Nevertheless, only a few loosely-related surveys exist on this topic. A dedicated venue for collecting and summarizing the latest advances of EVA is highly desired by the community. Besides, the basic concepts of EVA (e.g., definition, architectures, etc.) are ambiguous and neglected by these surveys due to the rapid development of this domain. A thorough clarification is needed to facilitate a consensus on these concepts. To fill in these gaps, we conduct a comprehensive survey of the recent efforts on EVA. In this paper, we first review the fundamentals of edge computing, followed by an overview of VA. The EVA system and its enabling techniques are discussed next. In addition, we introduce prevalent frameworks and datasets to aid future researchers in the development of EVA systems. Finally, we discuss existing challenges and foresee future research directions. We believe this survey will help readers comprehend the relationship between VA and edge computing, and spark new ideas on EVA.
translated by 谷歌翻译
In the Metaverse, the physical space and the virtual space co-exist, and interact simultaneously. While the physical space is virtually enhanced with information, the virtual space is continuously refreshed with real-time, real-world information. To allow users to process and manipulate information seamlessly between the real and digital spaces, novel technologies must be developed. These include smart interfaces, new augmented realities, efficient storage and data management and dissemination techniques. In this paper, we first discuss some promising co-space applications. These applications offer opportunities that neither of the spaces can realize on its own. We then discuss challenges. Finally, we discuss and envision what are likely to be required from the database and system perspectives.
translated by 谷歌翻译
研究过程自动化 - 对科学仪器,计算机,数据存储和其他资源的可靠,高效和可重复执行的可靠,高效和可重复执行,这是现代科学的基本要素。我们在此处报告Globus研究数据管理平台内的新服务,该服务可以将各种研究过程的规范作为可重复使用的动作集,流量以及在异质研究环境中执行此类流动的集合。为了以广泛的空间范围(例如,从科学仪器到远程数据中心)和时间范围(从几秒钟到几周),这些Globus自动化服务功能:1)云托管以可靠地执行长期持久的流量,尽管零星的失败,但这些Globus自动化服务功能:1) ; 2)声明性符号和可扩展的异步行动提供商API,用于定义和执行涉及任意资源的各种行动和流动规范; 3)授权授权机制,用于安全调用动作。这些服务允许研究人员将广泛的研究任务的管理外包和自动化为可靠,可扩展和安全的云平台。我们向Globus自动化服务提供用例
translated by 谷歌翻译
如今,由于最近在人工智能(AI)和机器学习(ML)中的近期突破,因此,智能系统和服务越来越受欢迎。然而,机器学习不仅满足软件工程,不仅具有有希望的潜力,而且还具有一些固有的挑战。尽管最近的一些研究努力,但我们仍然没有明确了解开发基于ML的申请和当前行业实践的挑战。此外,目前尚不清楚软件工程研究人员应将其努力集中起来,以更好地支持ML应用程序开发人员。在本文中,我们报告了一个旨在了解ML应用程序开发的挑战和最佳实践的调查。我们合成从80名从业者(以不同的技能,经验和应用领域)获得的结果为17个调查结果;概述ML应用程序开发的挑战和最佳实践。参与基于ML的软件系统发展的从业者可以利用总结最佳实践来提高其系统的质量。我们希望报告的挑战将通知研究界有关需要调查的主题,以改善工程过程和基于ML的申请的质量。
translated by 谷歌翻译
The technocrat epoch is overflowing with new technologies and such cutting-edge facilities accompany the risks and pitfalls. Robotic process automation is another innovation that empowers the computerization of high-volume, manual, repeatable, everyday practice, rule-based, and unmotivating human errands. The principal objective of Robotic Process Automation is to supplant monotonous human errands with a virtual labor force or a computerized specialist playing out a similar work as the human laborer used to perform. This permits human laborers to zero in on troublesome undertakings and critical thinking. Robotic Process Automation instruments are viewed as straightforward and strong for explicit business process computerization. Robotic Process Automation comprises intelligence to decide if a process should occur. It has the capability to analyze the data presented and provide a decision based on the logic parameters set in place by the developer. Moreover, it does not demand for system integration, like other forms of automation. Be that as it may since the innovation is yet arising, the Robotic Process Automation faces a few difficulties during the execution.
translated by 谷歌翻译
人工智能(AI)治理调节行使权威和控制AI的管理。它旨在通过有效利用数据并最大程度地减少与AI相关的成本和风险来利用AI。尽管AI治理和AI伦理等主题在理论,哲学,社会和监管层面上进行了详尽的讨论,但针对公司和公司的AI治理工作有限。这项工作将AI产品视为系统,在该系统中,通过机器学习(ML)模型(培训)数据传递关键功能。我们通过在AI和相关领域(例如ML)合成文献来得出一个概念框架。我们的框架将AI治理分解为数据的治理,(ML)模型和(AI)系统沿着四个维度。它与现有的IT和数据治理框架和实践有关。它可以由从业者和学者都采用。对于从业者来说,主要是研究论文的综合,但从业者的出版物和监管机构的出版物也为实施AI治理提供了宝贵的起点,而对于学者来说,该论文强调了许多AI治理领域,值得更多关注。
translated by 谷歌翻译
根据1,870家公司的Rackspace技术的最近调查,总共34%的AI研究和开发项目失败或被遗弃。我们提出了一项新的战略框架,Aistrom,使管理者基于彻底的文献综述,创建一个成功的AI战略。这提供了一种独特而综合的方法,可以通过实施过程中的各种挑战引导经理和牵头开发人员。在Aistrom框架中,我们首先识别顶部N潜在项目(通常为3-5)。对于每个人,彻底分析了七个重点区域。这些领域包括创建一个数据策略,以考虑独特的跨部门机器学习数据要求,安全性和法律要求。然后,Aistrom指导经理思考如何鉴于AI人才稀缺的跨学科人工智能(AI)实施团队。一旦建立了AI团队战略,它需要在组织内,跨部门或作为单独的部门定位。其他考虑因素包括AI作为服务(AIAAS)或外包开发。看着新技术,我们必须考虑偏见,黑匣子模型的合法性等挑战,并保持循环中的人类。接下来,与任何项目一样,我们需要基于价值的关键性能指标(KPI)来跟踪和验证进度。根据公司的风险策略,SWOT分析(优势,劣势,机会和威胁)可以帮助进一步分类入住项目。最后,我们应该确保我们的战略包括持续的雇员的持续教育,以实现采用文化。这种独特综合的框架提供了有价值的,经理和铅开发商的工具。
translated by 谷歌翻译
推荐系统已广泛应用于不同的应用领域,包括能量保存,电子商务,医疗保健,社交媒体等。此类应用需要分析和挖掘大量各种类型的用户数据,包括人口统计,偏好,社会互动等,以便开发准确和精确的推荐系统。此类数据集通常包括敏感信息,但大多数推荐系统专注于模型的准确性和忽略与安全性和用户隐私相关的问题。尽管使用不同的风险减少技术克服这些问题,但它们都没有完全成功,确保了对用户的私人信息的密码安全和保护。为了弥合这一差距,区块链技术作为推动推荐系统中的安全和隐私保存的有希望的策略,不仅是因为其安全性和隐私性突出特征,而且由于其恢复力,适应性,容错和信任特性。本文介绍了涵盖挑战,开放问题和解决方案的基于区块链的推荐系统的整体综述。因此,引入了精心设计的分类,以描述安全和隐私挑战,概述现有框架并在使用区块链之前讨论其应用程序和利益,以指示未来的研究机会。
translated by 谷歌翻译
在学术界,抄袭肯定不是一个新兴的关注,但它随着互联网的普及和对全球内容来源的易于访问而变得更大的程度,使人类干预不足。尽管如此,由于计算机辅助抄袭检测,抄袭远远远非是一个未被解除的问题,目前是一个有效的研究领域,该研究落在信息检索(IR)和自然语言处理(NLP)领域。许多软件解决方案有助于满足这项任务,本文概述了用于阿拉伯语,法国和英语学术和教育环境的抄袭检测系统。比较在八个系统之间持有,并在检测不同来源的三个混淆水平的特征,可用性,技术方面以及它们的性能之间进行:逐字,释义和跨语言抄袭。在本研究的背景下也进行了对技术形式的抄袭技术形式的关注检查。此外,还提供了对不同作者提出的抄袭类型和分类的调查。
translated by 谷歌翻译
建筑物的智能和连续调试(SCCX)可能会大大减少设计和运营性能之间的差距。本体论在SCCX中起着重要作用,因为它们促进了机器的数据可读性和推理。为了将其开发和纳入SCCX,需要更好地了解本体。本文批判性地回顾了自2014年以来自2014年以来在SCCX域内建立数据本体的最新研究,通过基于建筑数据类型,一般方法和应用程序对它们进行排序。在大多数现有本体论中,已经考虑了建筑信息建模和建筑管理系统的两个主要领域的数据类型。从现有本体论的批判分析中可以明显看出三个主要应用:(1)关键绩效指标计算,(2)建筑物绩效的改善以及(3)故障检测和诊断。文献综述中发现的关键差距是SCCX的整体本体,并了解应如何评估这种方法。基于这些发现,本研究为未来的必要研究提供了建议,包括:与SCCX相关的数据类型的识别,本体学绩效评估以及创建开源方法。
translated by 谷歌翻译
数据库中的部署机学习(ML)算法是由于现代ML算法的不同计算脚印和多数数据库技术的挑战,每个数据库技术都具有自己的限制性语法。我们介绍了一个基于Apache Spark的微服务编排框架,其扩展了数据库操作以包含Web服务基元。我们的系统可以协调数百台机器的Web服务,并充分利用群集,线程和异步并行性。使用此框架,我们为智能服务提供大规模客户端,如语音,视觉,搜索,异常检测和文本分析。这允许用户将随意使用的智能集成到具有Apache Spark连接器的任何数据存储器中。为了消除网络通信的大多数开销,我们还引入了我们架构的低延迟集装箱版本。最后,我们证明我们调查的服务在各种基准上具有竞争力,并在此框架中展示了两个应用程序来创建智能搜索引擎和实时自动竞赛分析系统。
translated by 谷歌翻译
近年来,物联网设备的数量越来越快,这导致了用于管理,存储,分析和从不同物联网设备的原始数据做出决定的具有挑战性的任务,尤其是对于延时敏感的应用程序。在车辆网络(VANET)环境中,由于常见的拓扑变化,车辆的动态性质使当前的开放研究发出更具挑战性,这可能导致车辆之间断开连接。为此,已经在5G基础设施上计算了云和雾化的背景下提出了许多研究工作。另一方面,有多种研究提案旨在延长车辆之间的连接时间。已经定义了车辆社交网络(VSN)以减少车辆之间的连接时间的负担。本调查纸首先提供了关于雾,云和相关范例,如5G和SDN的必要背景信息和定义。然后,它将读者介绍给车辆社交网络,不同的指标和VSN和在线社交网络之间的主要差异。最后,本调查调查了在展示不同架构的VANET背景下的相关工作,以解决雾计算中的不同问题。此外,它提供了不同方法的分类,并在雾和云的上下文中讨论所需的指标,并将其与车辆社交网络进行比较。与VSN和雾计算领域的新研究挑战和趋势一起讨论了相关相关工程的比较。
translated by 谷歌翻译
在科学研究中,该方法是解决科学问题和关键研究对象的必不可少手段。随着科学的发展,正在提出,修改和使用许多科学方法。作者在抽象和身体文本中描述了该方法的详细信息,并且反映该方法名称的学术文献中的关键实体称为方法实体。在大量的学术文献中探索各种方法实体有助于学者了解现有方法,为研究任务选择适当的方法并提出新方法。此外,方法实体的演变可以揭示纪律的发展并促进知识发现。因此,本文对方法论和经验作品进行了系统的综述,重点是从全文学术文献中提取方法实体,并努力使用这些提取的方法实体来建立知识服务。首先提出了本综述涉及的关键概念的定义。基于这些定义,我们系统地审查了提取和评估方法实体的方法和指标,重点是每种方法的利弊。我们还调查了如何使用提取的方法实体来构建新应用程序。最后,讨论了现有作品的限制以及潜在的下一步。
translated by 谷歌翻译
Any organization needs to improve their products, services, and processes. In this context, engaging with customers and understanding their journey is essential. Organizations have leveraged various techniques and technologies to support customer engagement, from call centres to chatbots and virtual agents. Recently, these systems have used Machine Learning (ML) and Natural Language Processing (NLP) to analyze large volumes of customer feedback and engagement data. The goal is to understand customers in context and provide meaningful answers across various channels. Despite multiple advances in Conversational Artificial Intelligence (AI) and Recommender Systems (RS), it is still challenging to understand the intent behind customer questions during the customer journey. To address this challenge, in this paper, we study and analyze the recent work in Conversational Recommender Systems (CRS) in general and, more specifically, in chatbot-based CRS. We introduce a pipeline to contextualize the input utterances in conversations. We then take the next step towards leveraging reverse feature engineering to link the contextualized input and learning model to support intent recognition. Since performance evaluation is achieved based on different ML models, we use transformer base models to evaluate the proposed approach using a labelled dialogue dataset (MSDialogue) of question-answering interactions between information seekers and answer providers.
translated by 谷歌翻译
边缘计算是一个将数据处理服务转移到生成数据的网络边缘的范式。尽管这样的架构提供了更快的处理和响应,但除其他好处外,它还提出了必须解决的关键安全问题和挑战。本文讨论了从硬件层到系统层的边缘网络体系结构出现的安全威胁和漏洞。我们进一步讨论了此类网络中的隐私和法规合规性挑战。最后,我们认为需要一种整体方法来分析边缘网络安全姿势,该姿势必须考虑每一层的知识。
translated by 谷歌翻译
即使机器学习算法已经在数据科学中发挥了重要作用,但许多当前方法对输入数据提出了不现实的假设。由于不兼容的数据格式,或数据集中的异质,分层或完全缺少的数据片段,因此很难应用此类方法。作为解决方案,我们提出了一个用于样本表示,模型定义和培训的多功能,统一的框架,称为“ Hmill”。我们深入审查框架构建和扩展的机器学习的多个范围范式。从理论上讲,为HMILL的关键组件的设计合理,我们将通用近似定理的扩展显示到框架中实现的模型所实现的所有功能的集合。本文还包含有关我们实施中技术和绩效改进的详细讨论,该讨论将在MIT许可下发布供下载。该框架的主要资产是其灵活性,它可以通过相同的工具对不同的现实世界数据源进行建模。除了单独观察到每个对象的一组属性的标准设置外,我们解释了如何在框架中实现表示整个对象系统的图表中的消息推断。为了支持我们的主张,我们使用框架解决了网络安全域的三个不同问题。第一种用例涉及来自原始网络观察结果的IoT设备识别。在第二个问题中,我们研究了如何使用以有向图表示的操作系统的快照可以对恶意二进制文件进行分类。最后提供的示例是通过网络中实体之间建模域黑名单扩展的任务。在所有三个问题中,基于建议的框架的解决方案可实现与专业方法相当的性能。
translated by 谷歌翻译