The FAIR Guiding Principles aim to improve the findability, accessibility, interoperability, and reusability of digital content by making them both human and machine actionable. However, these principles have not yet been broadly adopted in the domain of machine learning-based program analyses and optimizations for High-Performance Computing (HPC). In this paper, we design a methodology to make HPC datasets and machine learning models FAIR after investigating existing FAIRness assessment and improvement techniques. Our methodology includes a comprehensive, quantitative assessment for elected data, followed by concrete, actionable suggestions to improve FAIRness with respect to common issues related to persistent identifiers, rich metadata descriptions, license and provenance information. Moreover, we select a representative training dataset to evaluate our methodology. The experiment shows the methodology can effectively improve the dataset and model's FAIRness from an initial score of 19.1% to the final score of 83.0%.
translated by 谷歌翻译
科学家在寻找最佳的输入资源来解决目标预测任务的最佳输入资源方面的困难是在知识图图图上训练算法的主要障碍之一。除此之外,一个关键的挑战是确定如何操纵(和嵌入)这些数据,这些数据通常以特定的三元组(即主题,谓词,对象)的形式来启用学习过程。在本文中,我们描述了Liveschema倡议,即一个门户,该网关提供了一个服务家庭,可以轻松访问,分析,转换和利用知识图模式,其主要目标是促进这些资源在机器学习用例中的重复使用。作为该计划的早期实施,我们还推进了一个在线目录,该目录依赖于800多个资源,并提供了第一组示例服务。
translated by 谷歌翻译
负责任的AI被广泛认为是我们时代最大的科学挑战之一,也是释放AI市场并增加采用率的关键。为了应对负责任的AI挑战,最近已经发布了许多AI伦理原则框架,AI系统应该符合这些框架。但是,没有进一步的最佳实践指导,从业者除了真实性之外没有什么。同样,在算法级别而不是系统级的算法上进行了重大努力,主要集中于数学无关的道德原则(例如隐私和公平)的一部分。然而,道德问题在开发生命周期的任何步骤中都可能发生,从而超过AI算法和模型以外的系统的许多AI,非AI和数据组件。为了从系统的角度操作负责任的AI,在本文中,我们采用了一种面向模式的方法,并根据系统的多媒体文献综述(MLR)的结果提出了负责任的AI模式目录。与其呆在道德原则层面或算法层面上,我们专注于AI系统利益相关者可以在实践中采取的模式,以确保开发的AI系统在整个治理和工程生命周期中负责。负责的AI模式编目将模式分为三组:多层次治理模式,可信赖的过程模式和负责任的逐设计产品模式。这些模式为利益相关者实施负责任的AI提供了系统性和可行的指导。
translated by 谷歌翻译
Establishing open and general benchmarks has been a critical driving force behind the success of modern machine learning techniques. As machine learning is being applied to broader domains and tasks, there is a need to establish richer and more diverse benchmarks to better reflect the reality of the application scenarios. Graph learning is an emerging field of machine learning that urgently needs more and better benchmarks. To accommodate the need, we introduce Graph Learning Indexer (GLI), a benchmark curation platform for graph learning. In comparison to existing graph learning benchmark libraries, GLI highlights two novel design objectives. First, GLI is designed to incentivize \emph{dataset contributors}. In particular, we incorporate various measures to minimize the effort of contributing and maintaining a dataset, increase the usability of the contributed dataset, as well as encourage attributions to different contributors of the dataset. Second, GLI is designed to curate a knowledge base, instead of a plain collection, of benchmark datasets. We use multiple sources of meta information to augment the benchmark datasets with \emph{rich characteristics}, so that they can be easily selected and used in downstream research or development. The source code of GLI is available at \url{https://github.com/Graph-Learning-Benchmarks/gli}.
translated by 谷歌翻译
物联网(物联网)正在通过弥合信息技术(IT)和运营技术(OT)之间的差距来改变行业。机器正在与连接的传感器集成在一起,并通过智能分析应用程序管理,加速了数字化转型和业务运营。将机器学习(ML)带到工业设备是一个进步,旨在促进IT和OT的融合。但是,在工业物联网(IIOT)中开发ML应用程序提出了各种挑战,包括硬件异质性,ML模型的非标准化表示,设备和ML模型兼容性问题以及慢速应用程序开发。在这一领域的成功部署需要深入了解硬件,算法,软件工具和应用程序。因此,本文介绍了一个名为ML应用程序的名为“语义低代码工程”(SELOC-ML),该框架建立在低代码平台上,以利用语义Web技术来支持IIOT的ML应用程序的快速开发。 SELOC-ML使非专家能够轻松地模拟,发现,重复使用和对接ML模型和设备。可以根据匹配结果自动生成项目代码在硬件上部署。开发人员可以从称为食谱的语义应用模板中受益,从而快速原型最终用户应用程序。与工业ML分类案例研究中的传统方法相比,评估证实了至少三倍的工程努力,显示了SELOC-ML的效率和实用性。我们分享代码并欢迎任何贡献。
translated by 谷歌翻译
如今,由于最近在人工智能(AI)和机器学习(ML)中的近期突破,因此,智能系统和服务越来越受欢迎。然而,机器学习不仅满足软件工程,不仅具有有希望的潜力,而且还具有一些固有的挑战。尽管最近的一些研究努力,但我们仍然没有明确了解开发基于ML的申请和当前行业实践的挑战。此外,目前尚不清楚软件工程研究人员应将其努力集中起来,以更好地支持ML应用程序开发人员。在本文中,我们报告了一个旨在了解ML应用程序开发的挑战和最佳实践的调查。我们合成从80名从业者(以不同的技能,经验和应用领域)获得的结果为17个调查结果;概述ML应用程序开发的挑战和最佳实践。参与基于ML的软件系统发展的从业者可以利用总结最佳实践来提高其系统的质量。我们希望报告的挑战将通知研究界有关需要调查的主题,以改善工程过程和基于ML的申请的质量。
translated by 谷歌翻译
Machine Learning for Source Code (ML4Code) is an active research field in which extensive experimentation is needed to discover how to best use source code's richly structured information. With this in mind, we introduce JEMMA, an Extensible Java Dataset for ML4Code Applications, which is a large-scale, diverse, and high-quality dataset targeted at ML4Code. Our goal with JEMMA is to lower the barrier to entry in ML4Code by providing the building blocks to experiment with source code models and tasks. JEMMA comes with a considerable amount of pre-processed information such as metadata, representations (e.g., code tokens, ASTs, graphs), and several properties (e.g., metrics, static analysis results) for 50,000 Java projects from the 50KC dataset, with over 1.2 million classes and over 8 million methods. JEMMA is also extensible allowing users to add new properties and representations to the dataset, and evaluate tasks on them. Thus, JEMMA becomes a workbench that researchers can use to experiment with novel representations and tasks operating on source code. To demonstrate the utility of the dataset, we also report results from two empirical studies on our data, ultimately showing that significant work lies ahead in the design of context-aware source code models that can reason over a broader network of source code entities in a software project, the very task that JEMMA is designed to help with.
translated by 谷歌翻译
机器学习(ML)系统的开发和部署可以用现代工具轻松执行,但该过程通常是匆忙和意思是结束的。缺乏勤奋会导致技术债务,范围蠕变和未对准的目标,模型滥用和失败,以及昂贵的后果。另一方面,工程系统遵循明确定义的流程和测试标准,以简化高质量,可靠的结果的开发。极端是航天器系统,其中关键任务措施和鲁棒性在开发过程中根深蒂固。借鉴航天器工程和ML的经验(通过域名通过产品的研究),我们开发了一种经过验证的机器学习开发和部署的系统工程方法。我们的“机器学习技术准备水平”(MLTRL)框架定义了一个原则的过程,以确保强大,可靠和负责的系统,同时为ML工作流程流线型,包括来自传统软件工程的关键区别。 MLTRL甚至更多,MLTRL为跨团队和组织的人们定义了一个人工智能和机器学习技术的人员。在这里,我们描述了通过生产化和部署在医学诊断,消费者计算机视觉,卫星图像和粒子物理学等领域,以通过生产和部署在基本研究中开发ML方法的几个现实世界使用情况的框架和阐明。
translated by 谷歌翻译
社交媒体有可能提供有关紧急情况和突然事件的及时信息。但是,在每天发布的数百万帖子中找到相关信息可能很困难,并且开发数据分析项目通常需要时间和技术技能。这项研究提出了一种为分析社交媒体的灵活支持的方法,尤其是在紧急情况下。引入了可以采用社交媒体分析的不同用例,并讨论了从大量帖子中检索信息的挑战。重点是分析社交媒体帖子中包含的图像和文本,以及一组自动数据处理工具,用于过滤,分类和使用人类的方法来支持数据分析师的内容。这种支持包括配置自动化工具的反馈和建议,以及众包收集公民的投入。通过讨论Crowd4SDG H2020欧洲项目中开发的三个案例研究来验证结果。
translated by 谷歌翻译
模型用于软件工程(SE)和人工智能(AI)。 SE模型可以在不同抽象层次的架构中指定架构,并从早期概念化和设计,从软件开发生命周期的各个阶段解决不同的问题,以验证,实施,测试和演化。然而,AI模型可以提供智能能力,例如预测和决策支持。例如,在机器学习(ml)中,这是目前是AI的最受欢迎的子学科,数学模型可能会在观察到的数据中学习有用的模式,并且可以成为能够进行预测。这项工作的目标是通过将在所述社区的模型聚集在一起并提出一种需要ML的智能系统的模型驱动软件开发的整体方法来创建协同作用。我们说明了软件模型如何能够以无缝方式创建和处理ML模型。主要焦点位于事物互联网(物联网)的领域,其中ML和模型驱动的SE都发挥着关键作用。在需要采取有针对性架构的网络物理系统的系统视角下,SE和ML子系统的集成设计环境将最能支持所得系统实现的优化和整体效率。特别是,我们实现了基于INTOMML的CL-Quadrat的所提出的方法,并使用来自物联网域的案例研究以及经验用户评估来验证它。它归还所提出的方法不仅是可行的,而且还可能有助于与IOT连接的智能网络物理系统(CPS)的软件开发的性能飞跃,以及增强的使用者的用户体验建议的建模解决方案。
translated by 谷歌翻译
在过去几年中,自动化机器学习(AUTOML)工具的普及有所增加。机器学习(ML)从业人员使用自动工具来自动化和优化功能工程,模型培训和超参数优化的过程。最近的工作对从业人员使用汽车工具的经验进行了定性研究,并根据其性能和提供的功能比较了不同的汽车工具,但是现有的工作都没有研究在大规模实际项目中使用Automl工具的实践。因此,我们进行了一项实证研究,以了解ML从业者如何在其项目中使用汽车工具。为此,我们在GitHub上托管的大量开源项目存储库中研究了最常用的十大汽车工具及其各自的用法。我们研究的结果表明1)ML从业人员主要使用哪种汽车工具,以及2)使用这些汽车工具的存储库的特征。此外,我们确定了使用Automl工具的目的(例如,模型参数采样,搜索空间管理,模型评估/错误分析,数据/功能转换和数据标记)以及ML管道的阶段(例如功能工程)使用工具。最后,我们报告在同一源代码文件中使用Automl工具的频率。我们希望我们的结果可以帮助ML从业人员了解不同的汽车工具及其使用情况,以便他们可以为其目的选择正确的工具。此外,Automl工具开发人员可以从我们的发现中受益,以深入了解其工具的用法并改善其工具以更好地适合用户的用法和需求。
translated by 谷歌翻译
本文确定了数据驱动系统中的数据最小化和目的限制的两个核心数据保护原理。虽然当代数据处理实践似乎与这些原则的赔率达到差异,但我们证明系统可以在技术上使用的数据远远少于目前的数据。此观察是我们详细的技术法律分析的起点,揭示了妨碍了妨碍了实现的障碍,并举例说明了在实践中应用数据保护法的意外权衡。我们的分析旨在向辩论提供关于数据保护对欧盟人工智能发展的影响,为数据控制员,监管机构和研究人员提供实际行动点。
translated by 谷歌翻译
研究过程自动化 - 对科学仪器,计算机,数据存储和其他资源的可靠,高效和可重复执行的可靠,高效和可重复执行,这是现代科学的基本要素。我们在此处报告Globus研究数据管理平台内的新服务,该服务可以将各种研究过程的规范作为可重复使用的动作集,流量以及在异质研究环境中执行此类流动的集合。为了以广泛的空间范围(例如,从科学仪器到远程数据中心)和时间范围(从几秒钟到几周),这些Globus自动化服务功能:1)云托管以可靠地执行长期持久的流量,尽管零星的失败,但这些Globus自动化服务功能:1) ; 2)声明性符号和可扩展的异步行动提供商API,用于定义和执行涉及任意资源的各种行动和流动规范; 3)授权授权机制,用于安全调用动作。这些服务允许研究人员将广泛的研究任务的管理外包和自动化为可靠,可扩展和安全的云平台。我们向Globus自动化服务提供用例
translated by 谷歌翻译
数据集在机器学习(ML)模型的培训和评估中起着核心作用。但是它们也是许多不希望的模型行为的根本原因,例如有偏见的预测。为了克服这种情况,ML社区提出了一个以数据为中心的文化转变,在该转变中,将数据问题给予他们应有的关注,并且围绕数据集的收集和处理的更多标准实践开始讨论和建立。到目前为止,这些建议主要是自然语言中描述的高级准则,因此,它们很难形式化并适用于特定数据集。从这个意义上讲,受这些建议的启发,我们定义了一种新的特定领域语言(DSL),以精确描述机器学习数据集,以其结构,数据出处和社会关注。我们认为,该DSL将促进任何ML计划,以利用和受益于ML的这种以数据为中心的转移(例如,为新项目选择最合适的数据集或更好地复制其他ML结果)。 DSL被实现为视觉工作室代码插件,并已根据开源许可发布。
translated by 谷歌翻译
科学数据的一套简洁且可衡量的公平(可访问,可互操作和可重复使用的)原则正在转变用于数据管理和管理的最新实践,以支持和支持发现和创新。从这项计划中学习,并承认人工智能(AI)在科学和工程实践中的影响,我们为AI模型引入了一套实用,简洁和可衡量的公平原则。我们展示了如何在统一的计算框架内创建和共享公平的数据和AI模型,结合了以下要素:Argonne国家实验室的高级光子源,材料数据设施,科学数据和学习中心,Funcx和Argonne Leadersition的数据和学习中心计算设施(ALCF),尤其是ALCF AI测试台的Thetagpu SuperCuputer和Sambanova Datascale系统。我们描述了如何利用这种域 - 不足的计算框架来实现自主AI驱动的发现。
translated by 谷歌翻译
随着各种公开的AI伦理原则的共识,差距仍然可以随时采用设计和开发负责任的AI系统。我们研究了来自澳大利亚国家科学研究机构(CSIRO)的研究人员和工程师的实践和经验,他们参与设计和开发AI系统的一系列目的。半结构化访谈用于检查参与者的做法如何与澳大利亚政府提出的一套高级AI伦理原则涉及并对齐。原则包括:隐私保护和安全,可靠性和安全性,透明度和解释性,公平性,竞争性,责任,人以人为本的价值观和人类,社会与环境福祉。研究了研究人员和工程师的见解以及在原则的实际应用中为它们提供的挑战。最后,提供了一系列组织响应,以支持实施高级AI道德原则。
translated by 谷歌翻译
近年来,数据科学已经显着发展。数据分析和采矿过程成为可用数据集的所有行业的常规。已收集,策划,存储和用于提取知识的大量数据存储库。这变得司空见惯。随后,我们直接从数据或通过给定域中的专家提取大量知识。现在的挑战是如何利用以前因高效决策过程而闻名的所有这些知识。直到最近,通过多年的研究获得的许多知识都存储在静态知识库或本体中,而从数据挖掘研究中获得的更多样化和动态知识并没有集中和始终如一地管理。在这项研究中,我们提出了一个称为基于本体的知识图的新型模型,以代表和存储农作物耕作中数据挖掘的结果(知识),以建立,维护和丰富知识发现过程。提出的模型包括六个主要集合:概念,属性,关系,转换,实例和状态。该模型是动态的,可以随时促进知识的访问,更新和开发。本文还提出了用于处理这种基于知识模型的体系结构。系统体系结构包括知识建模,提取,评估,发布和开发。该系统已被实施并用于农业管理和监测。事实证明,它非常有效,并且有望扩展到其他领域。
translated by 谷歌翻译
机器学习(ML)研究出版物通常在GitHub上提供开源实现,使他们的受众可以复制,验证甚至扩展机器学习算法,数据集和元数据。但是,到目前为止,关于此类ML研究存储库的协作活动程度知之甚少,特别是(1)此类存储库从叉子获得贡献的程度,(2)此类贡献的性质(即类型,变化),以及(3)变更的性质,这些变化未归还给叉子,这可能代表了错过的机会。在本文中,我们对1,346毫升研究存储库及其67,369叉进行了验证,无论是定量还是定性(通过Hindle等人的构建代码更改的开创性分类法)。我们发现,尽管ML研究存储库是大量分叉的,但只有9%的叉子对叉子存储库进行了修改。后者的42%发送给家长存储库的更改,其中一半(52%)被父家存储库接受。我们对539个贡献的定性分析和378个本地(仅叉)变化,扩展了Hindle等人的分类法,其中一个与ML(数据)相关的新顶级变更类别和15个新的子类别,包括9个ML--特定的(输入数据,输出数据,程序数据,共享,变更评估,参数调整,性能,预处理,模型培训)。虽然没有由叉子造成的更改主要是涉及域特定于域的定制和本地实验(例如,参数调整),但原点ML存储库确实错过了不可忽视的15.4%文档更改的13.6%的功能更改,而功能更改的13.6%和11.4%的错误修复更改。本文中的发现将对从业者,研究人员,工具匠和教育者有用。
translated by 谷歌翻译
各种网络的部署(例如,事物互联网(IOT)和移动网络),数据库(例如,营养表和食品组成数据库)和社交媒体(例如,Instagram和Twitter)产生大量的多型食品数据,这在食品科学和工业中起着关键作用。然而,由于众所周知的数据协调问题,这些多源食品数据显示为信息孤岛,导致难以充分利用这些食物数据。食物知识图表提供了统一和标准化的概念术语及其结构形式的关系,因此可以将食物信息孤单转换为更可重复使用的全球数量数字连接的食物互联网以使各种应用有益。据我们所知,这是食品科学与工业中食品知识图表的第一个全面审查。我们首先提供知识图表的简要介绍,然后主要从食物分类,食品本体到食品知识图表的进展。粮食知识图表的代表性应用将在新的配方开发,食品可追溯性,食物数据可视化,个性化饮食推荐,食品搜索和质询回答,视觉食品对象识别,食品机械智能制造方面来概述。我们还讨论了该领域的未来方向,例如食品供应链系统和人类健康的食品知识图,这应该得到进一步的研究。他们的巨大潜力将吸引更多的研究努力,将食物知识图形应用于食品科学和工业领域。
translated by 谷歌翻译
建筑物的智能和连续调试(SCCX)可能会大大减少设计和运营性能之间的差距。本体论在SCCX中起着重要作用,因为它们促进了机器的数据可读性和推理。为了将其开发和纳入SCCX,需要更好地了解本体。本文批判性地回顾了自2014年以来自2014年以来在SCCX域内建立数据本体的最新研究,通过基于建筑数据类型,一般方法和应用程序对它们进行排序。在大多数现有本体论中,已经考虑了建筑信息建模和建筑管理系统的两个主要领域的数据类型。从现有本体论的批判分析中可以明显看出三个主要应用:(1)关键绩效指标计算,(2)建筑物绩效的改善以及(3)故障检测和诊断。文献综述中发现的关键差距是SCCX的整体本体,并了解应如何评估这种方法。基于这些发现,本研究为未来的必要研究提供了建议,包括:与SCCX相关的数据类型的识别,本体学绩效评估以及创建开源方法。
translated by 谷歌翻译