智能论文笔记

YMIR: A Rapid Data-centric Development Platform for Vision Applications

Phoenix X. Huang , Wenze Hu , William Brendel , Manmohan Chandraker , Li-Jia Li , Xiaoyu Wang

分类：人工智能 | 机器学习

2021-11-19

本文介绍了一种开源平台，可快速发展计算机视觉应用。该平台在机器学习开发过程的中心进行了高效的数据开发，集成了主动学习方法，数据和型号版本控制，并使用项目等概念，以便并行启用多个任务特定数据集的快速迭代。我们通过将开发过程抽象到核心状态和操作中，设计开放式平台，并设计开放API，将第三方工具集成为操作的实现。这种开放式设计降低了ML与现有工具的ML团队的开发成本和采用费用。与此同时，该平台支持录制项目开发历史记录，可以共享成功的项目，以进一步提高类似任务的模型生产效率。该平台是开源的，已经在内部使用，以满足自定义现实世界计算机视觉应用程序的日益增长的需求。

translated by 谷歌翻译

Towards a Change Taxonomy for Machine Learning Systems

Aaditya Bhatia , Ellis E. Eghan , Manel Grichi , William G. Cavanagh , Zhen Ming , Jiang , Bram Adams

分类：人工智能

2022-03-21

机器学习（ML）研究出版物通常在GitHub上提供开源实现，使他们的受众可以复制，验证甚至扩展机器学习算法，数据集和元数据。但是，到目前为止，关于此类ML研究存储库的协作活动程度知之甚少，特别是（1）此类存储库从叉子获得贡献的程度，（2）此类贡献的性质（即类型，变化），以及（3）变更的性质，这些变化未归还给叉子，这可能代表了错过的机会。在本文中，我们对1,346毫升研究存储库及其67,369叉进行了验证，无论是定量还是定性（通过Hindle等人的构建代码更改的开创性分类法）。我们发现，尽管ML研究存储库是大量分叉的，但只有9％的叉子对叉子存储库进行了修改。后者的42％发送给家长存储库的更改，其中一半（52％）被父家存储库接受。我们对539个贡献的定性分析和378个本地（仅叉）变化，扩展了Hindle等人的分类法，其中一个与ML（数据）相关的新顶级变更类别和15个新的子类别，包括9个ML--特定的（输入数据，输出数据，程序数据，共享，变更评估，参数调整，性能，预处理，模型培训）。虽然没有由叉子造成的更改主要是涉及域特定于域的定制和本地实验（例如，参数调整），但原点ML存储库确实错过了不可忽视的15.4％文档更改的13.6％的功能更改，而功能更改的13.6％和11.4％的错误修复更改。本文中的发现将对从业者，研究人员，工具匠和教育者有用。

translated by 谷歌翻译

MLExchange -- A web-based platform enabling exchangeable machine learning workflows

Zhuowen Zhao , Tanny Chavez , Elizabeth Holman , Guanhua Hao , Adam Green , Harinarayan Krishnan , Dylan McReynolds , Ronald Pandolfi , Eric J. Roberts , Petrus H. Zwart

分类：机器学习 | 人工智能

2022-08-20

机器学习（ML）算法在帮助不同学科和机构的科学社区解决大型和多样化的数据问题方面表现出了增长的趋势。但是，许多可用的ML工具在编程方面要求且计算成本高昂。 MlexChange项目旨在建立一个配备有能力工具的协作平台，该平台使科学家和设施使用者没有深刻的ML背景来使用ML和计算资源进行科学发现。在高水平上，我们针对完整的用户体验，在该体验中，可以通过Web应用程序可以轻松获得管理和交换ML算法，工作流和数据。到目前为止，我们已经构建了四个主要组件，即中央职位管理器，集中式内容注册表，用户门户和搜索引擎，并成功地将这些组件部署到了测试服务器上。由于每个组件都是一个独立的容器，因此可以轻松地在不同尺度的服务器上部署整个平台或其个人服务，从笔记本电脑（通常是单个用户）到高性能群集（HPC）（同时）通过许多用户。因此，MlexChange使用方案使灵活性变得灵活 - 用户可以从远程服务器访问服务和资源，也可以在其本地网络中运行整个平台或其个人服务。

translated by 谷歌翻译

Globus Automation Services: Research process automation across the space-time continuum

Ryan Chard , Jim Pruyne , Kurt McKee , Josh Bryan , Brigitte Raumann , Rachana Ananthakrishnan , Kyle Chard , Ian Foster

分类：人工智能

2022-08-19

研究过程自动化 - 对科学仪器，计算机，数据存储和其他资源的可靠，高效和可重复执行的可靠，高效和可重复执行，这是现代科学的基本要素。我们在此处报告Globus研究数据管理平台内的新服务，该服务可以将各种研究过程的规范作为可重复使用的动作集，流量以及在异质研究环境中执行此类流动的集合。为了以广泛的空间范围（例如，从科学仪器到远程数据中心）和时间范围（从几秒钟到几周），这些Globus自动化服务功能：1）云托管以可靠地执行长期持久的流量，尽管零星的失败，但这些Globus自动化服务功能：1） ; 2）声明性符号和可扩展的异步行动提供商API，用于定义和执行涉及任意资源的各种行动和流动规范； 3）授权授权机制，用于安全调用动作。这些服务允许研究人员将广泛的研究任务的管理外包和自动化为可靠，可扩展和安全的云平台。我们向Globus自动化服务提供用例

translated by 谷歌翻译

What can Data-Centric AI Learn from Data and ML Engineering?

Neoklis Polyzotis , Matei Zaharia

分类：机器学习

2021-12-13

以数据为中心的AI是AI社区的一个新的和令人兴奋的研究主题，但许多组织已经构建并维护了各种“以数据为中心的”应用程序，其目标是产生高质量数据。这些范围从传统的业务数据处理应用程序（例如，我们本月每个客户收费多少份数？“）向生产发动机等生产ML系统。近年来，数据和ML工程的领域是为了管理这些应用程序，而且都包括许多有趣的新颖工具和流程。在本文中，我们根据我们的体验数据和ML平台讨论了可能有趣的数据和ML工程，这些课程可以很有趣地应用于数据中心为中心的AI。

translated by 谷歌翻译

PIMIP: An Open Source Platform for Pathology Information Management and Integration

Jialun Wu , Anyu Mao , Xinrui Bao , Haichuan Zhang , Zeyu Gao , Chunbao Wang , Tieliang Gong , Chen Li

分类：人工智能 | 计算机视觉

2021-11-09

数字病理学在医疗领域的人工智能发展中起着至关重要的作用。数字病理平台可以使病态资源数字和网络，并实现视觉数据的永久存储和同步浏览处理，而不限制时间和空间。它已广泛用于各种病理领域。然而，仍然缺乏开放式和通用的数字病理平台，可以帮助医生在数字病理部分的管理和分析中，以及相关患者信息的管理和结构化描述。大多数平台无法集成图像查看，注释和分析以及文本信息管理。为了解决上述问题，我们提出了一个全面而可扩展的平台PIMIP。我们的PIMIP基于数字病理部分的可视化开发了图像注释功能。我们的注释功能支持多用户协作注释和多设备注释，并实现某些注释任务的自动化。在注释任务中，我们邀请了一个专业的病理学家进行了指导。我们介绍了一种用于图像分析的机器学习模块。我们收集的数据包括来自当地医院和临床示例的公共数据。我们的平台更临床，适合临床使用。除了图像数据外，还构建了文本信息的管理和显示。所以我们的平台是全面的。平台框架是以模块化的方式构建的，以支持用户独立添加机器学习模块，这使我们的平台可扩展。

translated by 谷歌翻译

An Empirical Study on the Usage of Automated Machine Learning Tools

Forough Majidi , Moses Openja , Foutse Khomh , Heng Li

分类：人工智能 | 机器学习

2022-08-28

在过去几年中，自动化机器学习（AUTOML）工具的普及有所增加。机器学习（ML）从业人员使用自动工具来自动化和优化功能工程，模型培训和超参数优化的过程。最近的工作对从业人员使用汽车工具的经验进行了定性研究，并根据其性能和提供的功能比较了不同的汽车工具，但是现有的工作都没有研究在大规模实际项目中使用Automl工具的实践。因此，我们进行了一项实证研究，以了解ML从业者如何在其项目中使用汽车工具。为此，我们在GitHub上托管的大量开源项目存储库中研究了最常用的十大汽车工具及其各自的用法。我们研究的结果表明1）ML从业人员主要使用哪种汽车工具，以及2）使用这些汽车工具的存储库的特征。此外，我们确定了使用Automl工具的目的（例如，模型参数采样，搜索空间管理，模型评估/错误分析，数据/功能转换和数据标记）以及ML管道的阶段（例如功能工程）使用工具。最后，我们报告在同一源代码文件中使用Automl工具的频率。我们希望我们的结果可以帮助ML从业人员了解不同的汽车工具及其使用情况，以便他们可以为其目的选择正确的工具。此外，Automl工具开发人员可以从我们的发现中受益，以深入了解其工具的用法并改善其工具以更好地适合用户的用法和需求。

translated by 谷歌翻译

HTML版本

POTATO: The Portable Text Annotation Tool

Jiaxin Pei , Aparna Ananthasubramaniam , Xingyao Wang , Naitian Zhou , Jackson Sargent , Apostolos Dedeloudis , David Jurgens

分类：自然语言处理 | 人工智能 | 机器学习

2022-12-16

We present POTATO, the Portable text annotation tool, a free, fully open-sourced annotation system that 1) supports labeling many types of text and multimodal data; 2) offers easy-to-configure features to maximize the productivity of both deployers and annotators (convenient templates for common ML/NLP tasks, active learning, keypress shortcuts, keyword highlights, tooltips); and 3) supports a high degree of customization (editable UI, inserting pre-screening questions, attention and qualification tests). Experiments over two annotation tasks suggest that POTATO improves labeling speed through its specially-designed productivity features, especially for long documents and complex tasks. POTATO is available at https://github.com/davidjurgens/potato and will continue to be updated.

translated by 谷歌翻译

Proceedings of the 2nd International Workshop on Reading Music Systems

Jorge Calvo-Zaragoza , Alexander Pacha

分类：计算机视觉 | 机器学习

2022-12-01

The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 2nd International Workshop on Reading Music Systems, held in Delft on the 2nd of November 2019.

translated by 谷歌翻译

Responsible AI Pattern Catalogue: a Multivocal Literature Review

Qinghua Lu , Liming Zhu , Xiwei Xu , Jon Whittle , Didar Zowghi , Aurelie Jacquet

分类：人工智能

2022-09-12

负责任的AI被广泛认为是我们时代最大的科学挑战之一，也是释放AI市场并增加采用率的关键。为了应对负责任的AI挑战，最近已经发布了许多AI伦理原则框架，AI系统应该符合这些框架。但是，没有进一步的最佳实践指导，从业者除了真实性之外没有什么。同样，在算法级别而不是系统级的算法上进行了重大努力，主要集中于数学无关的道德原则（例如隐私和公平）的一部分。然而，道德问题在开发生命周期的任何步骤中都可能发生，从而超过AI算法和模型以外的系统的许多AI，非AI和数据组件。为了从系统的角度操作负责任的AI，在本文中，我们采用了一种面向模式的方法，并根据系统的多媒体文献综述（MLR）的结果提出了负责任的AI模式目录。与其呆在道德原则层面或算法层面上，我们专注于AI系统利益相关者可以在实践中采取的模式，以确保开发的AI系统在整个治理和工程生命周期中负责。负责的AI模式编目将模式分为三组：多层次治理模式，可信赖的过程模式和负责任的逐设计产品模式。这些模式为利益相关者实施负责任的AI提供了系统性和可行的指导。

translated by 谷歌翻译

A Methodology for a Scalable, Collaborative, and Resource-Efficient Platform to Facilitate Healthcare AI Research

Raphael Y. Cohen , Vesela P. Kovacheva

分类：人工智能

2021-12-13

Healthcare Ai持有增加患者安全性，增强效率和改善患者结果的潜力，但研究通常受到数据访问，队列策划和分析工具的限制。电子健康记录数据，实时数据和实时高分辨率设备数据的集合和翻译可能是具有挑战性和耗时的。现实世界AI工具的发展需要克服数据采集，稀缺医院资源和数据治疗需求的挑战。这些瓶颈可能导致资源沉重的需求和AI系统的研究和开发延迟。我们提供了一种系统和方法，可加速数据采集，数据集开发和分析和AI模型开发。我们创建了一个依赖于可扩展的微服务后端的交互式平台。该系统可以每小时摄取15,000名患者记录，其中每个记录代表数千个多式数级测量，文本备注和高分辨率数据。统称，这些记录可以接近数据的数据。该系统可以在2-5分钟内进一步执行队列和初步数据集分析。因此，多个用户可以在实时同时协作以迭代数据集和模型。我们预计这种方法将推动现实世界的AI模型开发，并且在长期运行中，有意义地改善医疗保健交付。

translated by 谷歌翻译

Continual learning on deployment pipelines for Machine Learning Systems

Qiang Li , Chongyu Zhang

分类：机器学习 | 计算机视觉

2022-12-05

Following the development of digitization, a growing number of large Original Equipment Manufacturers (OEMs) are adapting computer vision or natural language processing in a wide range of applications such as anomaly detection and quality inspection in plants. Deployment of such a system is becoming an extremely important topic. Our work starts with the least-automated deployment technologies of machine learning systems includes several iterations of updates, and ends with a comparison of automated deployment techniques. The objective is, on the one hand, to compare the advantages and disadvantages of various technologies in theory and practice, so as to facilitate later adopters to avoid making the generalized mistakes when implementing actual use cases, and thereby choose a better strategy for their own enterprises. On the other hand, to raise awareness of the evaluation framework for the deployment of machine learning systems, to have more comprehensive and useful evaluation metrics (e.g. table 2), rather than only focusing on a single factor (e.g. company cost). This is especially important for decision-makers in the industry.

translated by 谷歌翻译

Deep Lake: a Lakehouse for Deep Learning

Sasun Hambardzumyan , Abhinav Tuli , Levon Ghukasyan , Fariz Rahman , Hrant Topchyan , David Isayan , Mikayel Harutyunyan , Tatevik Hakobyan , Ivo Stranic , Davit Buniatyan

分类：人工智能 | 计算机视觉

2022-09-22

传统的数据湖泊通过启用时间旅行，运行SQL查询，使用酸性交易摄入数据以及可视化PBABYTE尺度数据集在云存储中，为分析工作负载提供了关键的数据基础架构。它们使组织能够分解数据孤岛，解锁数据驱动的决策，提高运营效率并降低成本。但是，随着深度学习接管常见的分析工作流程，传统数据湖泊对诸如自然语言处理（NLP），音频处理，计算机视觉和涉及非尾巴数据集的应用程序的有用程度降低。本文介绍了Deep Lake，这是一个开源湖泊，用于在Activeloop开发的深度学习应用程序。 Deep Lake保持了一项关键区别的香草数据湖的好处：它以张量的形式存储复杂数据，例如图像，视频，注释以及表格数据，并将数据迅速流式传输到网络上（a ）张量查询语言，（b）浏览器可视化引擎或（c）不牺牲GPU利用率的深度学习框架。可以从Pytorch，Tensorflow，Jax，与许多MLOPS工具集成在一起的数据集。

translated by 谷歌翻译

Analyzing social media with crowdsourcing in Crowd4SDG

Carlo Bono , Mehmet Oğuz Mülâyim , Cinzia Cappiello , Mark Carman , Jesus Cerquides , Jose Luis Fernandez-Marquez , Rosy Mondardini , Edoardo Ramalli , Barbara Pernici

分类：人工智能

2022-08-04

社交媒体有可能提供有关紧急情况和突然事件的及时信息。但是，在每天发布的数百万帖子中找到相关信息可能很困难，并且开发数据分析项目通常需要时间和技术技能。这项研究提出了一种为分析社交媒体的灵活支持的方法，尤其是在紧急情况下。引入了可以采用社交媒体分析的不同用例，并讨论了从大量帖子中检索信息的挑战。重点是分析社交媒体帖子中包含的图像和文本，以及一组自动数据处理工具，用于过滤，分类和使用人类的方法来支持数据分析师的内容。这种支持包括配置自动化工具的反馈和建议，以及众包收集公民的投入。通过讨论Crowd4SDG H2020欧洲项目中开发的三个案例研究来验证结果。

translated by 谷歌翻译

Machine Learning with DBOS

Robert Redmond , Nathan W. Weckwerth , Brian S. Xia , Qian Li , Peter Kraft , Deeptaanshu Kumar , Çağatay Demiralp , Michael Stonebraker

分类：机器学习

2022-08-10

我们最近提出了一个以DBM为中心的新群集操作系统堆栈DBO。DBO通过将ML代码封装在存储过程中，集中辅助ML数据，为基础DBMS内置的安全性，共同关注ML代码和数据以及跟踪数据和工作流源来源，从而为ML应用程序提供了独特的支持。在这里，我们在两个ML应用程序附近演示了这些好处的子集。我们首先表明，使用GPU的图像分类和对象检测模型可以用作DBOS存储程序，具有与现有系统竞争性能的DBOS存储程序。然后，我们提出了一项1D CNN，训练有素，可以在DBOS支持的Web服务上检测HTTP请求中的异常情况，从而实现SOTA结果。我们使用此模型来开发交互式异常检测系统，并通过定性用户反馈对其进行评估，并证明了其有用性作为未来工作的概念证明，以在DBO上开发实时的实时安全服务。

translated by 谷歌翻译

RLOps: Development Life-cycle of Reinforcement Learning Aided Open RAN

Peizheng Li , Jonathan Thomas , Xiaoyang Wang , Ahmed Khalil , Abdelrahim Ahmad , Rui Inacio , Shipra Kapoor , Arjun Parekh , Angela Doufexi , Arman Shojaeifard

分类：机器学习

2021-11-12

无线电接入网络（RAN）技术继续见证巨大的增长，开放式运行越来越最近的势头。在O-RAN规范中，RAN智能控制器（RIC）用作自动化主机。本文介绍了对O-RAN堆栈相关的机器学习（ML）的原则，特别是加强学习（RL）。此外，我们审查无线网络的最先进的研究，并将其投入到RAN框架和O-RAN架构的层次结构上。我们在整个开发生命周期中提供ML / RL模型面临的挑战的分类：从系统规范到生产部署（数据采集，模型设计，测试和管理等）。为了解决挑战，我们将一组现有的MLOPS原理整合，当考虑RL代理时，具有独特的特性。本文讨论了系统的生命周期模型开发，测试和验证管道，称为：RLOPS。我们讨论了RLOP的所有基本部分，包括：模型规范，开发和蒸馏，生产环境服务，运营监控，安全/安全和数据工程平台。根据这些原则，我们提出了最佳实践，以实现自动化和可重复的模型开发过程。

translated by 谷歌翻译

The Platform for non-metallic pipes defects recognition. Design and Implementation

Fabio Cacciatori , Sergei Nikolaev , Dmitrii Grigorev

分类：机器学习

2022-12-09

This paper describes a prototype software and hardware platform to provide support to field operators during the inspection of surface defects of non-metallic pipes. Inspection is carried out by video filming defects created on the same surface in real-time using a "smart" helmet device and other mobile devices. The work focuses on the detection and recognition of the defects which appears as colored iridescence of reflected light caused by the diffraction effect arising from the presence of internal stresses in the inspected material. The platform allows you to carry out preliminary analysis directly on the device in offline mode, and, if a connection to the network is established, the received data is transmitted to the server for post-processing to extract information about possible defects that were not detected at the previous stage. The paper presents a description of the stages of design, formal description, and implementation details of the platform. It also provides descriptions of the models used to recognize defects and examples of the result of the work.

translated by 谷歌翻译

Label Sleuth: From Unlabeled Text to a Classifier in a Few Hours

Eyal Shnarch , Alon Halfon , Ariel Gera , Marina Danilevsky , Yannis Katsis , Leshem Choshen , Martin Santillan Cooper , Dina Epelboim , Zheng Zhang , Dakuo Wang

分类：自然语言处理

2022-08-02

文本分类在许多真实世界的情况下可能很有用，为最终用户节省了很多时间。但是，构建自定义分类器通常需要编码技能和ML知识，这对许多潜在用户构成了重大障碍。为了提高此障碍，我们介绍了标签侦探，这是一种免费的开源系统，用于标记和创建文本分类器。该系统对于（a）是一个无代码系统是独一无二的分类器在几个小时内，（c）开发用于开发人员进行配置和扩展。通过开放采购标签侦探，我们希望建立一个用户和开发人员社区，以扩大NLP模型的利用率。

translated by 谷歌翻译

Technology Readiness Levels for Machine Learning Systems

Alexander Lavin , Ciarán M. Gilligan-Lee , Alessya Visnjic , Siddha Ganju , Dava Newman , Atılım Güneş Baydin , Sujoy Ganguly , Danny Lange , Amit Sharma , Stephan Zheng

分类：机器学习 | 人工智能

2021-01-11

机器学习（ML）系统的开发和部署可以用现代工具轻松执行，但该过程通常是匆忙和意思是结束的。缺乏勤奋会导致技术债务，范围蠕变和未对准的目标，模型滥用和失败，以及昂贵的后果。另一方面，工程系统遵循明确定义的流程和测试标准，以简化高质量，可靠的结果的开发。极端是航天器系统，其中关键任务措施和鲁棒性在开发过程中根深蒂固。借鉴航天器工程和ML的经验（通过域名通过产品的研究），我们开发了一种经过验证的机器学习开发和部署的系统工程方法。我们的“机器学习技术准备水平”（MLTRL）框架定义了一个原则的过程，以确保强大，可靠和负责的系统，同时为ML工作流程流线型，包括来自传统软件工程的关键区别。 MLTRL甚至更多，MLTRL为跨团队和组织的人们定义了一个人工智能和机器学习技术的人员。在这里，我们描述了通过生产化和部署在医学诊断，消费者计算机视觉，卫星图像和粒子物理学等领域，以通过生产和部署在基本研究中开发ML方法的几个现实世界使用情况的框架和阐明。

translated by 谷歌翻译

Graph Learning Indexer: A Contributor-Friendly and Metadata-Rich Platform for Graph Learning Benchmarks

Jiaqi Ma , Xingjian Zhang , Hezheng Fan , Jin Huang , Tianyue Li , Ting Wei Li , Yiwen Tu , Chenshu Zhu , Qiaozhu Mei

分类：机器学习

2022-12-08

Establishing open and general benchmarks has been a critical driving force behind the success of modern machine learning techniques. As machine learning is being applied to broader domains and tasks, there is a need to establish richer and more diverse benchmarks to better reflect the reality of the application scenarios. Graph learning is an emerging field of machine learning that urgently needs more and better benchmarks. To accommodate the need, we introduce Graph Learning Indexer (GLI), a benchmark curation platform for graph learning. In comparison to existing graph learning benchmark libraries, GLI highlights two novel design objectives. First, GLI is designed to incentivize \emph{dataset contributors}. In particular, we incorporate various measures to minimize the effort of contributing and maintaining a dataset, increase the usability of the contributed dataset, as well as encourage attributions to different contributors of the dataset. Second, GLI is designed to curate a knowledge base, instead of a plain collection, of benchmark datasets. We use multiple sources of meta information to augment the benchmark datasets with \emph{rich characteristics}, so that they can be easily selected and used in downstream research or development. The source code of GLI is available at \url{https://github.com/Graph-Learning-Benchmarks/gli}.

translated by 谷歌翻译