智能论文笔记

Combining Machine Learning with Physics: A Framework for Tracking and Sorting Multiple Dark Solitons

Shangjie Guo , Sophia M. Koh , Amilson R. Fritsch , I. B. Spielman , Justyna P. Zwolak

分类：计算机视觉 | 机器学习

2021-11-08

在Ultracold Atom实验中，数据通常以用于准备和测量系统的技术中固有的信息丢失的图像形式。当感兴趣的过程复杂时，这尤其成问题，例如Bose-Einstein缩合物中激发的相互作用（BECS）。在本文中，我们描述了一种与基于物理学的传统分析的机器学习（ML）模型的框架组合，以识别和跟踪BEC的图像中的多个Solitonic激发。我们使用基于ML的对象探测器来定位孤子激励并开发物理信息的分类器，将孤子激励分类为物理上积极的子类别。最后，我们介绍了一种质量指标量化特定特征是Kink Soliton的可能性。我们培训的此框架 - 焊接 - 焊接 - 被公开可作为开源Python包。焊接广泛适用于在合适的用户提供的数据集上培训时在寒冷原子图像中的特征识别。

translated by 谷歌翻译

Dim but not entirely dark: Extracting the Galactic Center Excess' source-count distribution with neural nets

Florian List , Nicholas L. Rodd , Geraint F. Lewis

分类：机器学习

2021-07-19

$ \ Texit {Fermi} $数据中的银河系中多余（GCE）的两个领先假设是一个未解决的微弱毫秒脉冲条件（MSP）和暗物质（DM）湮灭。这些解释之间的二分法通常通过将它们建模为两个单独的发射组分来反映。然而，诸如MSP的点源（PSS）在超微弱的极限中具有统计变质的泊松发射（正式的位置，预期每个来源平均贡献远低于一个光子），导致可能提出问题的歧义如排放是否是PS样或性质中的泊松人。我们提出了一种概念上的新方法，以统一的方式描述PS和泊松发射，并且刚刚从此获得的结果中获得了对泊松组件的约束。为了实现这种方法，我们利用深度学习技术，围绕基于神经网络的方法，用于直方图回归，其表达量数量的不确定性。我们证明我们的方法对许多困扰先前接近的系统，特别是DM / PS误操作来稳健。在$ \ texit {fermi} $数据中，我们发现由$ \ sim4 \ times 10 ^ {-11} \ \ text {counts} \ {counts} \ text {counts} \ text {counts} \ \ text {cm} ^ { - 2} \ \ text {s} ^ { - 1} $（对应于$ \ sim3 - 4 $每pL期望计数），这需要$ n \ sim \ mathcal {o}（ 10 ^ 4）$源来解释整个过剩（中位数价值$ n = \文本{29,300} $横跨天空）。虽然微弱，但这种SCD允许我们获得95％信心的Poissonian比赛的约束$ \ eta_p \ leq 66 \％$。这表明大量的GCE通量是由于PSS 。

translated by 谷歌翻译

A Machine-Learning-Based Direction-of-Origin Filter for the Identification of Radio Frequency Interference in the Search for Technosignatures

Pavlo Pinchuk , Jean-Luc Margot

分类：机器学习

2021-07-28

射频干扰（RFI）缓解仍然是寻找无线电技术的主要挑战。典型的缓解策略包括原点方向（DOO）滤波器，如果在天空上的多个方向上检测到信号，则将信号分类为RFI。这些分类通常依赖于信号属性的估计，例如频率和频率漂移速率。卷积神经网络（CNNS）提供了对现有过滤器的有希望的补充，因为它们可以接受培训以直接分析动态光谱，而不是依赖于推断的信号属性。在这项工作中，我们编译了由标记的动态谱的图像组组成的几个数据集，并且我们设计和训练了可以确定在另一扫描中检测到的信号是否在另一扫描中检测到的CNN。基于CNN的DOO滤波器优于基线2D相关模型以及现有的DOO过滤器在一系列指标范围内，分别具有99.15％和97.81％的精度和召回值。我们发现CNN在标称情况下将传统的DOO过滤器施加6-16倍，减少了需要目视检查的信号数。

translated by 谷歌翻译

Using Machine Learning to Determine Morphologies of $z<1$ AGN Host Galaxies in the Hyper Suprime-Cam Wide Survey

Chuan Tian , C. Megan Urry , Aritra Ghosh , Ryan Ofman , Tonima Tasnim Ananna , Connor Auge , Nico Cappelluti , Meredith C. Powell , David B. Sanders , Kevin Schawinski

分类：机器学习

2022-12-20

We present a machine-learning framework to accurately characterize morphologies of Active Galactic Nucleus (AGN) host galaxies within $z<1$. We first use PSFGAN to decouple host galaxy light from the central point source, then we invoke the Galaxy Morphology Network (GaMorNet) to estimate whether the host galaxy is disk-dominated, bulge-dominated, or indeterminate. Using optical images from five bands of the HSC Wide Survey, we build models independently in three redshift bins: low $(0<z<0.25)$, medium $(0.25<z<0.5)$, and high $(0.5<z<1.0)$. By first training on a large number of simulated galaxies, then fine-tuning using far fewer classified real galaxies, our framework predicts the actual morphology for $\sim$ $60\%-70\%$ host galaxies from test sets, with a classification precision of $\sim$ $80\%-95\%$, depending on redshift bin. Specifically, our models achieve disk precision of $96\%/82\%/79\%$ and bulge precision of $90\%/90\%/80\%$ (for the 3 redshift bins), at thresholds corresponding to indeterminate fractions of $30\%/43\%/42\%$. The classification precision of our models has a noticeable dependency on host galaxy radius and magnitude. No strong dependency is observed on contrast ratio. Comparing classifications of real AGNs, our models agree well with traditional 2D fitting with GALFIT. The PSFGAN+GaMorNet framework does not depend on the choice of fitting functions or galaxy-related input parameters, runs orders of magnitude faster than GALFIT, and is easily generalizable via transfer learning, making it an ideal tool for studying AGN host galaxy morphology in forthcoming large imaging survey.

translated by 谷歌翻译

Proceedings of the 3rd International Workshop on Reading Music Systems

Jorge Calvo-Zaragoza , Alexander Pacha

分类：计算机视觉 | 机器学习

2022-12-01

The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.

translated by 谷歌翻译

Advances in Multi-Variate Analysis Methods for New Physics Searches at the Large Hadron Collider

Anna Stakia , Tommaso Dorigo , Giovanni Banelli , Daniela Bortoletto , Alessandro Casa , Pablo de Castro , Christophe Delaere , Julien Donini , Livio Finos , Michele Gallinaro

分类：机器学习

2021-05-16

在2015年和2019年之间，地平线的成员2020年资助的创新培训网络名为“Amva4newphysics”，研究了高能量物理问题的先进多变量分析方法和统计学习工具的定制和应用，并开发了完全新的。其中许多方法已成功地用于提高Cern大型Hadron撞机的地图集和CMS实验所执行的数据分析的敏感性;其他几个人，仍然在测试阶段，承诺进一步提高基本物理参数测量的精确度以及新现象的搜索范围。在本文中，在研究和开发的那些中，最相关的新工具以及对其性能的评估。

translated by 谷歌翻译

Toward Robust Autotuning of Noisy Quantum Dot Devices

Joshua Ziegler , Thomas McJunkin , E. S. Joseph , Sandesh S. Kalantre , Benjamin Harpt , D. E. Savage , M. G. Lagally , M. A. Eriksson , Jacob M. Taylor , Justyna P. Zwolak

分类：机器学习

2021-07-30

当前的量子点（QD）设备的自动传动方法在显示出一些成功的同时，缺乏对数据可靠性的评估。当自主系统处理嘈杂或低质量数据时，这会导致意外的失败。在这项工作中，我们为QD设备的强大自动调整提供了一个框架，该QD设备将机器学习（ML）状态分类器与数据质量控制模块结合在一起。数据质量控制模块充当“守门人”系统，确保只有国家分类器处理可靠的数据。较低的数据质量会导致设备重新校准或终止。为了训练两个ML系统，我们通过结合QD实验的典型合成噪声来增强QD仿真。我们确认，在状态分类器的训练中包含合成噪声可以显着提高性能，在测试实验数据时，准确性为95.0（9）％。然后，我们通过表明状态分类器的性能随着预期的数据质量而恶化，从而验证数据质量控制模块的功能。我们的结果为嘈杂的QD设备的自动调整建立了强大而灵活的ML框架。

translated by 谷歌翻译

Computer Vision on X-ray Data in Industrial Production and Security Applications: A survey

Mehdi Rafiei , Jenni Raitoharju , Alexandros Iosifidis

分类：计算机视觉

2022-11-10

X-ray imaging technology has been used for decades in clinical tasks to reveal the internal condition of different organs, and in recent years, it has become more common in other areas such as industry, security, and geography. The recent development of computer vision and machine learning techniques has also made it easier to automatically process X-ray images and several machine learning-based object (anomaly) detection, classification, and segmentation methods have been recently employed in X-ray image analysis. Due to the high potential of deep learning in related image processing applications, it has been used in most of the studies. This survey reviews the recent research on using computer vision and machine learning for X-ray analysis in industrial production and security applications and covers the applications, techniques, evaluation metrics, datasets, and performance comparison of those techniques on publicly available datasets. We also highlight some drawbacks in the published research and give recommendations for future research in computer vision-based X-ray analysis.

translated by 谷歌翻译

Bayesian Active Learning for Scanning Probe Microscopy: from Gaussian Processes to Hypothesis Learning

Maxim Ziatdinov , Yongtao Liu , Kyle Kelley , Rama Vasudevan , Sergei V. Kalinin

分类：机器学习

2022-05-30

机器学习方法的最新进展以及扫描探针显微镜（SPMS）的可编程接口的新兴可用性使自动化和自动显微镜在科学界的关注方面推向了最前沿。但是，启用自动显微镜需要开发特定于任务的机器学习方法，了解物理发现与机器学习之间的相互作用以及完全定义的发现工作流程。反过来，这需要平衡领域科学家的身体直觉和先验知识与定义实验目标和机器学习算法的奖励，这些算法可以将它们转化为特定的实验协议。在这里，我们讨论了贝叶斯活跃学习的基本原理，并说明了其对SPM的应用。我们从高斯过程作为一种简单的数据驱动方法和对物理模型的贝叶斯推断作为基于物理功能的扩展的贝叶斯推断，再到更复杂的深内核学习方法，结构化的高斯过程和假设学习。这些框架允许使用先验数据，在光谱数据中编码的特定功能以及在实验过程中表现出的物理定律的探索。讨论的框架可以普遍应用于结合成像和光谱，SPM方法，纳米识别，电子显微镜和光谱法以及化学成像方法的所有技术，并且对破坏性或不可逆测量的影响特别影响。

translated by 谷歌翻译

Synthetic data enable experiments in atomistic machine learning

John L. A. Gardner , Zoé Faure Beaulieu , Volker L. Deringer

分类：机器学习

2022-11-29

Machine-learning models are increasingly used to predict properties of atoms in chemical systems. There have been major advances in developing descriptors and regression frameworks for this task, typically starting from (relatively) small sets of quantum-mechanical reference data. Larger datasets of this kind are becoming available, but remain expensive to generate. Here we demonstrate the use of a large dataset that we have "synthetically" labelled with per-atom energies from an existing ML potential model. The cheapness of this process, compared to the quantum-mechanical ground truth, allows us to generate millions of datapoints, in turn enabling rapid experimentation with atomistic ML models from the small- to the large-data regime. This approach allows us here to compare regression frameworks in depth, and to explore visualisation based on learned representations. We also show that learning synthetic data labels can be a useful pre-training task for subsequent fine-tuning on small datasets. In the future, we expect that our open-sourced dataset, and similar ones, will be useful in rapidly exploring deep-learning models in the limit of abundant chemical data.

translated by 谷歌翻译

Machine learning discovery of new phases in programmable quantum simulator snapshots

Cole Miles , Rhine Samajdar , Sepehr Ebadi , Tout T. Wang , Hannes Pichler , Subir Sachdev , Mikhail D. Lukin , Markus Greiner , Kilian Q. Weinberger , Eun-Ah Kim

分类：机器学习

2021-12-20

机器学习最近被出现为研究复杂现象的有希望的方法，其特征是丰富的数据集。特别地，以数据为中心的方法为手动检查可能错过的实验数据集中自动发现结构的可能性。在这里，我们介绍可解释的无监督监督的混合机学习方法，混合相关卷积神经网络（Hybrid-CCNN），并将其应用于使用基于Rydberg Atom阵列的可编程量子模拟器产生的实验数据。具体地，我们应用Hybrid-CCNN以通过可编程相互作用分析在方形格子上的新量子阶段。初始无监督的维度降低和聚类阶段首先揭示了五个不同的量子相位区域。在第二个监督阶段，我们通过培训完全解释的CCNN来细化这些相界并通过训练每个阶段提取相关的相关性。在条纹相中的每个相捕获量子波动中专门识别的特征空间加权和相关的相关性并鉴定两个先前未检测到的相，菱形和边界有序相位。这些观察结果表明，具有机器学习的可编程量子模拟器的组合可用作有关相关量子态的详细探索的强大工具。

translated by 谷歌翻译

Colloquium: Advances in automation of quantum dot devices control

Justyna P. Zwolak , Jacob M. Taylor

分类：计算机视觉 | 机器学习

2021-12-17

量子点（QDS）阵列是一个有前途的候选系统，实现可扩展的耦合码头系统，并用作量子计算机的基本构建块。在这种半导体量子系统中，设备现在具有数十个，必须仔细地将系统仔细设置为单电子制度并实现良好的Qubit操作性能。必要点位置的映射和栅极电压的电荷提出了一个具有挑战性的经典控制问题。随着QD Qubits越来越多的QD Qubits，相关参数空间的增加充分以使启发式控制不可行。近年来，有一个相当大的努力自动化与机器学习（ML）技术相结合的基于脚本的算法。在这一讨论中，我们概述了QD器件控制自动化进展的全面概述，特别强调了在二维电子气体中形成的基于硅和GaAs的QD。将基于物理的型号与现代数值优化和ML相结合，证明在屈服高效，可扩展的控制方面已经证明非常有效。通过计算机科学和ML的理论，计算和实验努力的进一步整合，在推进半导体和量子计算平台方面具有巨大的潜力。

translated by 谷歌翻译

The Dark Machines Anomaly Score Challenge: Benchmark Data and Model Independent Event Classification for the Large Hadron Collider

T. Aarrestad , M. van Beekveld , M. Bona , A. Boveia , S. Caron , J. Davies , A. De Simone , C. Doglioni , J. M. Duarte , A. Farbin

分类： (统计)机器学习

2021-05-28

我们描述了作为黑暗机器倡议和LES Houches 2019年物理学研讨会进行的数据挑战的结果。挑战的目标是使用无监督机器学习算法检测LHC新物理学的信号。首先，我们提出了如何实现异常分数以在LHC搜索中定义独立于模型的信号区域。我们定义并描述了一个大型基准数据集，由> 10亿美元的Muton-Proton碰撞，其中包含> 10亿美元的模拟LHC事件组成。然后，我们在数据挑战的背景下审查了各种异常检测和密度估计算法，我们在一组现实分析环境中测量了它们的性能。我们绘制了一些有用的结论，可以帮助开发无监督的新物理搜索在LHC的第三次运行期间，并为我们的基准数据集提供用于HTTPS://www.phenomldata.org的未来研究。重现分析的代码在https://github.com/bostdiek/darkmachines-unsupervisedChallenge提供。

translated by 谷歌翻译

Tuning arrays with rays: Physics-informed tuning of quantum dot charge states

Joshua Ziegler , Florian Luthi , Mick Ramsey , Felix Borjans , Guoji Zheng , Justyna P. Zwolak

分类：计算机视觉 | 机器学习

2022-09-08

基于栅极定义的量子点（QD）的量子计算机有望扩展。但是，随着量子位数量的增加，手动校准这些系统的负担变得不合理，必须使用自主调整。最近有一系列关于各种QD参数自动调整的演示，例如粗门范围，全局状态拓扑（例如，单QD，双QD），电荷和隧道与多种方法偶联。在这里，我们演示了一种直观，可靠和数据效率的工具集，用于自动化的全球状态和电荷调整，并在被认为是物理信息的调整（PIT）中。 PIT的第一个模块是一种基于动作的算法，该算法将机器学习（ML）分类器与物理知识相结合，以导航到目标全球状态。第二个模块使用一系列的一维测量值，首先清空电荷QD，然后校准电容式耦合，然后导航到目标电荷状态，从而调整目标电荷状态。基于动作的调整的成功率一致地超过了适合离线测试的模拟和实验数据的$ 95〜 \％$。使用模拟数据测试时，充电设置的成功率是可比性的，$ 95.5（5.4）〜\％$，对于离线实验测试的成功率略差，平均为$ 89.7（17.4）〜\％$（中位数$ 97.5）〜\％$）。值得注意的是，高性能在学术清洁室和工业300毫米工艺线上制造的样品的数据中都得到了证明，进一步强调了坑的设备 - 不足程度。共同对一系列模拟和实验设备进行了这些测试，证明了PIT的有效性和鲁棒性。

translated by 谷歌翻译

From "Where" to "What": Towards Human-Understandable Explanations through Concept Relevance Propagation

Reduan Achtibat , Maximilian Dreyer , Ilona Eisenbraun , Sebastian Bosse , Thomas Wiegand , Wojciech Samek , Sebastian Lapuschkin

分类：机器学习 | 人工智能

2022-06-07

可解释的人工智能（XAI）的新兴领域旨在为当今强大但不透明的深度学习模型带来透明度。尽管本地XAI方法以归因图的形式解释了个体预测，从而确定了重要特征的发生位置（但没有提供有关其代表的信息），但全局解释技术可视化模型通常学会的编码的概念。因此，两种方法仅提供部分见解，并留下将模型推理解释的负担。只有少数当代技术旨在将本地和全球XAI背后的原则结合起来，以获取更多信息的解释。但是，这些方法通常仅限于特定的模型体系结构，或对培训制度或数据和标签可用性施加其他要求，这实际上使事后应用程序成为任意预训练的模型。在这项工作中，我们介绍了概念相关性传播方法（CRP）方法，该方法结合了XAI的本地和全球观点，因此允许回答“何处”和“ where”和“什么”问题，而没有其他约束。我们进一步介绍了相关性最大化的原则，以根据模型对模型的有用性找到代表性的示例。因此，我们提高了对激活最大化及其局限性的共同实践的依赖。我们证明了我们方法在各种环境中的能力，展示了概念相关性传播和相关性最大化导致了更加可解释的解释，并通过概念图表，概念组成分析和概念集合和概念子区和概念子区和概念子集和定量研究对模型的表示和推理提供了深刻的见解。它们在细粒度决策中的作用。

translated by 谷歌翻译

SNGuess: A method for the selection of young extragalactic transients

N. Miranda , J. C. Freytag , J. Nordin , R. Biswas , V. Brinnel , C. Fremling , M. Kowalski , A. Mahabal , S. Reusch , J. van Santen

分类：机器学习

2022-08-13

随着天文学中检测到的瞬变数量的迅速增加，基于机器学习的分类方法正在越来越多地使用。他们的目标通常是要获得瞬态的确定分类，并且出于良好的性能，他们通常需要存在大量观察。但是，精心设计，有针对性的模型可以通过更少的计算资源来达到其分类目标。本文介绍了Snguess，该模型旨在找到高纯度附近的年轻外乳旋转瞬变。 Snguess可以使用一组功能，这些功能可以从天文警报数据中有效计算。其中一些功能是静态的，并且与警报元数据相关联，而其他功能必须根据警报中包含的光度观测值计算。大多数功能都足够简单，可以在其检测后的瞬态生命周期的早期阶段获得或计算。我们为从Zwicky Transient设施（ZTF）的一组标记的公共警报数据计算了这些功能。 Snguess的核心模型由一组决策树组成，这些集合是通过梯度提升训练的。 SNGUESS建议的候选人中约有88％的ZTF从2020年4月至2021年8月的一组警报中被发现是真正的相关超新星（SNE）。对于具有明亮检测的警报，此数字在92％至98％之间。自2020年4月以来，Snguess确定为ZTF Alert流中潜在SNE的瞬变已发布到AMPEL_ZTF_NEW组标识符下的瞬态名称服务器（TNS）。可以通过Web服务访问ZTF观察到的任何暂时性的SNGUESS分数。 Snguess的源代码可公开使用。

translated by 谷歌翻译

Guided interactive image segmentation using machine learning and color based data set clustering

Adrian Friebel , Tim Johann , Dirk Drasdo , Stefan Hoehme

分类：计算机视觉

2020-05-15

我们提出了一种新颖的方法，该方法将基于机器学习的交互式图像分割结合在一起，使用Supersoxels与聚类方法结合了用于自动识别大型数据集中类似颜色的图像的聚类方法，从而使分类器的指导重复使用。我们的方法解决了普遍的颜色可变性的问题，并且在生物学和医学图像中通常不可避免，这通常会导致分割恶化和量化精度，从而大大降低了必要的训练工作。效率的这种提高促进了大量图像的量化，从而为高通量成像中的最新技术进步提供了交互式图像分析。所呈现的方法几乎适用于任何图像类型，并代表通常用于图像分析任务的有用工具。

translated by 谷歌翻译

Introduction to Machine Learning for the Sciences

Titus Neupert , Mark H Fischer , Eliska Greplova , Kenny Choo , M. Michael Denner

分类：机器学习

2021-02-08

这是一门专门针对STEM学生开发的介绍性机器学习课程。我们的目标是为有兴趣的读者提供基础知识，以在自己的项目中使用机器学习，并将自己熟悉术语作为进一步阅读相关文献的基础。在这些讲义中，我们讨论受监督，无监督和强化学习。注释从没有神经网络的机器学习方法的说明开始，例如原理分析，T-SNE，聚类以及线性回归和线性分类器。我们继续介绍基本和先进的神经网络结构，例如密集的进料和常规神经网络，经常性的神经网络，受限的玻尔兹曼机器，（变性）自动编码器，生成的对抗性网络。讨论了潜在空间表示的解释性问题，并使用梦和对抗性攻击的例子。最后一部分致力于加强学习，我们在其中介绍了价值功能和政策学习的基本概念。

translated by 谷歌翻译

Can Deep Learning Assist Automatic Identification of Layered Pigments From XRF Data?

Bingjie , Xu , Yunan Wu , Pengxiao Hao , Marc Vermeulen , Alicia McGeachy , Kate Smith , Katherine Eremin , Georgina Rayner , Giovanni Verri

分类：计算机视觉 | 机器学习

2022-07-26

X射线荧光光谱（XRF）在广泛的科学领域，尤其是在文化遗产中，在元素分析中起重要作用。使用栅格扫描来获取跨艺术品的光谱的XRF成像为基于其元素组成的颜料分布的空间分析提供了机会。然而，常规的基于XRF的色素识别依赖于耗时的元素映射，该元素映射通过测量光谱的专家解释。为了减少对手动工作的依赖，最近的研究应用了机器学习技术，以在数据分析中聚集相似的XRF光谱并确定最可能的颜料。然而，对于自动色素识别策略，直接处理真实绘画的复杂结构，例如色素混合物和分层色素。此外，与平均光谱相比，基于XRF成像的像素颜料识别仍然是障碍物。因此，我们开发了一个基于深度学习的端到端色素识别框架，以完全自动化色素识别过程。特别是，它对浓度较低的颜料具有很高的敏感性，因此可以使令人满意的结果基于单像素XRF光谱映射颜料。作为案例研究，我们将框架应用于实验室准备的模型绘画和两幅19世纪的绘画：Paul Gauguin的Po \'Emes Barbares（1896），其中包含带有底层绘画的分层颜料，以及Paul Cezanne的沐浴者（1899--1899-- 1904）。色素鉴定结果表明，我们的模型通过元素映射获得了与分析的可比结果，这表明我们的模型的概括性和稳定性。

translated by 谷歌翻译

FeatureEnVi: Visual Analytics for Feature Engineering Using Stepwise Selection and Semi-Automatic Extraction Approaches

Angelos Chatzimparmpas , Rafael M. Martins , Kostiantyn Kucher , Andreas Kerren

分类：机器学习 | (统计)机器学习

2021-03-26

机器学习（ML）生命周期涉及一系列迭代步骤，从有效的收集和准备数据，包括复杂的特征工程流程，对结果的演示和改进，各种步骤中的各种算法选择。特征工程尤其可以对ML非常有益，导致许多改进，例如提高预测结果，降低计算时间，减少过度噪音，并提高培训期间所采取的决策背后的透明度。尽管如此，虽然存在多个视觉分析工具来监控和控制ML生命周期的不同阶段（特别是与数据和算法相关的阶段），但功能工程支持仍然不足。在本文中，我们提出了FightEnvi，一种专门设计用于协助特征工程过程的视觉分析系统。我们建议的系统可帮助用户选择最重要的功能，将原始功能转换为强大的替代方案，并进行不同的特征生成组合。此外，数据空间切片允许用户探索本地和全局尺度上的功能的影响。 Feationenvi利用多种自动特征选择技术;此外，它目视指导用户有统计证据的关于每个特征的影响（或功能的子集）。最终结果是通过多种验证度量评估的重新设计的重新设计特征。用两种用例和案例研究证明了FeatureenVI的有用性和适用性。我们还向评估我们系统的有效性以及评估我们系统的有效性的观众报告反馈。

translated by 谷歌翻译