智能论文笔记

SNGuess: A method for the selection of young extragalactic transients

N. Miranda , J. C. Freytag , J. Nordin , R. Biswas , V. Brinnel , C. Fremling , M. Kowalski , A. Mahabal , S. Reusch , J. van Santen

分类：机器学习

2022-08-13

随着天文学中检测到的瞬变数量的迅速增加，基于机器学习的分类方法正在越来越多地使用。他们的目标通常是要获得瞬态的确定分类，并且出于良好的性能，他们通常需要存在大量观察。但是，精心设计，有针对性的模型可以通过更少的计算资源来达到其分类目标。本文介绍了Snguess，该模型旨在找到高纯度附近的年轻外乳旋转瞬变。 Snguess可以使用一组功能，这些功能可以从天文警报数据中有效计算。其中一些功能是静态的，并且与警报元数据相关联，而其他功能必须根据警报中包含的光度观测值计算。大多数功能都足够简单，可以在其检测后的瞬态生命周期的早期阶段获得或计算。我们为从Zwicky Transient设施（ZTF）的一组标记的公共警报数据计算了这些功能。 Snguess的核心模型由一组决策树组成，这些集合是通过梯度提升训练的。 SNGUESS建议的候选人中约有88％的ZTF从2020年4月至2021年8月的一组警报中被发现是真正的相关超新星（SNE）。对于具有明亮检测的警报，此数字在92％至98％之间。自2020年4月以来，Snguess确定为ZTF Alert流中潜在SNE的瞬变已发布到AMPEL_ZTF_NEW组标识符下的瞬态名称服务器（TNS）。可以通过Web服务访问ZTF观察到的任何暂时性的SNGUESS分数。 Snguess的源代码可公开使用。

translated by 谷歌翻译

Fink: early supernovae Ia classification using active learning

Marco Leoni , Emille E. O. Ishida , Julien Peloton , Anais Möller

分类：机器学习

2021-11-22

我们描述了Fink Broker早期SuperNova IA分类器如何通过采用主动学习（AL）策略来优化其ML分类。我们展示了当前Zwicky瞬态设施（ZTF）公共警报数据流执行此类策略的可行性。我们比较两个AL策略的表现：不确定性采样和随机抽样。我们的管道由3个阶段组成：功能提取，分类和学习策略。从10个警报的初始样本开始（5个SN IA和5个非IA），我们让算法识别应将哪个警报添加到训练样本中。允许系统演变为300次迭代。我们的数据集由ZTF的23 840警报组成，通过与Simbad数据库的交叉匹配和瞬态名称服务器（TNS），其中1 600个是SNE IA（1 021独特对象）的确认分类。在学习周期完成后，数据配置由310个警报进行培训和23 530进行测试。平均超过100种实现，分类器实现了89％的纯度和54％的效率。从01/11月/ 2020年至10月31日/ 10月/ 2021年Fink已将早期的Supernova IA模块应用于ZTF流，并向TNS传达有希望的SN IA候选人。从535个光谱分类的粉末候选者，459名（86％）被证明是SNE IA。我们的成果证实了积极学习策略的有效性，以指导天文分类器的最佳训练样品的构建。它在实际数据中展示了学习算法的性能可以高度改善，而无需额外的计算资源或压倒性大型训练样本。这是我们的知识，第一次应用Al到真实警报数据。

translated by 谷歌翻译

A machine learning based approach to gravitational lens identification with the International LOFAR Telescope

S. Rezaei , J. P. McKean , M. Biehl , W. de Roo1 , A. Lafontaine

分类：机器学习

2022-07-21

我们提出了一种基于机器学习的新型方法，用于从干涉数据中检测出星系尺度的重力透镜，特别是使用国际Lofar望远镜（ILT）采用的方法，该镜头是在150 MHz的频率上观察到北部无线电天空，该频率是350的角度分辨率。 MAS和90 Ujy Beam-1（1 Sigma）的灵敏度。我们开发并测试了几个卷积神经网络，以确定给定样品被归类为镜头或非镜头事件的概率和不确定性。通过对包括逼真的镜头和非镜头无线电源的模拟干涉成像数据集进行训练和测试，我们发现可以恢复95.3％的镜头样品（真正的正速率），仅污染仅为0.008来自非静态样品（假阳性速率）的含量。考虑到预期的镜头概率，结果导致了92.2％的镜头事件的样品纯度。我们发现，当镜头图像之间的最大图像分离大于合成光束尺寸的3倍时，网络结构是最健壮的，并且镜头图像具有至少与20个Sigma（点源）的总磁通密度相等）检测。对于ILT，这对应于爱因斯坦半径大于0.5 ARCSEC和一个无线电源群体的镜头样品，其150 MHz通量密度超过2 MJY。通过应用这些标准和我们的镜头检测算法，我们希望发现Lofar两米天空调查中包含的绝大多数星系尺度重力透镜系统。

translated by 谷歌翻译

Mining for Strong Gravitational Lenses with Self-supervised Learning

George Stein , Jacqueline Blaum , Peter Harrington , Tomislav Medan , Zarija Lukic

分类：计算机视觉

2021-09-30

我们采用自我监督的代表性学习来从深色能源仪器遗产成像调查的数据释放9中从7600万个星系图像中提取信息9.针对新的强力引力镜头候选者的识别，我们首先创建了快速的相似性搜索工具，以发现新的搜索工具强镜仅给出一个单个标记的示例。然后，我们展示如何在自我监督的表示上训练简单的线性分类器，仅需几分钟即可在CPU上进行几分钟，可以自动以极高的效率对强镜进行分类。我们提出了1192个新的强镜候选者，我们通过简短的视觉标识活动确定，并释放一种基于Web的相似性搜索工具和顶级网络预测，以促进众包快速发现额外的强力镜头和其他稀有物体：HTTPS：https：//github.com/georgestein/ssl-legacysurvey。

translated by 谷歌翻译

Advances in Multi-Variate Analysis Methods for New Physics Searches at the Large Hadron Collider

Anna Stakia , Tommaso Dorigo , Giovanni Banelli , Daniela Bortoletto , Alessandro Casa , Pablo de Castro , Christophe Delaere , Julien Donini , Livio Finos , Michele Gallinaro

分类：机器学习

2021-05-16

在2015年和2019年之间，地平线的成员2020年资助的创新培训网络名为“Amva4newphysics”，研究了高能量物理问题的先进多变量分析方法和统计学习工具的定制和应用，并开发了完全新的。其中许多方法已成功地用于提高Cern大型Hadron撞机的地图集和CMS实验所执行的数据分析的敏感性;其他几个人，仍然在测试阶段，承诺进一步提高基本物理参数测量的精确度以及新现象的搜索范围。在本文中，在研究和开发的那些中，最相关的新工具以及对其性能的评估。

translated by 谷歌翻译

Proceedings of the 3rd International Workshop on Reading Music Systems

Jorge Calvo-Zaragoza , Alexander Pacha

分类：计算机视觉 | 机器学习

2022-12-01

The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.

translated by 谷歌翻译

A Machine-Learning-Based Direction-of-Origin Filter for the Identification of Radio Frequency Interference in the Search for Technosignatures

Pavlo Pinchuk , Jean-Luc Margot

分类：机器学习

2021-07-28

射频干扰（RFI）缓解仍然是寻找无线电技术的主要挑战。典型的缓解策略包括原点方向（DOO）滤波器，如果在天空上的多个方向上检测到信号，则将信号分类为RFI。这些分类通常依赖于信号属性的估计，例如频率和频率漂移速率。卷积神经网络（CNNS）提供了对现有过滤器的有希望的补充，因为它们可以接受培训以直接分析动态光谱，而不是依赖于推断的信号属性。在这项工作中，我们编译了由标记的动态谱的图像组组成的几个数据集，并且我们设计和训练了可以确定在另一扫描中检测到的信号是否在另一扫描中检测到的CNN。基于CNN的DOO滤波器优于基线2D相关模型以及现有的DOO过滤器在一系列指标范围内，分别具有99.15％和97.81％的精度和召回值。我们发现CNN在标称情况下将传统的DOO过滤器施加6-16倍，减少了需要目视检查的信号数。

translated by 谷歌翻译

Identifying Transients in the Dark Energy Survey using Convolutional Neural Networks

Venkitesh Ayyar , Robert Knop Jr. , Autumn Awbrey , Alexis Andersen , Peter Nugent

分类： (统计)机器学习

2022-03-18

通过图像差异发现新瞬态的能力而无需直接人类干预是观察天文学的重要任务。对于此类图像分类问题，机器学习技术（例如卷积神经网络（CNN））表现出了显着的成功。在这项工作中，我们介绍了来自Dark Energy Survey Supernova计划（DES-SN）的CNN上的图像上自动瞬态识别的结果，其主要重点是使用IA型超新星用于宇宙学。通过对CNN进行架构搜索，我们可以从工件（图像缺陷，错误分配等）中确定有效选择非艺术的网络（例如，超新星，可变星，AGN等），可实现先前工作的效率在随机的森林中，无需花费任何特征识别的努力。 CNN还可以帮助我们确定一个标记错误的图像的子集。在此子集中对图像进行重新标记，与CNN的结果分类明显优于以前的结果。

translated by 谷歌翻译

ULISSE: A Tool for One-shot Sky Exploration and its Application to Active Galactic Nuclei Detection

Lars Doorenbos , Olena Torbaniuk , Stefano Cavuoti , Maurizio Paolillo , Giuseppe Longo , Massimo Brescia , Raphael Sznitman , Pablo Márquez-Neila

分类：计算机视觉

2022-08-23

现代的天空调查正在产生大量的观测数据，这使经典方法的应用用于分类和分析对象具有挑战性和耗时的。但是，使用自动机器和深度学习方法可能会大大减轻此问题。我们提出了一种新的深度学习工具Ulisse，它从单个原型对象开始，能够识别具有相同形态和光度特性的对象，因此可以创建候选苏西亚列表。在这项工作中，我们专注于在斯隆数字天空调查的星系样本中应用方法来检测AGN候选物，因为光带中主动银河系核（AGN）的鉴定和分类仍然是外层术天文学的挑战性任务。乌里斯（Ulisse）旨在初步探索大型天空调查，直接使用从图像网数据集提取的功能来执行相似性搜索。该方法能够快速识别仅从给定原型的单个图像开始的候选人列表，而无需任何耗时的神经网络训练。我们的实验表明，乌里斯（Ulisse）能够根据宿主星系形态，颜色和中央核源的存在的结合来鉴定AGN候选物，检索效率从21％到65％（包括复合源）（包括复合源），这是基于宿主的候选者。随机猜测基线为12％。我们发现，与具有螺旋形或晚期特性的原型相反，Ulisse在早期型宿主星系中检索AGN最有效。根据这项工作中描述的结果，Ulisse可以是在当前和未来的广阔田野调查（例如欧几里得，LSST等）中选择不同类型的天体物理对象的有前途的工具，该工具每晚都针对数百万个来源。

translated by 谷歌翻译

Galaxy Zoo DECaLS: Detailed Visual Morphology Measurements from Volunteers and Deep Learning for 314,000 Galaxies

Mike Walmsley , Chris Lintott , Tobias Geron , Sandor Kruk , Coleman Krawczyk , Kyle W. Willett , Steven Bamford , Lee S. Kelvin , Lucy Fortson , Yarin Gal

分类：计算机视觉

2021-02-16

我们介绍了Galaxy动物园贴花：SDSS DR8占地面积的星系中的黑色能量相机传统调查图像的详细视觉形态学分类。更深的贴花图像（R = 23.6与SDSS的r = 22.2）显示螺旋臂，弱杆和在SDSS成像中未见的潮汐功能。为了最佳利用较大的贴花图像，志愿者从一套新的答案中选择，旨在提高对合并和酒吧的敏感性。 Galaxy动物园志愿者提供750万个单独的分类超过314,000个星系。 140,000个星系收到至少30分类，足以准确测量像条状的详细的形态，其余的收到约5.所有分类都用于培训贝叶斯卷积神经网络的集合（一种最先进的深度学习方法）预测所有314,000个星系的详细形态的后海外。当衡量自信的志愿者分类时，每个问题的网络大约有99％。形态学是每个星系的基本特征;我们的人机和机器分类是理解星系如何发展的准确和详细资源。

translated by 谷歌翻译

Machine learning enabling high-throughput and remote operations at large-scale user facilities

Tatiana Konstantinova , Phillip M. Maffettone , Bruce Ravel , Stuart I. Campbell , Andi M. Barbour , Daniel Olds

分类：机器学习

2022-01-09

成像，散射和光谱是理解和发现新功能材料的基础。自动化和实验技术的当代创新导致这些测量更快，分辨率更高，从而产生了大量的分析数据。这些创新在用户设施和同步射击光源时特别明显。机器学习（ML）方法经常开发用于实时地处理和解释大型数据集。然而，仍然存在概念障碍，进入设施一般用户社区，通常缺乏ML的专业知识，以及部署ML模型的技术障碍。在此，我们展示了各种原型ML模型，用于在国家同步光源II（NSLS-II）的多个波束线上在飞行分析。我们谨慎地描述这些示例，专注于将模型集成到现有的实验工作流程中，使得读者可以容易地将它们自己的ML技术与具有普通基础设施的NSLS-II或设施的实验中的实验。此处介绍的框架展示了几乎没有努力，多样化的ML型号通过集成到实验编程和数据管理的现有Blueske套件中与反馈回路一起运行。

translated by 谷歌翻译

The pascal visual object classes (voc) challenge

分类：

The PASCAL Visual Object Classes (VOC) challenge is a benchmark in visual object category recognition and detection, providing the vision and machine learning communities with a standard dataset of images and annotation, and standard evaluation procedures. Organised annually from 2005 to present, the challenge and its associated dataset has become accepted as the benchmark for object detection.This paper describes the dataset and evaluation procedure. We review the state-of-the-art in evaluated methods for both classification and detection, analyse whether the methods are statistically different, what they are learning from the images (e.g. the object or its context), and what the methods find easy or confuse. The paper concludes with lessons learnt in the three year history of the challenge, and proposes directions for future improvement and extension.

translated by 谷歌翻译

Seamless lightning nowcasting with recurrent-convolutional deep learning

Jussi Leinonen , Ulrich Hamann , Urs Germann

分类：机器学习

2022-03-15

提出了一个深度学习模型，以便在未来60分钟的五分钟时间分辨率下以闪电的形式出现。该模型基于反复横向的结构，该结构使其能够识别并预测对流的时空发展，包括雷暴细胞的运动，生长和衰变。预测是在固定网格上执行的，而无需使用风暴对象检测和跟踪。从瑞士和周围的区域收集的输入数据包括地面雷达数据，可见/红外卫星数据以及衍生的云产品，闪电检测，数值天气预测和数字高程模型数据。我们分析了不同的替代损失功能，班级加权策略和模型特征，为将来的研究提供了指南，以最佳地选择损失功能，并正确校准其模型的概率预测。基于这些分析，我们在这项研究中使用焦点损失，但得出结论，它仅在交叉熵方面提供了较小的好处，如果模型的重新校准不实用，这是一个可行的选择。该模型在60分钟的现有周期内实现了0.45的像素临界成功指数（CSI）为0.45，以预测8 km的闪电发生，范围从5分钟的CSI到5分钟的提前时间到CSI到CSI的0.32在A处。收货时间60分钟。

translated by 谷歌翻译

Mapping the Internet: Modelling Entity Interactions in Complex Heterogeneous Networks

Simon Mandlik , Tomas Pevny

分类：机器学习

2021-04-19

即使机器学习算法已经在数据科学中发挥了重要作用，但许多当前方法对输入数据提出了不现实的假设。由于不兼容的数据格式，或数据集中的异质，分层或完全缺少的数据片段，因此很难应用此类方法。作为解决方案，我们提出了一个用于样本表示，模型定义和培训的多功能，统一的框架，称为“ Hmill”。我们深入审查框架构建和扩展的机器学习的多个范围范式。从理论上讲，为HMILL的关键组件的设计合理，我们将通用近似定理的扩展显示到框架中实现的模型所实现的所有功能的集合。本文还包含有关我们实施中技术和绩效改进的详细讨论，该讨论将在MIT许可下发布供下载。该框架的主要资产是其灵活性，它可以通过相同的工具对不同的现实世界数据源进行建模。除了单独观察到每个对象的一组属性的标准设置外，我们解释了如何在框架中实现表示整个对象系统的图表中的消息推断。为了支持我们的主张，我们使用框架解决了网络安全域的三个不同问题。第一种用例涉及来自原始网络观察结果的IoT设备识别。在第二个问题中，我们研究了如何使用以有向图表示的操作系统的快照可以对恶意二进制文件进行分类。最后提供的示例是通过网络中实体之间建模域黑名单扩展的任务。在所有三个问题中，基于建议的框架的解决方案可实现与专业方法相当的性能。

translated by 谷歌翻译

A Machine Learning Enhanced Approach for Automated Sunquake Detection in Acoustic Emission Maps

Vanessa Mercea , Alin Razvan Paraschiv , Daniela Adriana Lacatus , Anca Marginean , Diana Besliu-Ionescu

分类：计算机视觉 | 机器学习

2022-12-13

Sunquakes are seismic emissions visible on the solar surface, associated with some solar flares. Although discovered in 1998, they have only recently become a more commonly detected phenomenon. Despite the availability of several manual detection guidelines, to our knowledge, the astrophysical data produced for sunquakes is new to the field of Machine Learning. Detecting sunquakes is a daunting task for human operators and this work aims to ease and, if possible, to improve their detection. Thus, we introduce a dataset constructed from acoustic egression-power maps of solar active regions obtained for Solar Cycles 23 and 24 using the holography method. We then present a pedagogical approach to the application of machine learning representation methods for sunquake detection using AutoEncoders, Contrastive Learning, Object Detection and recurrent techniques, which we enhance by introducing several custom domain-specific data augmentation transformations. We address the main challenges of the automated sunquake detection task, namely the very high noise patterns in and outside the active region shadow and the extreme class imbalance given by the limited number of frames that present sunquake signatures. With our trained models, we find temporal and spatial locations of peculiar acoustic emission and qualitatively associate them to eruptive and high energy emission. While noting that these models are still in a prototype stage and there is much room for improvement in metrics and bias levels, we hypothesize that their agreement on example use cases has the potential to enable detection of weak solar acoustic manifestations.

translated by 谷歌翻译

ClaSP -- Parameter-free Time Series Segmentation

Arik Ermshaus , Patrick Schäfer , Ulf Leser

分类：机器学习 | 人工智能

2022-07-28

对自然和人制过程的研究通常会导致长时间有序值的长序列，也就是时间序列（TS）。这样的过程通常由多个状态组成，例如机器的操作模式，使观测过程中的状态变化会导致测量值形状的分布变化。时间序列分割（TSS）试图发现TS事后的这种变化，以推断数据生成过程的变化。通常将TSS视为无监督的学习问题，目的是识别某些统计属性可区分的细分。 TSS的当前算法要求用户设置依赖域的超参数，对TS值分布进行假设或可检测更改的类型，以限制其适用性。常见的超参数是段均匀性和变更点的数量的度量，对于每个数据集，这尤其难以调节。我们提出了TSS的一种新颖，高度准确，无参数和域的无义方法的方法。扣子分层将TS分为两个部分。更改点是通过训练每个可能的拆分点的二进制TS分类器来确定的，并选择最能识别从任何一个分区的子序列的一个拆分。 CLASP使用两种新颖的定制算法从数据中学习了其主要的两个模型参数。在我们使用115个数据集的基准测试的实验评估中，我们表明，扣子优于准确性，并且可以快速且可扩展。此外，我们使用几个现实世界的案例研究强调了扣子的特性。

translated by 谷歌翻译

Deep Learning for Anomaly Detection in Log Data: A Survey

Max Landauer , Sebastian Onder , Florian Skopik , Markus Wurzenberger

分类：机器学习

2022-07-08

自动日志文件分析可以尽早发现相关事件，例如系统故障。特别是，自我学习的异常检测技术在日志数据中捕获模式，随后向系统操作员报告意外的日志事件事件，而无需提前提供或手动对异常情况进行建模。最近，已经提出了越来越多的方法来利用深度学习神经网络为此目的。与传统的机器学习技术相比，这些方法证明了出色的检测性能，并同时解决了不稳定数据格式的问题。但是，有许多不同的深度学习体系结构，并且编码由神经网络分析的原始和非结构化日志数据是不平凡的。因此，我们进行了系统的文献综述，概述了部署的模型，数据预处理机制，异常检测技术和评估。该调查没有定量比较现有方法，而是旨在帮助读者了解不同模型体系结构的相关方面，并强调未来工作的开放问题。

translated by 谷歌翻译

Common Limitations of Image Processing Metrics: A Picture Story

Annika Reinke , Minu D. Tizabi , Carole H. Sudre , Matthias Eisenmann , Tim Rädsch , Michael Baumgartner , Laura Acion , Michela Antonelli , Tal Arbel , Spyridon Bakas

分类：计算机视觉

2021-04-12

尽管自动图像分析的重要性不断增加，但最近的元研究揭示了有关算法验证的主要缺陷。性能指标对于使用的自动算法的有意义，客观和透明的性能评估和验证尤其是关键，但是在使用特定的指标进行给定的图像分析任务时，对实际陷阱的关注相对较少。这些通常与（1）无视固有的度量属性，例如在存在类不平衡或小目标结构的情况下的行为，（2）无视固有的数据集属性，例如测试的非独立性案例和（3）无视指标应反映的实际生物医学领域的兴趣。该动态文档的目的是说明图像分析领域通常应用的性能指标的重要局限性。在这种情况下，它重点介绍了可以用作图像级分类，语义分割，实例分割或对象检测任务的生物医学图像分析问题。当前版本是基于由全球60多家机构的国际图像分析专家进行的关于指标的Delphi流程。

translated by 谷歌翻译

An introduction to ROC analysis

分类：

Receiver operating characteristics (ROC) graphs are useful for organizing classifiers and visualizing their performance. ROC graphs are commonly used in medical decision making, and in recent years have been used increasingly in machine learning and data mining research. Although ROC graphs are apparently simple, there are some common misconceptions and pitfalls when using them in practice. The purpose of this article is to serve as an introduction to ROC graphs and as a guide for using them in research.

translated by 谷歌翻译

Classification algorithms applied to structure formation simulations

Jazhiel Chacón , J. Alberto Vázquez , Erick Almaraz

分类：机器学习

2021-06-11

在整个宇宙学模拟中，初始条件中的物质密度场的性质对今天形成的结构的特征具有决定性的影响。在本文中，我们使用随机森林分类算法来推断暗物质颗粒是否追溯到初始条件，最终将在肿块上高于一些阈值的暗物质卤素。该问题可能被构成为二进制分类任务，其中物质密度字段的初始条件映射到由光环发现者程序提供的分类标签。我们的研究结果表明，随机森林是有效的工具，无法在不运行完整过程的情况下预测宇宙学模拟的输出。在将来可能使用这些技术来降低计算时间并更有效地探索不同暗物质/暗能候选对宇宙结构的形成的影响。

translated by 谷歌翻译