我们描述了Fink Broker早期SuperNova IA分类器如何通过采用主动学习(AL)策略来优化其ML分类。我们展示了当前Zwicky瞬态设施(ZTF)公共警报数据流执行此类策略的可行性。我们比较两个AL策略的表现:不确定性采样和随机抽样。我们的管道由3个阶段组成:功能提取,分类和学习策略。从10个警报的初始样本开始(5个SN IA和5个非IA),我们让算法识别应将哪个警报添加到训练样本中。允许系统演变为300次迭代。我们的数据集由ZTF的23 840警报组成,通过与Simbad数据库的交叉匹配和瞬态名称服务器(TNS),其中1 600个是SNE IA(1 021独特对象)的确认分类。在学习周期完成后,数据配置由310个警报进行培训和23 530进行测试。平均超过100种实现,分类器实现了89%的纯度和54%的效率。从01/11月/ 2020年至10月31日/ 10月/ 2021年Fink已将早期的Supernova IA模块应用于ZTF流,并向TNS传达有希望的SN IA候选人。从535个光谱分类的粉末候选者,459名(86%)被证明是SNE IA。我们的成果证实了积极学习策略的有效性,以指导天文分类器的最佳训练样品的构建。它在实际数据中展示了学习算法的性能可以高度改善,而无需额外的计算资源或压倒性大型训练样本。这是我们的知识,第一次应用Al到真实警报数据。
translated by 谷歌翻译
随着天文学中检测到的瞬变数量的迅速增加,基于机器学习的分类方法正在越来越多地使用。他们的目标通常是要获得瞬态的确定分类,并且出于良好的性能,他们通常需要存在大量观察。但是,精心设计,有针对性的模型可以通过更少的计算资源来达到其分类目标。本文介绍了Snguess,该模型旨在找到高纯度附近的年轻外乳旋转瞬变。 Snguess可以使用一组功能,这些功能可以从天文警报数据中有效计算。其中一些功能是静态的,并且与警报元数据相关联,而其他功能必须根据警报中包含的光度观测值计算。大多数功能都足够简单,可以在其检测后的瞬态生命周期的早期阶段获得或计算。我们为从Zwicky Transient设施(ZTF)的一组标记的公共警报数据计算了这些功能。 Snguess的核心模型由一组决策树组成,这些集合是通过梯度提升训练的。 SNGUESS建议的候选人中约有88%的ZTF从2020年4月至2021年8月的一组警报中被发现是真正的相关超新星(SNE)。对于具有明亮检测的警报,此数字在92%至98%之间。自2020年4月以来,Snguess确定为ZTF Alert流中潜在SNE的瞬变已发布到AMPEL_ZTF_NEW组标识符下的瞬态名称服务器(TNS)。可以通过Web服务访问ZTF观察到的任何暂时性的SNGUESS分数。 Snguess的源代码可公开使用。
translated by 谷歌翻译
天文学家通常已经着手通过从头开始创建自己的表示来解决监督的机器学习问题。我们表明,经过训练的深度学习模型,可以回答每个星系动物园贴花问题问题,即学习星系的有意义的语义表示,这些语义表示对于从未训练过的新任务很有用。我们利用这些表示形式优于最近对研究大型星系样本至关重要的实际任务的方法。第一个任务是识别与查询星系相似的形态的星系。给定一个星系为人类分配了一个免费文本标签(例如“ #diffuse”),我们可以找到与大多数标签匹配该标签的星系。第二个任务是确定特定研究人员最有趣的异常。我们的方法在识别最有趣的100个异常(由Galaxy Zoo 2志愿者判断)方面是100%准确的。第三个任务是调整模型来仅使用少数新标记的星系解决新任务。与从陆地图像(ImageNet)或从头开始训练的模型相比,从我们的表示形式进行微调的模型可以更好地识别环形星系。我们用很少的新标签解决每个任务;一个(用于相似性搜索)或数百个(用于异常检测或微调)。这挑战了长期以来的观点,即深度监督方法需要新的大型标签数据集,以便在天文学中实际使用。为了帮助社区受益于我们验证的模型,我们发布了我们的微调代码Zoobot。没有先前经验的研究人员可以访问Zoobot。
translated by 谷歌翻译
现代的天空调查正在产生大量的观测数据,这使经典方法的应用用于分类和分析对象具有挑战性和耗时的。但是,使用自动机器和深度学习方法可能会大大减轻此问题。我们提出了一种新的深度学习工具Ulisse,它从单个原型对象开始,能够识别具有相同形态和光度特性的对象,因此可以创建候选苏西亚列表。在这项工作中,我们专注于在斯隆数字天空调查的星系样本中应用方法来检测AGN候选物,因为光带中主动银河系核(AGN)的鉴定和分类仍然是外层术天文学的挑战性任务。乌里斯(Ulisse)旨在初步探索大型天空调查,直接使用从图像网数据集提取的功能来执行相似性搜索。该方法能够快速识别仅从给定原型的单个图像开始的候选人列表,而无需任何耗时的神经网络训练。我们的实验表明,乌里斯(Ulisse)能够根据宿主星系形态,颜色和中央核源的存在的结合来鉴定AGN候选物,检索效率从21%到65%(包括复合源)(包括复合源),这是基于宿主的候选者。随机猜测基线为12%。我们发现,与具有螺旋形或晚期特性的原型相反,Ulisse在早期型宿主星系中检索AGN最有效。根据这项工作中描述的结果,Ulisse可以是在当前和未来的广阔田野调查(例如欧几里得,LSST等)中选择不同类型的天体物理对象的有前途的工具,该工具每晚都针对数百万个来源。
translated by 谷歌翻译
我们采用自我监督的代表性学习来从深色能源仪器遗产成像调查的数据释放9中从7600万个星系图像中提取信息9.针对新的强力引力镜头候选者的识别,我们首先创建了快速的相似性搜索工具,以发现新的搜索工具强镜仅给出一个单个标记的示例。然后,我们展示如何在自我监督的表示上训练简单的线性分类器,仅需几分钟即可在CPU上进行几分钟,可以自动以极高的效率对强镜进行分类。我们提出了1192个新的强镜候选者,我们通过简短的视觉标识活动确定,并释放一种基于Web的相似性搜索工具和顶级网络预测,以促进众包快速发现额外的强力镜头和其他稀有物体:HTTPS:https://github.com/georgestein/ssl-legacysurvey。
translated by 谷歌翻译
通过图像差异发现新瞬态的能力而无需直接人类干预是观察天文学的重要任务。对于此类图像分类问题,机器学习技术(例如卷积神经网络(CNN))表现出了显着的成功。在这项工作中,我们介绍了来自Dark Energy Survey Supernova计划(DES-SN)的CNN上的图像上自动瞬态识别的结果,其主要重点是使用IA型超新星用于宇宙学。通过对CNN进行架构搜索,我们可以从工件(图像缺陷,错误分配等)中确定有效选择非艺术的网络(例如,超新星,可变星,AGN等),可实现先前工作的效率在随机的森林中,无需花费任何特征识别的努力。 CNN还可以帮助我们确定一个标记错误的图像的子集。在此子集中对图像进行重新标记,与CNN的结果分类明显优于以前的结果。
translated by 谷歌翻译
众所周知,诸如超紧凑型矮人(UCDS)和周围地球簇(GCS)的紧凑型恒星系统是已知的,是已经形成这些星系的合并事件的示踪剂。因此,识别这些系统允许研究星系大规模组装,形成和进化。然而,在使用成像数据的缺乏检测UCDS / GCS的光谱信息中非常不确定。在这里,我们的目标是使用6个过滤器中的Fornax Galaxy集群的多波长成像数据训练机器学习模型,将这些对象与前景恒星和背景星系分开,即在6个过滤器中,即u,g,r,i,j和ks。对象的类是高度不平衡的,这对于许多自动分类技术来说是有问题的。因此,我们使用合成少数民族过度采样来处理培训数据的不平衡。然后,我们比较两个分类器,即本地化的广义矩阵学习矢量量化(LGMLVQ)和随机林(RF)。这两种方法都能够以精度识别UCDS / GCS,并召回> 93%,并提供反映每个特征尺寸%(颜色和角度尺寸)的重要性的相关性。这两种方法都检测角度尺寸作为该分类问题的重要标记。虽然U-I和I-KS的颜色指数是最重要的颜色的天文期望,但我们的分析表明,G-R等颜色更具信息,可能是因为发信噪比更高。除了优异的性能之外,LGMLVQ方法允许通过为每个贡献中所证明的数据提供了对每个单独的类,类的代表性样本以及数据的非线性可视化的可能性来实现进一步的解释性。我们得出结论,采用机器学习技术来识别UCDS / GCS可能导致有前途的结果。
translated by 谷歌翻译
Recent developments in in-situ monitoring and process control in Additive Manufacturing (AM), also known as 3D-printing, allows the collection of large amounts of emission data during the build process of the parts being manufactured. This data can be used as input into 3D and 2D representations of the 3D-printed parts. However the analysis and use, as well as the characterization of this data still remains a manual process. The aim of this paper is to propose an adaptive human-in-the-loop approach using Machine Learning techniques that automatically inspect and annotate the emissions data generated during the AM process. More specifically, this paper will look at two scenarios: firstly, using convolutional neural networks (CNNs) to automatically inspect and classify emission data collected by in-situ monitoring and secondly, applying Active Learning techniques to the developed classification model to construct a human-in-the-loop mechanism in order to accelerate the labeling process of the emission data. The CNN-based approach relies on transfer learning and fine-tuning, which makes the approach applicable to other industrial image patterns. The adaptive nature of the approach is enabled by uncertainty sampling strategy to automatic selection of samples to be presented to human experts for annotation.
translated by 谷歌翻译
我们介绍了Galaxy动物园贴花:SDSS DR8占地面积的星系中的黑色能量相机传统调查图像的详细视觉形态学分类。更深的贴花图像(R = 23.6与SDSS的r = 22.2)显示螺旋臂,弱杆和在SDSS成像中未见的潮汐功能。为了最佳利用较大的贴花图像,志愿者从一套新的答案中选择,旨在提高对合并和酒吧的敏感性。 Galaxy动物园志愿者提供750万个单独的分类超过314,000个星系。 140,000个星系收到至少30分类,足以准确测量像条状的详细的形态,其余的收到约5.所有分类都用于培训贝叶斯卷积神经网络的集合(一种最先进的深度学习方法)预测所有314,000个星系的详细形态的后海外。当衡量自信的志愿者分类时,每个问题的网络大约有99%。形态学是每个星系的基本特征;我们的人机和机器分类是理解星系如何发展的准确和详细资源。
translated by 谷歌翻译
主动学习允许使用更少的标签培训机器学习模型,同时保持与传统监督学习相似的性能。活跃的学习者选择最有用的数据点,请求其标签并进行重新训练。尽管这种方法很有希望,但它提出了一个问题,即如何确定模型何时“足够好”,而没有传统评估所需的其他标签。以前,已经提出了不同的停止标准,以确定最佳的停止点。然而,最优性只能表示为准确性和标签数量之间的域依赖性权衡,并且在所有应用中,没有任何标准均优越。作为进一步的并发症,对特定现实世界应用程序的标准进行比较将要求从业者收集其目标的其他标记数据,以避免使用主动学习。这项工作使从业人员可以通过提供可行的建议来采用积极的学习,以便为给定的现实世界中最好的停止标准。我们对基于池的主动学习的停止标准进行了第一个大规模比较,使用成本度量来量化我们评估的所有停止标准的准确性/标签权衡,公开实施以及评估停止停止的开源框架标准。我们的研究使从业人员能够利用最适合其领域的停止标准,从而大大降低标签成本。
translated by 谷歌翻译
二进制恒星经历各种相互作用和进化阶段,对于预测和解释观察到的特性至关重要。具有完整恒星结构和进化模拟的二元种群合成在计算上需要大量的质量转移序列。最近开发的二元种群综合代码Posydon结合了梅萨二元星模拟的网格,然后将其插值以模拟大型大型二进制文件。计算高密度直线网格的传统方法对于高维网格,不可扩展,这是一系列金属性,旋转和偏心率的范围。我们提出了一种新的活跃学习算法PSY-CRI,该算法使用数据收集过程中的机器学习来适应和迭代选择目标模拟以运行,从而导致自定义,高性能的训练集。我们在玩具问题上测试PSY-CRIS,发现所得的训练集比常规或随机采样网格所需的模拟更少以进行准确的分类和回归。我们进一步将psy-cris应用于构建Mesa模拟动态网格的目标问题,我们证明,即使没有微调,仅$ \ sim 1/4 $的模拟集也足以足以达到相同的分类精度。当针对目标应用程序优化算法参数时,我们预计将进一步增益。我们发现,仅对分类进行优化可能会导致回归中的绩效损失,反之亦然。降低产生网格的计算成本将使Posydon的未来版本涵盖更多的输入参数,同时保留插值精度。
translated by 谷歌翻译
大多数机器学习算法由一个或多个超参数配置,必须仔细选择并且通常会影响性能。为避免耗时和不可递销的手动试验和错误过程来查找性能良好的超参数配置,可以采用各种自动超参数优化(HPO)方法,例如,基于监督机器学习的重新采样误差估计。本文介绍了HPO后,本文审查了重要的HPO方法,如网格或随机搜索,进化算法,贝叶斯优化,超带和赛车。它给出了关于进行HPO的重要选择的实用建议,包括HPO算法本身,性能评估,如何将HPO与ML管道,运行时改进和并行化结合起来。这项工作伴随着附录,其中包含关于R和Python的特定软件包的信息,以及用于特定学习算法的信息和推荐的超参数搜索空间。我们还提供笔记本电脑,这些笔记本展示了这项工作的概念作为补充文件。
translated by 谷歌翻译
在2015年和2019年之间,地平线的成员2020年资助的创新培训网络名为“Amva4newphysics”,研究了高能量物理问题的先进多变量分析方法和统计学习工具的定制和应用,并开发了完全新的。其中许多方法已成功地用于提高Cern大型Hadron撞机的地图集和CMS实验所执行的数据分析的敏感性;其他几个人,仍然在测试阶段,承诺进一步提高基本物理参数测量的精确度以及新现象的搜索范围。在本文中,在研究和开发的那些中,最相关的新工具以及对其性能的评估。
translated by 谷歌翻译
Time-series anomaly detection is an important task and has been widely applied in the industry. Since manual data annotation is expensive and inefficient, most applications adopt unsupervised anomaly detection methods, but the results are usually sub-optimal and unsatisfactory to end customers. Weak supervision is a promising paradigm for obtaining considerable labels in a low-cost way, which enables the customers to label data by writing heuristic rules rather than annotating each instance individually. However, in the time-series domain, it is hard for people to write reasonable labeling functions as the time-series data is numerically continuous and difficult to be understood. In this paper, we propose a Label-Efficient Interactive Time-Series Anomaly Detection (LEIAD) system, which enables a user to improve the results of unsupervised anomaly detection by performing only a small amount of interactions with the system. To achieve this goal, the system integrates weak supervision and active learning collaboratively while generating labeling functions automatically using only a few labeled data. All of these techniques are complementary and can promote each other in a reinforced manner. We conduct experiments on three time-series anomaly detection datasets, demonstrating that the proposed system is superior to existing solutions in both weak supervision and active learning areas. Also, the system has been tested in a real scenario in industry to show its practicality.
translated by 谷歌翻译
本文解决了在水模型部署民主化中采用了机器学习的一些挑战。第一个挑战是减少了在主动学习的帮助下减少了标签努力(因此关注数据质量),模型推断与Oracle之间的反馈循环:如在保险中,未标记的数据通常丰富,主动学习可能会成为一个重要的资产减少标签成本。为此目的,本文在研究其对合成和真实数据集的实证影响之前,阐述了各种古典主动学习方法。保险中的另一个关键挑战是模型推论中的公平问题。我们将在此主动学习框架中介绍和整合一个用于多级任务的后处理公平,以解决这两个问题。最后对不公平数据集的数值实验突出显示所提出的设置在模型精度和公平性之间存在良好的折衷。
translated by 谷歌翻译
我们提出了一种基于机器学习的新型方法,用于从干涉数据中检测出星系尺度的重力透镜,特别是使用国际Lofar望远镜(ILT)采用的方法,该镜头是在150 MHz的频率上观察到北部无线电天空,该频率是350的角度分辨率。 MAS和90 Ujy Beam-1(1 Sigma)的灵敏度。我们开发并测试了几个卷积神经网络,以确定给定样品被归类为镜头或非镜头事件的概率和不确定性。通过对包括逼真的镜头和非镜头无线电源的模拟干涉成像数据集进行训练和测试,我们发现可以恢复95.3%的镜头样品(真正的正速率),仅污染仅为0.008来自非静态样品(假阳性速率)的含量。考虑到预期的镜头概率,结果导致了92.2%的镜头事件的样品纯度。我们发现,当镜头图像之间的最大图像分离大于合成光束尺寸的3倍时,网络结构是最健壮的,并且镜头图像具有至少与20个Sigma(点源)的总磁通密度相等)检测。对于ILT,这对应于爱因斯坦半径大于0.5 ARCSEC和一个无线电源群体的镜头样品,其150 MHz通量密度超过2 MJY。通过应用这些标准和我们的镜头检测算法,我们希望发现Lofar两米天空调查中包含的绝大多数星系尺度重力透镜系统。
translated by 谷歌翻译
现代时间域的光度测验收集了许多天文学对象的观察结果,大规模调查的即将到来的时代将提供更多信息。大多数对象从未接受过光谱随访,这对于瞬态尤其至关重要。超新星。在这种情况下,观察到的光曲线可以提供负担得起的替代方案。时间序列被积极用于光度分类和表征,例如峰值和光度下降估计。但是,收集的时间序列是多维的,不规则地采样,包含异常值,并且没有明确定义的系统不确定性。机器学习方法有助于以最有效的方式从可用数据中提取有用的信息。我们考虑了基于神经网络的几种光曲线近似方法:多层感知,贝叶斯神经网络以及使流量正常化,以近似单光曲线观察。使用模拟的Parperc和Real Zwicky瞬态设施数据样本的测试表明,即使很少有观察值足以拟合网络并获得比其他最新方法更好的近似质量。我们表明,这项工作中描述的方法具有比高斯流程更快的计算复杂性和更快的工作速度。我们分析了旨在填补光曲线观察中空白的近似技术的性能,并表明使用适当的技术会提高峰值发现和超新星分类的准确性。此外,研究结果是在GitHub上可用的Fulu Python库中组织的,该库可以很容易地由社区使用。
translated by 谷歌翻译
尽管机器学习方法已在金融领域广泛使用,但在非常成功的学位上,这些方法仍然可以根据解释性,可比性和可重复性来定制特定研究和不透明。这项研究的主要目的是通过提供一种通用方法来阐明这一领域,该方法是调查 - 不合Snostic且可解释给金融市场从业人员,从而提高了其效率,降低了进入的障碍,并提高了实验的可重复性。提出的方法在两个自动交易平台组件上展示。也就是说,价格水平,众所周知的交易模式和一种新颖的2步特征提取方法。该方法依赖于假设检验,该假设检验在其他社会和科学学科中广泛应用,以有效地评估除简单分类准确性之外的具体结果。提出的主要假设是为了评估所选的交易模式是否适合在机器学习设置中使用。在整个实验中,我们发现在机器学习设置中使用所考虑的交易模式仅由统计数据得到部分支持,从而导致效果尺寸微不足道(反弹7- $ 0.64 \ pm 1.02 $,反弹11 $ 0.38 \ pm 0.98 $,并且篮板15- $ 1.05 \ pm 1.16 $),但允许拒绝零假设。我们展示了美国期货市场工具上的通用方法,并提供了证据表明,通过这种方法,我们可以轻松获得除传统绩效和盈利度指标之外的信息指标。这项工作是最早将这种严格的统计支持方法应用于金融市场领域的工作之一,我们希望这可能是更多研究的跳板。
translated by 谷歌翻译
装袋和升压是在机器学习(ml)中的两个流行的集合方法,产生许多单独的决策树。由于这些方法的固有组合特性,它们通常以预测性能更优于单决定树或其他ML模型。然而,为每个决策树生成许多决定路径,增加了模型的整体复杂性,并阻碍了其在需要值得信赖和可解释的决策的域中的域,例如金融,社会护理和保健。因此,随着决策的数量升高,袋装和升降算法(例如随机森林和自适应升压)的解释性降低。在本文中,我们提出了一种视觉分析工具,该工具旨在帮助用户通过彻底的视觉检查工作流程从这种ML模型中提取决策,包括选择一套鲁棒和不同的模型(源自不同的集合学习算法),选择重要的功能根据他们的全球贡献,决定哪些决定对于全球解释(或本地,具体案件)是必不可少的。结果是基于多个模型的协议和用户出口的探索手动决策的最终决定。最后,我们通过用例,使用场景和用户学习评估患者的适用性和有效性。
translated by 谷歌翻译
We present a machine-learning framework to accurately characterize morphologies of Active Galactic Nucleus (AGN) host galaxies within $z<1$. We first use PSFGAN to decouple host galaxy light from the central point source, then we invoke the Galaxy Morphology Network (GaMorNet) to estimate whether the host galaxy is disk-dominated, bulge-dominated, or indeterminate. Using optical images from five bands of the HSC Wide Survey, we build models independently in three redshift bins: low $(0<z<0.25)$, medium $(0.25<z<0.5)$, and high $(0.5<z<1.0)$. By first training on a large number of simulated galaxies, then fine-tuning using far fewer classified real galaxies, our framework predicts the actual morphology for $\sim$ $60\%-70\%$ host galaxies from test sets, with a classification precision of $\sim$ $80\%-95\%$, depending on redshift bin. Specifically, our models achieve disk precision of $96\%/82\%/79\%$ and bulge precision of $90\%/90\%/80\%$ (for the 3 redshift bins), at thresholds corresponding to indeterminate fractions of $30\%/43\%/42\%$. The classification precision of our models has a noticeable dependency on host galaxy radius and magnitude. No strong dependency is observed on contrast ratio. Comparing classifications of real AGNs, our models agree well with traditional 2D fitting with GALFIT. The PSFGAN+GaMorNet framework does not depend on the choice of fitting functions or galaxy-related input parameters, runs orders of magnitude faster than GALFIT, and is easily generalizable via transfer learning, making it an ideal tool for studying AGN host galaxy morphology in forthcoming large imaging survey.
translated by 谷歌翻译