在本文中,我们介绍了称为DIFFML的可区分ML管道的愿景,以自动以端到端的方式自动化ML管道的构建。这个想法是,DIFFML不仅允许共同训练ML模型本身,还可以训练整个管道,包括数据预处理步骤,例如数据清洁,功能选择等。我们的核心思想是以不同的方式制定所有管道步骤,以便整个管道可以使用反向传播训练。但是,这是一个非平凡的问题,并打开了许多新的研究问题。为了展示该方向的可行性,我们演示了最初的想法和一般原则,即如何将典型的预处理步骤(例如数据清洁,特征选择和数据集选择)作为可区分的程序制定,并通过ML模型共同学习。此外,我们讨论了必须系统地解决的研究路线图和核心挑战,以实现完全可区分的ML管道。
translated by 谷歌翻译
大多数机器学习算法由一个或多个超参数配置,必须仔细选择并且通常会影响性能。为避免耗时和不可递销的手动试验和错误过程来查找性能良好的超参数配置,可以采用各种自动超参数优化(HPO)方法,例如,基于监督机器学习的重新采样误差估计。本文介绍了HPO后,本文审查了重要的HPO方法,如网格或随机搜索,进化算法,贝叶斯优化,超带和赛车。它给出了关于进行HPO的重要选择的实用建议,包括HPO算法本身,性能评估,如何将HPO与ML管道,运行时改进和并行化结合起来。这项工作伴随着附录,其中包含关于R和Python的特定软件包的信息,以及用于特定学习算法的信息和推荐的超参数搜索空间。我们还提供笔记本电脑,这些笔记本展示了这项工作的概念作为补充文件。
translated by 谷歌翻译
近年来,随着传感器和智能设备的广泛传播,物联网(IoT)系统的数据生成速度已大大增加。在物联网系统中,必须经常处理,转换和分析大量数据,以实现各种物联网服务和功能。机器学习(ML)方法已显示出其物联网数据分析的能力。但是,将ML模型应用于物联网数据分析任务仍然面临许多困难和挑战,特别是有效的模型选择,设计/调整和更新,这给经验丰富的数据科学家带来了巨大的需求。此外,物联网数据的动态性质可能引入概念漂移问题,从而导致模型性能降解。为了减少人类的努力,自动化机器学习(AUTOML)已成为一个流行的领域,旨在自动选择,构建,调整和更新机器学习模型,以在指定任务上实现最佳性能。在本文中,我们对Automl区域中模型选择,调整和更新过程中的现有方法进行了审查,以识别和总结将ML算法应用于IoT数据分析的每个步骤的最佳解决方案。为了证明我们的发现并帮助工业用户和研究人员更好地实施汽车方法,在这项工作中提出了将汽车应用于IoT异常检测问题的案例研究。最后,我们讨论并分类了该领域的挑战和研究方向。
translated by 谷歌翻译
我们介绍了数据科学预测生命周期中各个阶段开发和采用自动化的技术和文化挑战的说明概述,从而将重点限制为使用结构化数据集的监督学习。此外,我们回顾了流行的开源Python工具,这些工具实施了针对自动化挑战的通用解决方案模式,并突出了我们认为进步仍然需要的差距。
translated by 谷歌翻译
比较不同的汽车框架是具有挑战性的,并且经常做错了。我们引入了一个开放且可扩展的基准测试,该基准遵循最佳实践,并在比较自动框架时避免常见错误。我们对71个分类和33项回归任务进行了9个著名的自动框架进行了详尽的比较。通过多面分析,评估模型的准确性,与推理时间的权衡以及框架失败,探索了自动框架之间的差异。我们还使用Bradley-terry树来发现相对自动框架排名不同的任务子集。基准配备了一个开源工具,该工具与许多自动框架集成并自动化经验评估过程端到端:从框架安装和资源分配到深入评估。基准测试使用公共数据集,可以轻松地使用其他Automl框架和任务扩展,并且具有最新结果的网站。
translated by 谷歌翻译
机器学习(ML)生命周期涉及一系列迭代步骤,从有效的收集和准备数据,包括复杂的特征工程流程,对结果的演示和改进,各种步骤中的各种算法选择。特征工程尤其可以对ML非常有益,导致许多改进,例如提高预测结果,降低计算时间,减少过度噪音,并提高培训期间所采取的决策背后的透明度。尽管如此,虽然存在多个视觉分析工具来监控和控制ML生命周期的不同阶段(特别是与数据和算法相关的阶段),但功能工程支持仍然不足。在本文中,我们提出了FightEnvi,一种专门设计用于协助特征工程过程的视觉分析系统。我们建议的系统可帮助用户选择最重要的功能,将原始功能转换为强大的替代方案,并进行不同的特征生成组合。此外,数据空间切片允许用户探索本地和全局尺度上的功能的影响。 Feationenvi利用多种自动特征选择技术;此外,它目视指导用户有统计证据的关于每个特征的影响(或功能的子集)。最终结果是通过多种验证度量评估的重新设计的重新设计特征。用两种用例和案例研究证明了FeatureenVI的有用性和适用性。我们还向评估我们系统的有效性以及评估我们系统的有效性的观众报告反馈。
translated by 谷歌翻译
超参数优化构成了典型的现代机器学习工作流程的很大一部分。这是由于这样一个事实,即机器学习方法和相应的预处理步骤通常只有在正确调整超参数时就会产生最佳性能。但是在许多应用中,我们不仅有兴趣仅仅为了预测精度而优化ML管道;确定最佳配置时,必须考虑其他指标或约束,从而导致多目标优化问题。由于缺乏知识和用于多目标超参数优化的知识和容易获得的软件实现,因此通常在实践中被忽略。在这项工作中,我们向读者介绍了多个客观超参数优化的基础知识,并激励其在应用ML中的实用性。此外,我们从进化算法和贝叶斯优化的领域提供了现有优化策略的广泛调查。我们说明了MOO在几个特定ML应用中的实用性,考虑了诸如操作条件,预测时间,稀疏,公平,可解释性和鲁棒性之类的目标。
translated by 谷歌翻译
异构表格数据是最常用的数据形式,对于众多关键和计算要求的应用程序至关重要。在同质数据集上,深度神经网络反复显示出卓越的性能,因此被广泛采用。但是,它们适应了推理或数据生成任务的表格数据仍然具有挑战性。为了促进该领域的进一步进展,这项工作概述了表格数据的最新深度学习方法。我们将这些方法分为三组:数据转换,专业体系结构和正则化模型。对于每个小组,我们的工作提供了主要方法的全面概述。此外,我们讨论了生成表格数据的深度学习方法,并且还提供了有关解释对表格数据的深层模型的策略的概述。因此,我们的第一个贡献是解决上述领域中的主要研究流和现有方法,同时强调相关的挑战和开放研究问题。我们的第二个贡献是在传统的机器学习方法中提供经验比较,并在五个流行的现实世界中的十种深度学习方法中,具有不同规模和不同的学习目标的经验比较。我们已将作为竞争性基准公开提供的结果表明,基于梯度增强的树合奏的算法仍然大多在监督学习任务上超过了深度学习模型,这表明对表格数据的竞争性深度学习模型的研究进度停滞不前。据我们所知,这是对表格数据深度学习方法的第一个深入概述。因此,这项工作可以成为有价值的起点,以指导对使用表格数据深入学习感兴趣的研究人员和从业人员。
translated by 谷歌翻译
机器学习(ML)提供了在具有较大特征空间和复杂关联的数据中通常在数据中检测和建模关联的强大方法。已经开发了许多有用的工具/软件包(例如Scikit-learn),以使数据处理,处理,建模和解释的各种要素可访问。但是,对于大多数研究人员来说,将这些元素组装成严格,可复制,无偏见和有效的数据分析管道并不是微不足道的。自动化机器学习(AUTOML)试图通过简化所有人的ML分析过程来解决这些问题。在这里,我们介绍了一个简单,透明的端到端汽车管道,设计为一个框架,以轻松进行严格的ML建模和分析(最初限于二进制分类)。 Streamline专门设计用于比较数据集,ML算法和其他AutoML工具之间的性能。通过使用精心设计的一系列管道元素,通过提供完全透明且一致的比较基线,它是独特的,包括:(1)探索性分析,(2)基本数据清洁,(3)交叉验证分区,(4)数据缩放和插补,(5)基于滤波器的特征重要性估计,(6)集体特征选择,(7)通过15个已建立算法的“ Optuna”超参数优化的ML建模(包括较不知名的基因编程和基于规则的ML ),(8)跨16个分类指标的评估,(9)模型特征重要性估计,(10)统计显着性比较,以及(11)自动导出所有结果,图,PDF摘要报告以及可以轻松应用于复制数据。
translated by 谷歌翻译
自动化机器学习近年来取得了卓越的技术发展,并建立了自动化机器学习管道现在是一个必不可少的任务。模型集合是组合多种模型来获得更好更强更强的模型的技术。然而,现有的自动化机器学习在处理模型集合方面往往是简单的,其中集合策略是固定的,例如堆叠的泛化。不同的集合方法有很多技术,尤其是合奏选择,固定的集合策略限制了模型性能的上限。在本文中,我们为自动化机器学习提出了一种新颖的框架。我们的框架纳入了动态集合选择的进步,并提出了我们最佳知识,我们的方法是自动策略领域的第一个搜索和优化集合策略。在比较实验中,我们的方法优于来自OpenML平台的42个分类数据集中具有相同CPU时间的最先进的自动化机器学习框架。对我们框架的消融实验验证了我们提出的方法的有效性。
translated by 谷歌翻译
自动化的机器学习(AUTOML)过程可能需要通过不仅机器学习(ML)组件及其超参数的复杂配置空间进行搜索,还需要将它们组合在一起,即形成ML管道。如果该管道配置空间过大,那么固定时间预算可实现的优化效率和模型精度可实现。一个关键的研究问题是,通过利用其历史表现来完成各种ML任务(即元知识),避免对ML管道的不良评估是否可能既可能又实用。以前的经验以分类器/回归器准确性排名的形式来自(1)(1)在历史自动运行期间进行的大量但无尽的管道评估数量,即“机会性”元知识,或(2)全面的交叉 - 通过默认超参数(即“系统”的元知识,对分类器/回归器的验证评估。使用AUTOWEKA4MCPS软件包进行了许多实验,表明(1)机会性/系统的元知识可以改善ML的结果,通常与元知识的相关性以及(2)配置空间扣除在不太保守的情况下是最佳的(2)也不是激进的。但是,元知识的效用和影响急性取决于其发电和剥削的许多方面,并保证了广泛的分析;这些通常在汽车和元学习文献中被忽视/不足。特别是,我们观察到对数据集的“挑战”的强烈敏感性,即选择预测因子的特异性是否会导致性能明显更好。最终,确定这样定义的“困难”数据集对于生成信息丰富的元知识基础和理解最佳搜索空间降低策略至关重要。
translated by 谷歌翻译
近年来,计算机视觉社区中最受欢迎的技术之一就是深度学习技术。作为一种数据驱动的技术,深层模型需要大量准确标记的培训数据,这在许多现实世界中通常是无法访问的。数据空间解决方案是数据增强(DA),可以人为地从原始样本中生成新图像。图像增强策略可能因数据集而有所不同,因为不同的数据类型可能需要不同的增强以促进模型培训。但是,DA策略的设计主要由具有领域知识的人类专家决定,这被认为是高度主观和错误的。为了减轻此类问题,一个新颖的方向是使用自动数据增强(AUTODA)技术自动从给定数据集中学习图像增强策略。 Autoda模型的目的是找到可以最大化模型性能提高的最佳DA策略。这项调查从图像分类的角度讨论了Autoda技术出现的根本原因。我们确定标准自动赛车模型的三个关键组件:搜索空间,搜索算法和评估功能。根据他们的架构,我们提供了现有图像AUTODA方法的系统分类法。本文介绍了Autoda领域的主要作品,讨论了他们的利弊,并提出了一些潜在的方向以进行未来的改进。
translated by 谷歌翻译
在本文中,我们介绍了零射成本模型,使学习成本估计能够推广到看不见的数据库。与最先进的工作负载驱动方法相比,需要在每个新数据库上执行大量训练查询,因此零击成本模型因此允许在没有的盒子中实例化学习成本模型昂贵的培训数据收集。要启用此类零拍成本模型,我们建议基于预先训练的成本模型的新学习范例。作为支持将此类预先训练的成本模型转移到解密数据库的核心贡献,我们介绍了一种新的模型架构和表示技术,用于将查询工作负载编码为对这些模型的输入。正如我们将在我们的评估中展示,零射成本估计可以为广泛的(现实世界)数据库的最先进模型提供更准确的成本估算,而无需在未操作数据库上执行任何查询执行。此外,我们表明零击成本模型可以在几次拍摄模式下使用,从而通过在看不见的数据库上使用少量额外的训练查询来进一步提高其质量。
translated by 谷歌翻译
The success of machine learning in a broad range of applications has led to an ever-growing demand for machine learning systems that can be used off the shelf by non-experts. To be effective in practice, such systems need to automatically choose a good algorithm and feature preprocessing steps for a new dataset at hand, and also set their respective hyperparameters. Recent work has started to tackle this automated machine learning (AutoML) problem with the help of efficient Bayesian optimization methods. Building on this, we introduce a robust new AutoML system based on scikit-learn (using 15 classifiers, 14 feature preprocessing methods, and 4 data preprocessing methods, giving rise to a structured hypothesis space with 110 hyperparameters). This system, which we dub AUTO-SKLEARN, improves on existing AutoML methods by automatically taking into account past performance on similar datasets, and by constructing ensembles from the models evaluated during the optimization. Our system won the first phase of the ongoing ChaLearn AutoML challenge, and our comprehensive analysis on over 100 diverse datasets shows that it substantially outperforms the previous state of the art in AutoML. We also demonstrate the performance gains due to each of our contributions and derive insights into the effectiveness of the individual components of AUTO-SKLEARN.
translated by 谷歌翻译
深入学习的强化学习(RL)的结合导致了一系列令人印象深刻的壮举,许多相信(深)RL提供了一般能力的代理。然而,RL代理商的成功往往对培训过程中的设计选择非常敏感,这可能需要繁琐和易于易于的手动调整。这使得利用RL对新问题充满挑战,同时也限制了其全部潜力。在许多其他机器学习领域,AutomL已经示出了可以自动化这样的设计选择,并且在应用于RL时也会产生有希望的初始结果。然而,自动化强化学习(AutorL)不仅涉及Automl的标准应用,而且还包括RL独特的额外挑战,其自然地产生了不同的方法。因此,Autorl已成为RL中的一个重要研究领域,提供来自RNA设计的各种应用中的承诺,以便玩游戏等游戏。鉴于RL中考虑的方法和环境的多样性,在不同的子领域进行了大部分研究,从Meta学习到进化。在这项调查中,我们寻求统一自动的领域,我们提供常见的分类法,详细讨论每个区域并对研究人员来说是一个兴趣的开放问题。
translated by 谷歌翻译
本文调查了股票回购,特别是分享回购公告。它解决了如何识别此类公告,股票回购的超额回报以及股票回购公告后的回报的预测。我们说明了两种NLP方法,用于自动检测股票回购公告。即使有少量的培训数据,我们也可以达到高达90%的准确性。该论文利用这些NLP方法生成一个由57,155个股票回购公告组成的大数据集。通过分析该数据集,本论文的目的是表明大多数宣布回购的公司的大多数公司都表现不佳。但是,少数公司的表现极大地超过了MSCI世界。当查看所有公司的平均值时,这种重要的表现过高会导致净收益。如果根据公司的规模调整了基准指数,则平均表现过高,并且大多数表现不佳。但是,发现宣布股票回购的公司至少占其市值的1%,即使使用调整后的基准,也平均交付了显着的表现。还发现,在危机时期宣布股票回购的公司比整个市场更好。此外,生成的数据集用于训练72个机器学习模型。通过此,它能够找到许多可以达到高达77%并产生大量超额回报的策略。可以在六个不同的时间范围内改善各种性能指标,并确定明显的表现。这是通过训练多个模型的不同任务和时间范围以及结合这些不同模型的方法来实现的,从而通过融合弱学习者来产生重大改进,以创造一个强大的学习者。
translated by 谷歌翻译
在我们与正在使用当今汽车系统的领域专家合作的经验中,我们遇到的一个常见问题是我们所说的“不切实际的期望” - 当用户通过嘈杂的数据获取过程面临非常具有挑战性的任务时,同时被期望实现机器学习(ML)的精度非常高。其中许多是从一开始就失败的。在传统的软件工程中,通过可行性研究解决了此问题,这是开发任何软件系统之前必不可少的一步。在本文中,我们介绍了Snoopy,目的是支持数据科学家和机器学习工程师在构建ML应用之前进行系统和理论上建立的可行性研究。我们通过估计基本任务的不可还原错误(也称为贝叶斯错误率(BER))来解决此问题,这源于用于训练或评估ML模型工件的数据集中的数据质量问题。我们设计了一个实用的贝叶斯误差估计器,该估计值与计算机视觉和自然语言处理中的6个数据集(具有不同级别的其他实际和合成噪声)上的基线可行性研究候选者进行了比较。此外,通过将我们的系统可行性研究和其他信号包括在迭代标签清洁过程中,我们在端到端实验中证明了用户如何能够节省大量的标签时间和货币努力。
translated by 谷歌翻译
自动化机器学习(Automl)努力自动配置机器学习算法及其组合的整体(软件)解决方案 - 机器学习管道 - 针对手头的学习任务(数据集)量身定制。在过去十年中,Automl已成为具有数百个贡献的热门研究课题。虽然Automl提供了许多前景,但也称它也是相当资源密集的,这是其主要批评的主要观点之一。高资源消耗的主要原因是许多方法依赖于许多ML管道的(昂贵)评估,同时寻找良好的候选者。由于使用许多数据集和方法进行了大规模实验,因此在Automl方法研究的背景下放大了这个问题,每个数据都是用几种重复来排除随机效应的几个重复的实验。本文阐述了最近的绿色AI的精神,是为了提高对问题的自动化研究人员的意识,并详细阐述可能的补救措施。为此,我们确定了四类行动,社区可能采取更加可持续的自动化计划,即接近设计,基准,研究激励和透明度。
translated by 谷歌翻译
端到端的Automl吸引了学术界和行业的密集兴趣,它们在功能工程,算法/模型选择和超参数调整引起的空间中自动搜索ML管道。但是,现有的Automl系统在适用于具有较大高维搜索空间的应用程序域时会遇到可伸缩性问题。我们提出了火山洛(Volcanoml),这是一个可扩展且可扩展的框架,可促进对大型汽车搜索空间的系统探索。 Volcanoml引入并实施了将大型搜索空间分解为较小的基本构建块,并允许用户利用这些构建块来制定手头上的汽车问题的执行计划。 Volcanoml进一步支持火山风格的执行模型(类似于现代数据库系统支持的模型)来执行构建的计划。我们的评估表明,不仅火山团提高了汽车中搜索空间分解的表达水平,还导致了分解策略的实际发现,这些发现比先进的自动符号系统所采用的策略更有效率地更加有效。作为自动滑雪。
translated by 谷歌翻译
考虑在数据集中插入缺失值的问题。一方面,使用迭代插补的一方面,传统的方法可以直接从学习条件分布的简单性和可定制性中受益,但遭受了对每个变量的适当模型规范的实际要求。另一方面,使用深层生成建模的最新方法受益于神经网络功能近似器的学习能力和效率,但通常很难优化和依赖更强大的数据假设。在这项工作中,我们研究了一种嫁给两者优势的方法:我们提出了 *Hyperibute *,这是一种适应性和自动配置列型模型及其超级参数的广义迭代插补框架。实际上,我们为开箱即用的学习者,优化者,模拟器和可扩展的接口提供具体的实现。从经验上讲,我们通过在各种公共数据集上通过全面的实验和敏感性调查了该框架,并证明了其相对于强大基准测试套件而产生准确的归精的能力。与最近的工作相反,我们认为我们的发现构成了对迭代归档范式的强烈辩护。
translated by 谷歌翻译