高水平的缺失数据和强大的类别不平衡是普遍存在的挑战,这些挑战通常在真实世界序列数据中同时呈现。现有方法分别接近这些问题,经常对底层数据生成过程进行显着假设,以减少缺失信息的影响。在这项工作中,我们可以利用展示如何普遍的自我监督训练方法,即自动评论预测编码(APC),以克服同时缺失的数据和类不平衡而没有强烈的假设。具体地,在合成数据集上,我们表明,通过使用APC,标准基线基本上得到改善,在高缺失和严重的阶级不平衡中产生最大的收益。我们进一步应用于两个现实世界医疗时间系列数据集的APC,并表明APC在所有设置中提高了分类性能,最终实现了最先进的AUPRC结果在物理体基准上。
translated by 谷歌翻译
As a result of the ever increasing complexity of configuring and fine-tuning machine learning models, the field of automated machine learning (AutoML) has emerged over the past decade. However, software implementations like Auto-WEKA and Auto-sklearn typically focus on classical machine learning (ML) tasks such as classification and regression. Our work can be seen as the first attempt at offering a single AutoML framework for most problem settings that fall under the umbrella of multi-target prediction, which includes popular ML settings such as multi-label classification, multivariate regression, multi-task learning, dyadic prediction, matrix completion, and zero-shot learning. Automated problem selection and model configuration are achieved by extending DeepMTP, a general deep learning framework for MTP problem settings, with popular hyperparameter optimization (HPO) methods. Our extensive benchmarking across different datasets and MTP problem settings identifies cases where specific HPO methods outperform others.
translated by 谷歌翻译
二进制代码分析的最新趋势促进了基于教学嵌入模型的神经解决方案的使用。指令嵌入模型是一个神经网络,将汇编指令序列转换为嵌入向量。如果对嵌入式网络进行了训练,从而使从代码到向量的翻译部分保留了语义,则该网络有效地代表了汇编代码模型。在本文中,我们介绍了Binbert,这是一种新颖的装配代码模型。 Binbert建立在汇编指令序列和符号执行信息的庞大数据集中的预训练的变压器上。 Binbert可以应用于汇编指令序列,并且可以微调,即可以作为任务特定数据的神经体系结构的一部分进行重新训练。通过微调,Binbert学会了如何将获得预培训获得的通用知识应用于特定任务。我们根据多任务基准评估了Binbert,我们专门设计了用于测试组装代码的理解。基准是由几个任务组成的,其中一些是从文献中获得的,以及我们设计的一些新颖任务,并结合了内在和下游任务。我们的结果表明,Binbert优于二进制指令嵌入的最先进模型,提高了二进制代码理解的标准。
translated by 谷歌翻译
算法配置(AC)与对参数化算法最合适的参数配置的自动搜索有关。目前,文献中提出了各种各样的交流问题变体和方法。现有评论没有考虑到AC问题的所有衍生物,也没有提供完整的分类计划。为此,我们引入分类法以分别描述配置方法的交流问题和特征。我们回顾了分类法的镜头中现有的AC文献,概述相关的配置方法的设计选择,对比方法和问题变体相互对立,并描述行业中的AC状态。最后,我们的评论为研究人员和从业人员提供了AC领域的未来研究方向。
translated by 谷歌翻译
自动化机器学习(AutomL)的基本任务是在给定数据集中自动查找流量的流水线的问题。此问题已通过贝叶斯优化,语法族遗传算法和树搜索算法等复杂的黑盒优化技术来解决了这个问题。大多数当前方法都是通过假设优化分离的管道的组分可以产生次优效果。我们展示了天真的Automl,这一方法确实如此:它可以在隔离中优化预定义的流水线方案的不同算法。最后返回的管道通过仅采用每个插槽的最佳算法获得。孤立的优化导致大幅减少的搜索空间,并且令人惊讶地,这种方法产生比目前最先进的优化器的相当且有时更好的性能。
translated by 谷歌翻译
自动化机器学习(Automl)努力自动配置机器学习算法及其组合的整体(软件)解决方案 - 机器学习管道 - 针对手头的学习任务(数据集)量身定制。在过去十年中,Automl已成为具有数百个贡献的热门研究课题。虽然Automl提供了许多前景,但也称它也是相当资源密集的,这是其主要批评的主要观点之一。高资源消耗的主要原因是许多方法依赖于许多ML管道的(昂贵)评估,同时寻找良好的候选者。由于使用许多数据集和方法进行了大规模实验,因此在Automl方法研究的背景下放大了这个问题,每个数据都是用几种重复来排除随机效应的几个重复的实验。本文阐述了最近的绿色AI的精神,是为了提高对问题的自动化研究人员的意识,并详细阐述可能的补救措施。为此,我们确定了四类行动,社区可能采取更加可持续的自动化计划,即接近设计,基准,研究激励和透明度。
translated by 谷歌翻译