智能论文笔记

Improving Novelty Detection using the Reconstructions of Nearest Neighbours

Michael Mesarcik , Elena Ranguelova , Albert-Jan Boonstra , Rob V. van Nieuwpoort

分类：机器学习

2021-11-11

我们表明，在AutoEncoders（AE）的潜在空间中使用最近的邻居显着提高了单一和多级上下文中半监督新颖性检测的性能。通过学习来检测新奇的方法，以区分非新颖培训类和所有其他看不见的课程。我们的方法利用了最近邻居的重建和给定输入的潜在表示的潜在邻居的结合。我们证明了我们最近的潜在邻居（NLN）算法是内存和时间效率，不需要大量的数据增强，也不依赖于预先训练的网络。此外，我们表明NLN算法很容易应用于多个数据集而无需修改。此外，所提出的算法对于AutoEncoder架构和重建错误方法是不可知的。我们通过使用重建，剩余或具有一致损耗，验证了多个不同的自动码架构，如诸如香草，对抗和变形自身额度的各种标准数据集的方法。结果表明，NLN算法在多级案例的接收器操作特性（AUROC）曲线性能下授予面积增加17％，为单级新颖性检测8％。

translated by 谷歌翻译

Bayesian Optimization for auto-tuning GPU kernels

Floris-Jan Willemsen , Rob van Nieuwpoort , Ben van Werkhoven

分类：机器学习

2021-11-26

寻找可调谐GPU内核的最佳参数配置是一种非普通的搜索空间练习，即使在自动化时也是如此。这在非凸搜索空间上造成了优化任务，使用昂贵的来评估具有未知衍生的函数。这些特征为贝叶斯优化做好了良好的候选人，以前尚未应用于这个问题。然而，贝叶斯优化对这个问题的应用是具有挑战性的。我们演示如何处理粗略的，离散的受限搜索空间，包含无效配置。我们介绍了一种新颖的上下文方差探索因子，以及具有改进的可扩展性的新采集功能，与知识的采集功能选择机制相结合。通过比较我们贝叶斯优化实现对各种测试用例的性能，以及核心调谐器中的现有搜索策略以及其他贝叶斯优化实现，我们证明我们的搜索策略概括了良好的良好，并始终如一地以广泛的保证金更优于其他搜索策略。

translated by 谷歌翻译

Epigenomic language models powered by Cerebras

Meredith V. Trotter , Cuong Q. Nguyen , Stephen Young , Rob T. Woodruff , Kim M. Branson

分类：机器学习

2021-12-14

变压器语言模型的大规模自我监督的预培训已经推进了自然语言处理领域，并在跨申请中显示了蛋白质和DNA的生物“语言”的承诺。学习使用大型基因组序列的DNA序列的有效表示可以通过转移学习加速基因调控模型的发展。然而，为了精确模拟特异性细胞类型的基因调节和功能，不仅需要考虑DNA核苷酸序列中包含的信息，这主要是细胞类型之间的不变性，还要考虑局部化学和结构“表观遗传状态”染色体在细胞类型之间变化。这里，我们引入来自变压器（BERT）模型的双向编码器表示，该模型基于DNA序列和配对的表观遗传状态输入来学习表示，我们称之为表观脑栓（或ebert）。我们在整个人类基因组中使用蒙面语言模型目标以及跨越127种细胞类型预先列车。通过与脑系统的合作伙伴关系，第一次培训这种复杂模型，首次通过与脑系统合作，其CS-1系统提供所有预训练实验。我们通过展示细胞类型特定的转录因子绑定预测任务的强大性能来显示Ebert的转移学习潜力。我们的微调模型超过了来自编码梦想基准的13个评估数据集中的4个艺术表现的状态，并在挑战排行榜上获得3号的整体排名。我们探讨了表观遗传数据和任务特定功能增强的如何纳入影响转移学习绩效。

translated by 谷歌翻译

Multi-surrogate Assisted Efficient Global Optimization for Discrete Problems

Qi Huang , Roy de Winter , Bas van Stein , Thomas Bäck , Anna V. Kononova

分类：神经与进化计算

2022-12-13

Decades of progress in simulation-based surrogate-assisted optimization and unprecedented growth in computational power have enabled researchers and practitioners to optimize previously intractable complex engineering problems. This paper investigates the possible benefit of a concurrent utilization of multiple simulation-based surrogate models to solve complex discrete optimization problems. To fulfill this, the so-called Self-Adaptive Multi-surrogate Assisted Efficient Global Optimization algorithm (SAMA-DiEGO), which features a two-stage online model management strategy, is proposed and further benchmarked on fifteen binary-encoded combinatorial and fifteen ordinal problems against several state-of-the-art non-surrogate or single surrogate assisted optimization algorithms. Our findings indicate that SAMA-DiEGO can rapidly converge to better solutions on a majority of the test problems, which shows the feasibility and advantage of using multiple surrogate models in optimizing discrete problems.

translated by 谷歌翻译

BBOB Instance Analysis: Landscape Properties and Algorithm Performance across Problem Instances

Fu Xing Long , Diederick Vermetten , Bas van Stein , Anna V. Kononova

分类：神经与进化计算

2022-11-29

Benchmarking is a key aspect of research into optimization algorithms, and as such the way in which the most popular benchmark suites are designed implicitly guides some parts of algorithm design. One of these suites is the black-box optimization benchmarking (BBOB) suite of 24 single-objective noiseless functions, which has been a standard for over a decade. Within this problem suite, different instances of a single problem can be created, which is beneficial for testing the stability and invariance of algorithms under transformations. In this paper, we investigate the BBOB instance creation protocol by considering a set of 500 instances for each BBOB problem. Using exploratory landscape analysis, we show that the distribution of landscape features across BBOB instances is highly diverse for a large set of problems. In addition, we run a set of eight algorithms across these 500 instances, and investigate for which cases statistically significant differences in performance occur. We argue that, while the transformations applied in BBOB instances do indeed seem to preserve the high-level properties of the functions, their difference in practice should not be overlooked, particularly when treating the problems as box-constrained instead of unconstrained.

translated by 谷歌翻译

Machine learning-accelerated chemistry modeling of protoplanetary disks

Grigorii V. Smirnov-Pinchukov , Tamara Molyarova , Dmitry A. Semenov , Vitaly V. Akimkin , Sierk van Terwisga , Riccardo Francheschi , Thomas Henning

分类：机器学习

2022-09-27

目标。借助（子）毫米观测值的大量分子发射数据和詹姆斯·韦伯（James Webb）空间望远镜红外光谱，访问原磁盘的化学成分的快进模型至关重要。方法。我们使用了热化学建模代码来生成各种多样的原行星磁盘模型。我们训练了一个最初的邻居（KNN）回归剂，以立即预测其他磁盘模型的化学反应。结果。我们表明，由于所采用的原行业磁盘模型中局部物理条件之间的相关性，可以仅使用一小部分物理条件来准确地重现化学反应。我们讨论此方法的不确定性和局限性。结论。所提出的方法可用于对线排放数据的贝叶斯拟合，以从观测值中检索磁盘属性。我们提出了在其他磁盘化学模型集上再现相同方法的管道。

translated by 谷歌翻译

Skill Extraction from Job Postings using Weak Supervision

Mike Zhang , Kristian Nørgaard Jensen , Rob van der Goot , Barbara Plank

分类：自然语言处理

2022-09-16

从职位发布获得的汇总数据为劳动力市场需求，新兴技能以及援助工作匹配提供了有力的见解。但是，大多数提取方法受到监督，因此需要昂贵且耗时的注释。为了克服这一点，我们建议通过弱监督提取技巧。我们利用欧洲的技能，能力，资格和职业分类法，通过潜在代表来找到工作广告的类似技能。该方法根据令牌级别和句法模式显示了强烈的正信号，优于基准。

translated by 谷歌翻译

Preregistered protocol for: Articulatory changes in speech following treatment for oral or oropharyngeal cancer: a systematic review

Thomas B. Tienkamp , Teja Rebernik , Defne Abur , Rob J. J. H. van Son , Sebastiaan A. H. J. de Visscher , Max J. H. Witjes , Martijn Wieling

分类：自然语言处理

2022-09-14

该文档概述了Prospero预先注册的方案，用于对口腔或口腔或肉桂癌治疗后语音变化的系统审查进行系统审查。口腔中肿瘤的治疗可能会导致生理变化，这可能导致发音困难。由于疤痕组织和/或潜在的（术后）放射治疗，舌头变得不那么流动。此外，组织损失可能会为气流或极限收缩可能性创造旁路。为了更好地了解语音问题的性质，需要有关枢纽运动的信息，因为感知信息或声学信息仅提供了间接的关节变化证据。因此，这项系统的综述将回顾研究，该研究直接测量口腔或口咽癌治疗后舌，下巴和嘴唇的关节运动。

translated by 谷歌翻译

Graph Neural Networks for Low-Energy Event Classification & Reconstruction in IceCube

R. Abbasi , M. Ackermann , J. Adams , N. Aggarwal , J. A. Aguilar , M. Ahlers , M. Ahrens , J. M. Alameddine , A. A. Alves Jr. , N. M. Amin

分类：机器学习

2022-09-07

ICECUBE是一种用于检测1 GEV和1 PEV之间大气和天体中微子的光学传感器的立方公斤阵列，该阵列已部署1.45 km至2.45 km的南极的冰盖表面以下1.45 km至2.45 km。来自ICE探测器的事件的分类和重建在ICeCube数据分析中起着核心作用。重建和分类事件是一个挑战，这是由于探测器的几何形状，不均匀的散射和冰中光的吸收，并且低于100 GEV的光，每个事件产生的信号光子数量相对较少。为了应对这一挑战，可以将ICECUBE事件表示为点云图形，并将图形神经网络（GNN）作为分类和重建方法。 GNN能够将中微子事件与宇宙射线背景区分开，对不同的中微子事件类型进行分类，并重建沉积的能量，方向和相互作用顶点。基于仿真，我们提供了1-100 GEV能量范围的比较与当前ICECUBE分析中使用的当前最新最大似然技术，包括已知系统不确定性的影响。对于中微子事件分类，与当前的IceCube方法相比，GNN以固定的假阳性速率（FPR）提高了信号效率的18％。另外，GNN在固定信号效率下将FPR的降低超过8（低于半百分比）。对于能源，方向和相互作用顶点的重建，与当前最大似然技术相比，分辨率平均提高了13％-20％。当在GPU上运行时，GNN能够以几乎是2.7 kHz的中位数ICECUBE触发速率的速率处理ICECUBE事件，这打开了在在线搜索瞬态事件中使用低能量中微子的可能性。

translated by 谷歌翻译

SNGuess: A method for the selection of young extragalactic transients

N. Miranda , J. C. Freytag , J. Nordin , R. Biswas , V. Brinnel , C. Fremling , M. Kowalski , A. Mahabal , S. Reusch , J. van Santen

分类：机器学习

2022-08-13

随着天文学中检测到的瞬变数量的迅速增加，基于机器学习的分类方法正在越来越多地使用。他们的目标通常是要获得瞬态的确定分类，并且出于良好的性能，他们通常需要存在大量观察。但是，精心设计，有针对性的模型可以通过更少的计算资源来达到其分类目标。本文介绍了Snguess，该模型旨在找到高纯度附近的年轻外乳旋转瞬变。 Snguess可以使用一组功能，这些功能可以从天文警报数据中有效计算。其中一些功能是静态的，并且与警报元数据相关联，而其他功能必须根据警报中包含的光度观测值计算。大多数功能都足够简单，可以在其检测后的瞬态生命周期的早期阶段获得或计算。我们为从Zwicky Transient设施（ZTF）的一组标记的公共警报数据计算了这些功能。 Snguess的核心模型由一组决策树组成，这些集合是通过梯度提升训练的。 SNGUESS建议的候选人中约有88％的ZTF从2020年4月至2021年8月的一组警报中被发现是真正的相关超新星（SNE）。对于具有明亮检测的警报，此数字在92％至98％之间。自2020年4月以来，Snguess确定为ZTF Alert流中潜在SNE的瞬变已发布到AMPEL_ZTF_NEW组标识符下的瞬态名称服务器（TNS）。可以通过Web服务访问ZTF观察到的任何暂时性的SNGUESS分数。 Snguess的源代码可公开使用。

translated by 谷歌翻译