智能论文笔记

Diversifying Design of Nucleic Acid Aptamers Using Unsupervised Machine Learning

Siba Moussa , Michael Kilgour , Clara Jans , Alex Hernandez-Garcia , Miroslava Cuperlovic-Culf , Yoshua Bengio , Lena Simine

分类：机器学习

2022-08-10

短单链RNA和DNA序列（适体）的逆设计是找到满足一组所需标准的序列的任务。相关标准可能是特定折叠基序的存在，与分子配体，传感属性等结合。适体设计的大多数实用方法都使用高通量实验（例如SELEX）和SELEX）和然后，仅通过对经验发现的候选人引入较小的修改来优化性能。具有所需特性但在化学成分上截然不同的序列将为搜索空间增加多样性，并促进发现有用的核酸适体。需要系统的多元化协议。在这里，我们建议使用一种无监督的机器学习模型，称为Potts模型，以发现具有可控序列多样性的新的有用序列。我们首先使用最大熵原理训练POTTS模型，这是一组由公共特征统一的经验鉴定的序列。为了生成具有可控多样性程度的新候选序列，我们利用了模型的光谱特征：能量带隙分离序列，与训练集相似，与训练集相似。通过控制采样的POTTS能量范围，我们生成的序列与训练集不同，但仍然可能具有编码功能。为了证明性能，我们将方法应用于设计不同的序列池，该序列具有30-MER RNA和DNA适体中指定的二级结构基序。

translated by 谷歌翻译

Resource frugal optimizer for quantum machine learning

Charles Moussa , Max Hunter Gordon , Michal Baczyk , M. Cerezo , Lukasz Cincio , Patrick J. Coles

分类：机器学习 | (统计)机器学习

2022-11-09

Quantum-enhanced data science, also known as quantum machine learning (QML), is of growing interest as an application of near-term quantum computers. Variational QML algorithms have the potential to solve practical problems on real hardware, particularly when involving quantum data. However, training these algorithms can be challenging and calls for tailored optimization procedures. Specifically, QML applications can require a large shot-count overhead due to the large datasets involved. In this work, we advocate for simultaneous random sampling over both the dataset as well as the measurement operators that define the loss function. We consider a highly general loss function that encompasses many QML applications, and we show how to construct an unbiased estimator of its gradient. This allows us to propose a shot-frugal gradient descent optimizer called Refoqus (REsource Frugal Optimizer for QUantum Stochastic gradient descent). Our numerics indicate that Refoqus can save several orders of magnitude in shot cost, even relative to optimizers that sample over measurement operators alone.

translated by 谷歌翻译

Synthesizing Annotated Image and Video Data Using a Rendering-Based Pipeline for Improved License Plate Recognition

Andreas Spruck , Maximilane Gruber , Anatol Maier , Denise Moussa , Jürgen Seiler , Christian Riess , André Kaup

分类：计算机视觉

2022-09-28

在神经网络应用中，不足的培训样本是一个常见的问题。尽管数据增强方法至少需要最少数量的样本，但我们提出了一种基于新颖的，基于渲染的管道来合成带注释的数据集。我们的方法不会修改现有样本，而是合成全新样本。提出的基于渲染的管道能够在全自动过程中生成和注释合成和部分真实的图像和视频数据。此外，管道可以帮助获取真实数据。拟议的管道基于渲染过程。此过程生成综合数据。部分实现的数据使合成序列通过在采集过程中合并真实摄像机使综合序列更接近现实。在自动车牌识别的背景下，广泛的实验验证证明了拟议的数据生成管道的好处，尤其是对于具有有限的可用培训数据的机器学习方案。与仅在实际数据集中训练的OCR算法相比，该实验表明，角色错误率和错过率分别从73.74％和100％和14.11％和41.27％降低。这些改进是通过仅对合成数据训练算法来实现的。当另外合并真实数据时，错误率可以进一步降低。因此，角色错误率和遗漏率可以分别降低至11.90％和39.88％。在实验过程中使用的所有数据以及针对自动数据生成的拟议基于渲染的管道公开可用（URL将在出版时揭示）。

translated by 谷歌翻译

Forensic License Plate Recognition with Compression-Informed Transformers

Denise Moussa , Anatol Maier , Andreas Spruck , Jürgen Seiler , Christian Riess

分类：计算机视觉 | 人工智能

2022-07-29

法医车牌识别（FLPR）仍然是在法律环境（例如刑事调查）中的公开挑战，在刑事调查中，不可读取的车牌（LPS）需要从高度压缩和/或低分辨率录像（例如监视摄像机）中解密。在这项工作中，我们提出了一个侧面信息变压器体系结构，该结构嵌入了输入压缩级别的知识，以改善在强压缩下的识别。我们在低质量的现实世界数据集上显示了变压器对车牌识别（LPR）的有效性。我们还提供了一个合成数据集，其中包括强烈退化，难以辨认的LP图像并分析嵌入知识对其的影响。该网络的表现优于现有的FLPR方法和标准最先进的图像识别模型，同时需要更少的参数。对于最严重的降级图像，我们可以将识别提高多达8.9％。

translated by 谷歌翻译

Towards Unconstrained Audio Splicing Detection and Localization with Neural Networks

Denise Moussa , Germans Hirsch , Christian Riess

分类：人工智能 | 计算机视觉

2022-07-29

免费可用且易于使用的音频编辑工具使执行音频剪接变得直接。可以通过结合同一人的各种语音样本来说服伪造。在考虑错误信息时，在公共部门都很重要，并且在法律背景下以验证证据的完整性很重要。不幸的是，用于音频剪接的大多数现有检测算法都使用手工制作的功能并做出特定的假设。但是，刑事调查人员经常面临来自未知特征不明的来源的音频样本，这增加了对更普遍适用的方法的需求。通过这项工作，我们的目标是朝着不受限制的音频剪接检测迈出第一步，以满足这一需求。我们以可能掩盖剪接的后处理操作的形式模拟各种攻击方案。我们提出了一个用于剪接检测和定位的变压器序列到序列（SEQ2SEQ）网络。我们的广泛评估表明，所提出的方法的表现优于现有的剪接检测方法[3，10]以及通用网络效率网络[28]和regnet [25]。

translated by 谷歌翻译

Do Not Take It for Granted: Comparing Open-Source Libraries for Software Development Effort Estimation

Rebecca Moussa , Federica Sarro

分类：机器学习

2022-07-04

在过去的二十年中，几个机器学习（ML）库已自由使用。许多研究都使用此类图书馆对预测软件工程（SE）任务进行实证研究。但是，使用一个库在另一个库上使用的差异被忽略了，隐含地假设使用这些库中的任何一个都会为用户提供相同或非常相似的结果。本文旨在提高人们对使用不同ML库进行软件开发工作估算（见）时所产生的差异的认识，这是研究最广泛的SE预测任务之一。为此，我们研究了3个最受欢迎的ML开源库（即不同语言）（即Scikit-Learn，Caret和Weka）提供的4个确定性机器学习者。我们进行了一项彻底的实证研究，比较了机器学习者在5个最常见的数据集上的性能，请参见方案（即，盒子内ML和TUNED-ML）以及深入的分析其API的文档和代码。我们的研究结果表明，在总共研究的105例病例中，这3个文库提供的预测平均为95％。在大多数情况下，这些差异明显很大，并且误容最多。每个项目3,000小时。此外，我们的API分析表明，这些库为用户提供了可以操纵参数的不同级别的控制，并且总体上缺乏清晰度和一致性，这可能会误导用户。我们的发现强调，ML库是参观研究的重要设计选择，这可能会导致性能差异。但是，这种差异不足。最后，我们通过强调开放式挑战，对图书馆的开发商以及使用它们的研究人员和从业者提出建议。

translated by 谷歌翻译

GEMv2: Multilingual NLG Benchmarking in a Single Line of Code

Sebastian Gehrmann , Abhik Bhattacharjee , Abinaya Mahendiran , Alex Wang , Alexandros Papangelis , Aman Madaan , Angelina McMillan-Major , Anna Shvets , Ashish Upadhyay , Bingsheng Yao

分类：自然语言处理 | 人工智能 | 机器学习

2022-06-22

通常通过过去的选择来告知机器学习中的评估，例如要使用哪些数据集或指标。该标准化可以使用排行榜对平等基础进行比较，但是随着出现更好的替代方案，评估选择变得不佳。这个问题在自然语言生成中尤其相关，该语言需要不断改善的数据集，指标和人类评估以提出确定性的主张。为了使遵循最佳模型评估实践更加容易，我们介绍了GEMV2。新版本的一代，评估和指标基准为数据集，模型和指标开发人员提供了模块化基础架构，以使彼此受益。GEMV2支持40种记录的数据集中51种语言。所有数据集的模型都可以在线评估，我们的交互式数据卡创建和渲染工具使得在Living Benchmark中添加新数据集变得更加容易。

translated by 谷歌翻译

Hyperparameter Importance of Quantum Neural Networks Across Small Datasets

Charles Moussa , Jan N. van Rijn , Thomas Bäck , Vedran Dunjko

分类：机器学习

2022-06-20

随着受限制的量子计算机逐渐成为现实，寻找有意义的第一应用程序会加剧。在该领域中，较为研究的方法之一是使用一种特殊类型的量子电路（一种所谓的量子神经网络）作为机器学习模型的基础。顾名思义，粗略地说，量子神经网络可以与神经网络发挥相似的作用。但是，专门针对机器学习环境中的应用，对合适的电路体系结构或模型超参数的了解知之甚少。在这项工作中，我们将功能性方差分析框架应用于量子神经网络，以分析哪些超参数对其预测性能最大。我们分析了最常用的量子神经网络架构之一。然后，我们将其应用于OpenML-CC18分类基准中的$ 7 $开源数据集，其功能的数量足够小，足以适合量子硬件，少于$ 20 $ QUBITS。从功能方差分析获得的超参数的排名中检测到了三个主要重要性。我们的实验都证实了预期的模式，并揭示了新的见解。例如，在所有数据集上的边际贡献方面，设定学习率是最关键的超级参数，而所使用的纠缠门的特定选择被认为是最不重要的选择。这项工作介绍了研究量子机学习模型的新方法，并为量子模型选择提供了新的见解。

translated by 谷歌翻译

Agile Effort Estimation: Have We Solved the Problem Yet? Insights From A Replication Study

Vali Tawosi , Rebecca Moussa , Federica Sarro

分类：机器学习 | (统计)机器学习

2022-01-14

In the last decade, several studies have explored automated techniques to estimate the effort of agile software development. We perform a close replication and extension of a seminal work proposing the use of Deep Learning for Agile Effort Estimation (namely Deep-SE), which has set the state-of-the-art since. Specifically, we replicate three of the original research questions aiming at investigating the effectiveness of Deep-SE for both within-project and cross-project effort estimation. We benchmark Deep-SE against three baselines (i.e., Random, Mean and Median effort estimators) and a previously proposed method to estimate agile software project development effort (dubbed TF/IDF-SVM), as done in the original study. To this end, we use the data from the original study and an additional dataset of 31,960 issues mined from TAWOS, as using more data allows us to strengthen the confidence in the results, and to further mitigate external validity threats. The results of our replication show that Deep-SE outperforms the Median baseline estimator and TF/IDF-SVM in only very few cases with statistical significance (8/42 and 9/32 cases, respectively), thus confounding previous findings on the efficacy of Deep-SE. The two additional RQs revealed that neither augmenting the training set nor pre-training Deep-SE play lead to an improvement of its accuracy and convergence speed. These results suggest that using semantic similarity is not enough to differentiate user stories with respect to their story points; thus, future work has yet to explore and find new techniques and features that obtain accurate agile software development estimates.

translated by 谷歌翻译

NLP Research and Resources at DaSciM, Ecole Polytechnique

Hadi Abdine , Yanzhu Guo , Moussa Kamal Eddine , Giannis Nikolentzos , Stamatis Outsios , Guokan Shang , Christos Xypolopoulos , Michalis Vazirgiannis

分类：自然语言处理

2021-12-01

Dascim（数据科学和采矿）在Ecole Polytechnique的Lix的一部分，于2013年成立，从那时起，通过机器和深度学习方法生产大规模数据分析领域。本集团在NLP领域专门积极活跃，并在方法论和资源水平上具有有趣的结果。在此遵循我们对AFIA社区的不同贡献。

translated by 谷歌翻译