智能论文笔记

Direct deduction of chemical class from NMR spectra

Stefan Kuhn , Carlos Cobas , Agustin Barba , Simon Colreavy-Donnelly , Fabio Caraffini , Ricardo Moreira Borges

分类：人工智能 | 机器学习

2022-11-06

This paper presents a proof-of-concept method for classifying chemical compounds directly from NMR data without doing structure elucidation. This can help to reduce time in finding good structure candidates, as in most cases matching must be done by a human engineer, or at the very least a process for matching must be meaningfully interpreted by one. Therefore, for a long time automation in the area of NMR has been actively sought. The method identified as suitable for the classification is a convolutional neural network (CNN). Other methods, including clustering and image registration, have not been found suitable for the task in a comparative analysis. The result shows that deep learning can offer solutions to automation problems in cheminformatics.

translated by 谷歌翻译

A universal synthetic dataset for machine learning on spectroscopic data

Jan Schuetzke , Nathan J. Szymanski , Markus Reischl

分类：机器学习

2022-06-13

为了帮助开发用于光谱数据自动分类的机器学习方法，我们生成了一个通用的合成数据集，可用于模型验证。该数据集包含人工光谱，旨在表示来自X射线衍射，核磁共振和拉曼光谱的技术的实验测量。数据集生成过程具有可自定义的参数，例如扫描长度和峰值计数，可以调整这些参数以适应手头的问题。作为初始基准，我们模拟了一个基于500个独特类的数据集，该数据集包含35,000个光谱。为了自动化此数据的分类，评估了八个不同的机器学习体系结构。从结果来看，我们阐明了哪些因素对于在分类任务中实现最佳性能至关重要。用于生成合成光谱的脚本以及我们的基准数据集和评估程序，可公开使用，以帮助开发改进的机器学习模型以进行光谱分析。

translated by 谷歌翻译

A new method for binary classification of proteins with Machine Learning

Damiano Perri , Marco Simonetti , Andrea Lombardi , Noelia Faginas-Lago , Osvaldo Gervasi

分类：机器学习

2021-11-03

在这项工作中，我们开始使用深入学习方法来找到对蛋白质结构进行分类的方法。我们的人工智能已经训练，以识别从蛋白质数据库（PDB）数据库外推的复杂的生物分子结构，并将其被重新处理为图像;为此目的，已经使用预先训练的卷积神经网络进行了各种测试，例如InceptionResnetv2或Inceptionv3，以便从这些图像中提取有效的特征并正确对分子进行分类。因此，将产生对各种网络的性能的比较分析。

translated by 谷歌翻译

Machine learning identification of organic compounds using visible light

Thulasi Bikku , Rubén A. Fritz , Yamil J. Colón , Felipe Herrera

分类：机器学习

2022-04-06

在科学和工程的几个领域，识别化合物至关重要。基于激光的技术对于自主化合物检测很有希望，因为材料的光学响应编码了足够的电子和振动信息，以供远程化学识别。使用红外吸收光谱的指纹区域对此进行了利用，后者涉及一组密集的吸收峰，这些吸收峰是单个分子独有的，从而促进化学鉴定。但是，尚未实现使用可见光的光学识别。在从紫外线到远红外的纯有机化合物和聚合物的科学文献中，使用数十年的实验折射率数据，我们开发了一个机器学习分类器，该分类器可以基于单波长准确地识别有机物种可见光谱区域的色散测量，远离吸收共振。这里提出的光学分类器可以应用于自主材料识别协议或应用程序。

translated by 谷歌翻译

A biologically-inspired evaluation of molecular generative machine learning

Elizaveta Vinogradova , Abay Artykbayev , Alisher Amanatay , Mukhamejan Karatayev , Maxim Mametkulov , Albina Li , Anuar Suleimenov , Abylay Salimzhanov , Karina Pats , Rustam Zhumagambetov

分类：机器学习 | 人工智能

2022-08-20

虽然最近在许多科学领域都变得无处不在，但对其评估的关注较少。对于分子生成模型，最先进的是孤立或与其输入有关的输出。但是，它们的生物学和功能特性（例如配体 - 靶标相互作用）尚未得到解决。在这项研究中，提出了一种新型的生物学启发的基准，用于评估分子生成模型。具体而言，设计了三个不同的参考数据集，并引入了与药物发现过程直接相关的一组指标。特别是我们提出了一个娱乐指标，将药物目标亲和力预测和分子对接应用作为评估生成产量的互补技术。虽然所有三个指标均在测试的生成模型中均表现出一致的结果，但对药物目标亲和力结合和分子对接分数进行了更详细的比较，表明单峰预测器可能会导致关于目标结合在分子水平和多模式方法的错误结论，而多模式的方法是错误的结论。因此优选。该框架的关键优点是，它通过明确关注配体 - 靶标相互作用，将先前的物理化学域知识纳入基准测试过程，从而创建了一种高效的工具，不仅用于评估分子生成型输出，而且还用于丰富富含分子生成的输出。一般而言，药物发现过程。

translated by 谷歌翻译

Computer Vision on X-ray Data in Industrial Production and Security Applications: A survey

Mehdi Rafiei , Jenni Raitoharju , Alexandros Iosifidis

分类：计算机视觉

2022-11-10

X-ray imaging technology has been used for decades in clinical tasks to reveal the internal condition of different organs, and in recent years, it has become more common in other areas such as industry, security, and geography. The recent development of computer vision and machine learning techniques has also made it easier to automatically process X-ray images and several machine learning-based object (anomaly) detection, classification, and segmentation methods have been recently employed in X-ray image analysis. Due to the high potential of deep learning in related image processing applications, it has been used in most of the studies. This survey reviews the recent research on using computer vision and machine learning for X-ray analysis in industrial production and security applications and covers the applications, techniques, evaluation metrics, datasets, and performance comparison of those techniques on publicly available datasets. We also highlight some drawbacks in the published research and give recommendations for future research in computer vision-based X-ray analysis.

translated by 谷歌翻译

Cross-Domain Evaluation of a Deep Learning-Based Type Inference System

Bernd Gruner , Tim Sonnekalb , Thomas S. Heinze , Clemens-Alexander Brust

分类：机器学习

2022-08-19

可选类型的注释允许通过静态打字功能来丰富动态编程语言，例如更好的集成开发环境（IDE）支持，更精确的程序分析以及与类型相关的运行时错误的早期检测和预防。基于机器学习的类型推理有望自动执行此任务的有趣结果。但是，此类系统的实际用法取决于它们在跨不同领域概括的能力，因为它们通常在训练领域之外应用。在这项工作中，我们通过进行广泛的跨域实验来研究Type4py作为最先进的基于深度学习类型推理系统的代表性的概括能力。因此，我们解决了以下问题：数据集偏移，播音外词，未知类别和稀有类。为了执行此类实验，我们使用数据集nytypes4py和crossdomaintypes4py。我们在本文中介绍的后者。我们的数据集具有超过1,000,000个类型的注释，并可以使用来自两个域Web开发和科学计算的数据的数据的不同域中的类型推理系统进行跨域评估。通过我们的实验，我们检测到数据集中的变化，并具有长尾巴分布，并具有许多稀有和未知的数据类型，从而大大降低了基于深度学习的推理系统的性能。在这种情况下，我们测试了无监督的域适应方法和微调以克服问题。此外，我们研究了量量表的单词的影响。

translated by 谷歌翻译

Black-box Safety Analysis and Retraining of DNNs based on Feature Extraction and Clustering

Mohammed Oualid Attaoui , Hazem Fahmy , Fabrizio Pastore , Lionel Briand

分类：机器学习

2022-01-13

Deep neural networks (DNNs) have demonstrated superior performance over classical machine learning to support many features in safety-critical systems. Although DNNs are now widely used in such systems (e.g., self driving cars), there is limited progress regarding automated support for functional safety analysis in DNN-based systems. For example, the identification of root causes of errors, to enable both risk analysis and DNN retraining, remains an open problem. In this paper, we propose SAFE, a black-box approach to automatically characterize the root causes of DNN errors. SAFE relies on a transfer learning model pre-trained on ImageNet to extract the features from error-inducing images. It then applies a density-based clustering algorithm to detect arbitrary shaped clusters of images modeling plausible causes of error. Last, clusters are used to effectively retrain and improve the DNN. The black-box nature of SAFE is motivated by our objective not to require changes or even access to the DNN internals to facilitate adoption.Experimental results show the superior ability of SAFE in identifying different root causes of DNN errors based on case studies in the automotive domain. It also yields significant improvements in DNN accuracy after retraining, while saving significant execution time and memory when compared to alternatives. CCS Concepts: • Software and its engineering → Software defect analysis; • Computing methodologies → Machine learning.

translated by 谷歌翻译

Advances of Artificial Intelligence in Classical and Novel Spectroscopy-Based Approaches for Cancer Diagnostics. A Review

Marina Zajnulina

分类： (统计)机器学习

2022-08-08

癌症是全球死亡的主要原因之一。快速安全的早期，术中和术中诊断可以显着有助于成功的癌症识别和治疗。在过去的15年中，人工智能在增强癌症诊断技术方面发挥了越来越多的作用。这篇评论涵盖了在MRI和CT等良好技术中人工智能应用的进步。此外，它显示出高潜力以及基于光谱的方法，这些方法正在开发用于移动，超快速和低侵入性诊断的方法。我将展示基于光谱的方法如何通过使薄薄或甲莫妥蛋白和欧洲蛋白染色过时来减少组织制备进行病理分析的时间。我将介绍用于快速和低侵入性前和体内组织分类的光谱工具的例子，以确定肿瘤及其边界。另外，我将讨论与MRI和CT相反，光谱测量不需要化学剂来提高癌症成像的质量，这有助于开发更安全的诊断方法。总体而言，我们将看到，光谱和人工智能的结合构成了一个非常有前途且快速发展的医疗技术领域，它将很快增加可用的癌症诊断方法。

translated by 谷歌翻译

Outlier Detection as Instance Selection Method for Feature Selection in Time Series Classification

David Cemernek

分类：机器学习

2021-11-16

为了允许机器学习算法从原始数据中提取知识，必须首先清除，转换，并将这些数据置于适当的形式。这些通常很耗时的阶段被称为预处理。预处理阶段的一个重要步骤是特征选择，其目的通过减少数据集的特征量来更好地执行预测模型。在这些数据集中，不同事件的实例通常是不平衡的，这意味着某些正常事件被超出，而其他罕见事件非常有限。通常，这些罕见的事件具有特殊的兴趣，因为它们具有比正常事件更具辨别力。这项工作的目的是过滤提供给这些罕见实例的特征选择方法的实例，从而积极影响特征选择过程。在这项工作过程中，我们能够表明这种过滤对分类模型的性能以及异常值检测方法适用于该过滤。对于某些数据集，所产生的性能增加仅为百分点，但对于其他数据集，我们能够实现高达16％的性能的增加。这项工作应导致预测模型的改进以及在预处理阶段的过程中的特征选择更好的可解释性。本着公开科学的精神，提高了我们的研究领域的透明度，我们已经在公开的存储库中提供了我们的所有源代码和我们的实验结果。

translated by 谷歌翻译

Transferring Chemical and Energetic Knowledge Between Molecular Systems with Machine Learning

Sajjad Heydari , Stefano Raniolo , Lorenzo Livi , Vittorio Limongelli

分类：机器学习

2022-05-06

预测分子系统的结构和能量特性是分子模拟的基本任务之一，并且具有化学，生物学和医学的用例。在过去的十年中，机器学习算法的出现影响了各种任务的分子模拟，包括原子系统的财产预测。在本文中，我们提出了一种新的方法，用于将从简单分子系统获得的知识转移到更复杂的知识中，并具有明显的原子和自由度。特别是，我们专注于高自由能状态的分类。我们的方法依赖于（i）分子的新型超图表，编码所有相关信息来表征构象的势能，以及（ii）新的消息传递和汇总层来处理和对此类超图结构数据进行预测。尽管问题的复杂性，但我们的结果表明，从三丙氨酸转移到DECA-丙氨酸系统的转移学习中，AUC的AUC为0.92。此外，我们表明，相同的转移学习方法可以用无监督的方式分组，在具有相似的自由能值的簇中，deca-丙氨酸的各种二级结构。我们的研究代表了一个概念证明，即可以设计用于分子系统的可靠传输学习模型，为预测生物学相关系统的结构和能量性能的未开发途径铺平道路。

translated by 谷歌翻译

Predicting pathways for old and new metabolites through clustering

Thiru Siddharth , Nathan Lewis

分类：机器学习

2022-11-28

The diverse metabolic pathways are fundamental to all living organisms, as they harvest energy, synthesize biomass components, produce molecules to interact with the microenvironment, and neutralize toxins. While discovery of new metabolites and pathways continues, the prediction of pathways for new metabolites can be challenging. It can take vast amounts of time to elucidate pathways for new metabolites; thus, according to HMDB only 60% of metabolites get assigned to pathways. Here, we present an approach to identify pathways based on metabolite structure. We extracted 201 features from SMILES annotations, and identified new metabolites from PubMed abstracts and HMDB. After applying clustering algorithms to both groups of features, we quantified correlations between metabolites, and found the clusters accurately linked 92% of known metabolites to their respective pathways. Thus, this approach could be valuable for predicting metabolic pathways for new metabolites.

translated by 谷歌翻译

Guided interactive image segmentation using machine learning and color based data set clustering

Adrian Friebel , Tim Johann , Dirk Drasdo , Stefan Hoehme

分类：计算机视觉

2020-05-15

我们提出了一种新颖的方法，该方法将基于机器学习的交互式图像分割结合在一起，使用Supersoxels与聚类方法结合了用于自动识别大型数据集中类似颜色的图像的聚类方法，从而使分类器的指导重复使用。我们的方法解决了普遍的颜色可变性的问题，并且在生物学和医学图像中通常不可避免，这通常会导致分割恶化和量化精度，从而大大降低了必要的训练工作。效率的这种提高促进了大量图像的量化，从而为高通量成像中的最新技术进步提供了交互式图像分析。所呈现的方法几乎适用于任何图像类型，并代表通常用于图像分析任务的有用工具。

translated by 谷歌翻译

Semi-supervised machine learning model for analysis of nanowire morphologies from transmission electron microscopy images

Shizhao Lu , Brian Montz , Todd Emrick , Arthi Jayaraman

分类：计算机视觉 | 机器学习

2022-03-25

在材料科学领域，显微镜是结构表征的第一个且通常仅可访问的方法。对可以自动化显微镜图像的分析和解释的机器学习方法的开发越来越感兴趣。通常，对机器学习模型进行培训需要大量具有相关结构标签的图像，但是，手动标记图像需要域知识，并且容易受到人为错误和主观性的影响。为了克服这些局限性，我们提出了一种半监督的转移学习方法，该方法使用少数标记的显微镜图像进行训练，并像在明显更大的图像数据集中训练的方法一样有效地执行。具体而言，我们使用自我监督的学习方法训练图像编码器，并使用编码器来传输不同下游图像任务（分类和细分），并使用最少数量的标记图像进行培训来传输该编码器。我们测试了两种自我监督学习方法的转移学习能力：传输电子显微镜（TEM）图像的SIMCLR和Barlow-Twins。我们详细说明了该机器学习工作流程如何应用于蛋白质纳米线的TEM图像如何实现纳米线形态的自动分类（例如，单纳米线，纳米线，纳米线捆绑包，相位分离）以及可以用作量化纳米域域的基础的分段任务和形状分析。我们还将机器学习工作流程的应用扩展到纳米颗粒形态的分类以及从TEM图像中鉴定不同类型病毒的分类。

translated by 谷歌翻译

Clustering -- Basic concepts and methods

Jan-Oliver Felix Kapp-Joswig , Bettina G. Keller

分类：机器学习

2022-12-01

We review clustering as an analysis tool and the underlying concepts from an introductory perspective. What is clustering and how can clusterings be realised programmatically? How can data be represented and prepared for a clustering task? And how can clustering results be validated? Connectivity-based versus prototype-based approaches are reflected in the context of several popular methods: single-linkage, spectral embedding, k-means, and Gaussian mixtures are discussed as well as the density-based protocols (H)DBSCAN, Jarvis-Patrick, CommonNN, and density-peaks.

translated by 谷歌翻译

Fruit Ripeness Classification: a Survey

Matteo Rizzo , Matteo Marcuzzo , Alessandro Zangari , Andrea Gasparetto , Andrea Albarelli

分类：计算机视觉 | 机器学习

2022-12-29

Fruit is a key crop in worldwide agriculture feeding millions of people. The standard supply chain of fruit products involves quality checks to guarantee freshness, taste, and, most of all, safety. An important factor that determines fruit quality is its stage of ripening. This is usually manually classified by experts in the field, which makes it a labor-intensive and error-prone process. Thus, there is an arising need for automation in the process of fruit ripeness classification. Many automatic methods have been proposed that employ a variety of feature descriptors for the food item to be graded. Machine learning and deep learning techniques dominate the top-performing methods. Furthermore, deep learning can operate on raw data and thus relieve the users from having to compute complex engineered features, which are often crop-specific. In this survey, we review the latest methods proposed in the literature to automatize fruit ripeness classification, highlighting the most common feature descriptors they operate on.

translated by 谷歌翻译

Unsupervised Doppler Radar-Based Activity Recognition for e-Healthcare

Yordanka Karayaneva , Sara Sharifzadeh , Wenda Li , Yanguo Jing , Bo Tan

分类：机器学习

2021-03-18

被动射频（RF）感测和对老年护理房屋的人类日常活动监测是一个新兴的话题。微多普勒雷达是一种吸引人的解决方案，考虑到它们的非侵入性，深渗透和高距离范围。尽管在真实情景中未标记或较差的活动的情况下，但是使用多普勒雷达数据的无监督活动识别尚未得到注意。本研究提出了使用多普勒流的人类活动监测的两个无监督特征提取方法。这些包括基于局部离散余弦变换（DCT）的特征提取方法和基于局部熵的特征提取方法。此外，对于多普勒雷达数据，首次采用了卷积变分性自动化器（CVAE）特征提取的新应用。将三种特征提取架构与先前使用的卷积AutoEncoder（CAE）和基于主成分分析（PCA）和2DPCA的线性特征提取进行比较。使用K-Means和K-METOIDS进行无监督的聚类。结果表明，与CAE，PCA和2DPCA相比，基于DCT的方法，基于熵的方法和CVAE特征的优越性，具有超过5 \％-20 \％的平均精度。关于计算时间，两个提出的方法明显比现有的CVAE快得多。此外，对于高维数据可视化，考虑了三种歧管学习技术。比较方法，以对原始数据的投影以及编码的CVAE特征进行比较。当应用于编码的CVAE特征时，所有三种方法都显示出改善的可视化能力。

translated by 谷歌翻译

Music Boundary Detection using Convolutional Neural Networks: A comparative analysis of combined input features

Carlos Hernandez-Olivan , Jose R. Beltran , David Diaz-Guerra

分类：机器学习

2020-08-17

音乐作品结构的分析是一项任务，对人工智能仍然是一个挑战，特别是在深度学习领域。它需要先前识别音乐件的结构范围。最近通过无监督的方法和\ Texit {端到端}技术研究了这种结构边界分析，例如使用熔融缩放的对数级阶段特征（MLS），自相似性矩阵（SSM）等卷积神经网络（CNN）或自我相似性滞后矩阵（SSLM）作为输入和用人的注释培训。已发布几项研究分为无监督和\ yexit {端到端}方法，其中使用不同的距离度量和音频特性以不同方式进行预处理，因此通过计算模型输入的广义预处理方法是丢失的。这项工作的目的是通过比较来自不同池策略，距离度量和音频特性的输入来建立预处理这些输入的一般方法，也考虑到计算时间来获得它们。我们还建立了要交付给CNN的最有效的投入结合，以便建立最有效的方法来提取音乐件结构的限制。通过对输入矩阵和池策略的充分组合，我们获得了0.411的测量精度$ 0.411优于在相同条件下获得的目前。

translated by 谷歌翻译

Data-Efficient Classification of Radio Galaxies

Ashwin Samudre , Lijo George , Mahak Bansal , Yogesh Wadadekar

分类：机器学习

2020-11-26

无线电星系的连续排放通常可以分为不同的形态学类，如FRI，Frii，弯曲或紧凑。在本文中，我们根据使用深度学习方法使用小规模数据集的深度学习方法来探讨基于形态的无线电星系分类的任务（$ \ SIM 2000 $ Samples）。我们基于双网络应用了几次射击学习技术，并使用预先培训的DENSENET模型进行了先进技术的传输学习技术，如循环学习率和歧视性学习迅速训练模型。我们使用最佳表演模型实现了超过92 \％的分类准确性，其中最大的混乱来源是弯曲和周五型星系。我们的结果表明，专注于一个小但策划数据集随着使用最佳实践来训练神经网络可能会导致良好的结果。自动分类技术对于即将到来的下一代无线电望远镜的调查至关重要，这预计将在不久的将来检测数十万个新的无线电星系。

translated by 谷歌翻译

Intra-domain and cross-domain transfer learning for time series data -- How transferable are the features?

Erik Otović , Marko Njirjak , Dario Jozinović , Goran Mauša , Alberto Michelini , Ivan Štajduhar

分类：机器学习

2022-01-12

在实践中，非常苛刻，有时无法收集足够大的标记数据数据集以成功培训机器学习模型，并且对此问题的一个可能解决方案是转移学习。本研究旨在评估如何可转让的时间序列数据和哪些条件下的不同域之间的特征。在训练期间，在模型的预测性能和收敛速度方面观察到转移学习的影响。在我们的实验中，我们使用1,500和9,000个数据实例的减少数据集来模仿现实世界的条件。使用相同的缩小数据集，我们培训了两组机器学习模型：那些随着转移学习的培训和从头开始培训的机器学习模型。使用四台机器学习模型进行实验。在相同的应用领域（地震学）以及相互不同的应用领域（地震，语音，医学，金融）之间进行知识转移。我们在训练期间遵守模型的预测性能和收敛速度。为了确认所获得的结果的有效性，我们重复了实验七次并应用了统计测试以确认结果的重要性。我们研究的一般性结论是转移学习可能会增加或不会对模型的预测性能或其收敛速度产生负面影响。在更多细节中分析收集的数据，以确定哪些源域和目标域兼容以用于传输知识。我们还分析了目标数据集大小的效果和模型的选择及其超参数对转移学习的影响。

translated by 谷歌翻译