由影响它们折叠并因此决定其功能和特征的氨基酸链组成,蛋白质是一类大分子,它们在主要生物过程中起着核心作用,并且是人体组织的结构,功能和调节所必需的。了解蛋白质功能对于治疗和精确医学的发展至关重要,因此可以根据可测量特征对蛋白质进行分类及其功能至关重要。实际上,从其主要结构(称为其主要结构)中对蛋白质特性的自动推断仍然是生物信息学领域中的一个重要开放问题,尤其是考虑到测序技术的最新进展和广泛的已知但未分类的蛋白质具有未知属性。在这项工作中,我们演示和比较了几个深度学习框架的性能,包括新型双向LSTM和卷积模型,这些卷积模型在蛋白质数据库(PDB)的广泛可用的测序数据合作中,结构生物信息信息技术(RCSB),RCSB),RCSB(RCSB),RCSB(RCSB)的研究合作。除了对经典的机器学习方法进行基准测试,包括K-Nearest邻居和多项式回归分类器,对实验数据进行了培训。我们的结果表明,我们的深度学习模型为经典的机器学习方法提供了卓越的性能,卷积体系结构提供了最令人印象深刻的推理性能。
translated by 谷歌翻译
这是一门专门针对STEM学生开发的介绍性机器学习课程。我们的目标是为有兴趣的读者提供基础知识,以在自己的项目中使用机器学习,并将自己熟悉术语作为进一步阅读相关文献的基础。在这些讲义中,我们讨论受监督,无监督和强化学习。注释从没有神经网络的机器学习方法的说明开始,例如原理分析,T-SNE,聚类以及线性回归和线性分类器。我们继续介绍基本和先进的神经网络结构,例如密集的进料和常规神经网络,经常性的神经网络,受限的玻尔兹曼机器,(变性)自动编码器,生成的对抗性网络。讨论了潜在空间表示的解释性问题,并使用梦和对抗性攻击的例子。最后一部分致力于加强学习,我们在其中介绍了价值功能和政策学习的基本概念。
translated by 谷歌翻译
SARS-COV-2是一种上呼吸系统的RNA病毒,截至2021年5月,在全球范围内引起超过300万人死亡,截至5月201日。迄今为止,SARS-COV-2突变对科学家造成重大挑战跟上疫苗开发和公共卫生措施的步伐。因此,鉴定来自患者的实验室样本分歧的有效方法非常有助于SARS-COV-2基因组学的文件。在这项研究中,我们提出了一种神经网络模型,可利用复发性和卷积单元直接参与尖峰蛋白的氨基酸序列并分类相应的片状。我们还将我们的模型的性能与来自蛋白质数据库预先培训的变压器(BERT)的双向编码器表示。我们的方法具有基于基于物种内分化的当前同源性提供了更加计算上的替代方案。
translated by 谷歌翻译
流感病毒迅速变异,可能对公共卫生构成威胁,尤其是对弱势群体的人。在整个历史中,流感A病毒在不同物种之间引起了大流行病。重要的是要识别病毒的起源,以防止爆发的传播。最近,人们对使用机器学习算法来为病毒序列提供快速准确的预测一直引起人们的兴趣。在这项研究中,使用真实的测试数据集和各种评估指标用于评估不同分类学水平的机器学习算法。由于血凝素是免疫反应中的主要蛋白质,因此仅使用血凝素序列并由位置特异性评分基质和单词嵌入来表示。结果表明,5-grams-transformer神经网络是预测病毒序列起源的最有效算法,大约99.54%的AUCPR,98.01%的F1分数和96.60%的MCC,在较高的分类水平上,约94.74%AUCPR,87.41%,87.41%,87.41% %F1分数%和80.79%的MCC在较低的分类水平下。
translated by 谷歌翻译
Time Series Classification (TSC) is an important and challenging problem in data mining. With the increase of time series data availability, hundreds of TSC algorithms have been proposed. Among these methods, only a few have considered Deep Neural Networks (DNNs) to perform this task. This is surprising as deep learning has seen very successful applications in the last years. DNNs have indeed revolutionized the field of computer vision especially with the advent of novel deeper architectures such as Residual and Convolutional Neural Networks. Apart from images, sequential data such as text and audio can also be processed with DNNs to reach state-of-the-art performance for document classification and speech recognition. In this article, we study the current state-ofthe-art performance of deep learning algorithms for TSC by presenting an empirical study of the most recent DNN architectures for TSC. We give an overview of the most successful deep learning applications in various time series domains under a unified taxonomy of DNNs for TSC. We also provide an open source deep learning framework to the TSC community where we implemented each of the compared approaches and evaluated them on a univariate TSC benchmark (the UCR/UEA archive) and 12 multivariate time series datasets. By training 8,730 deep learning models on 97 time series datasets, we propose the most exhaustive study of DNNs for TSC to date.
translated by 谷歌翻译
法律判决预测是NLP,AI和法律联合领域最受欢迎的领域之一。通过法律预测,我们是指能够预测特定司法特征的智能系统,例如司法结果,司法阶级,可以预测特定案例。在这项研究中,我们使用AI分类器来预测巴西法律体系中的司法结果。为此,我们开发了一个文本爬网,以从巴西官方电子法律系统中提取数据。这些文本构成了二级谋杀和主动腐败案件的数据集。我们应用了不同的分类器,例如支持向量机和神经网络,通过分析数据集中的文本功能来预测司法结果。我们的研究表明,回归树,封闭的重复单元和分层注意力网络给出了不同子集的较高指标。作为最终目标,我们探讨了一种算法的权重,即分层注意力网络,以找到用于免除或定罪被告的最重要词的样本。
translated by 谷歌翻译
Covid-19大流行,仍然是未知的,是一个重要的开放问题。有猜测蝙蝠是可能的起源。同样地,有许多密切相关的(电晕)病毒,例如SARS,发现通过练习圈传递。对潜在的载体和致命病毒发射器的不同主体的研究对于了解,减轻和预防当前和未来的流行性至关重要。在冠状病毒中,表面(S)蛋白或尖峰蛋白是确定宿主特异性的重要组成部分,因为它是病毒与宿主细胞膜之间的接触点。在本文中,我们将超过五千个冠状病毒的刺激蛋白序列分类,将它们分离成艾滋病,蝙蝠,骆驼,猪,人类和奶酪中明显宿主的集群,以命名几个。我们提出了一种基于众所周知的位置重量矩阵(PWM)的特征嵌入,我们呼叫PWM2VEC,并用于从这些冠状虫病毒的尖峰蛋白序列产生特征向量。虽然我们的嵌入受到PWMS在生物应用中的成功,例如确定蛋白质功能,或识别转录因子结合位点,但我们是在来自病毒序列的宿主分类的上下文中使用PWM的第一个(我们的知识)生成固定长度的特征矢量表示。现实世界数据的结果显示,与使用PWM2VEC,与基线模型相比,我们能够相当良好地执行。我们还使用信息增益来测量不同氨基酸的重要性,以显示对预测给定冠状病毒的宿主来说重要的氨基酸。
translated by 谷歌翻译
在DNA序列中定位启动子区域对于生物信息学领域至关重要。这是文学中广泛研究的问题,但尚未完全解决。一些研究人员使用卷积网络提出了显着的结果,允许自动提取来自DNA链的特征。然而,尚未实现可能概括为若干生物的普遍架构,从而要求研究人员寻求新的架构和对每个新的生物体的近似数目。在这项工作中,我们提出了一种基于胶囊网络的多功能架构,可以精确地识别来自七种不同生物,真核和原核的原始DNA数据中的启动子序列。我们的模型是Capsprom,可以帮助在生物之间的学习转移并扩大其适用性。此外,CAPSPROM显示出具有竞争力的结果,克服了七个测试数据集中的五分之一的基线方法(F1分数)。模型和源代码在https://github.com/lauromoraes/capsnet-promoter提供。
translated by 谷歌翻译
In recent years, deep learning has infiltrated every field it has touched, reducing the need for specialist knowledge and automating the process of knowledge discovery from data. This review argues that astronomy is no different, and that we are currently in the midst of a deep learning revolution that is transforming the way we do astronomy. We trace the history of astronomical connectionism from the early days of multilayer perceptrons, through the second wave of convolutional and recurrent neural networks, to the current third wave of self-supervised and unsupervised deep learning. We then predict that we will soon enter a fourth wave of astronomical connectionism, in which finetuned versions of an all-encompassing 'foundation' model will replace expertly crafted deep learning models. We argue that such a model can only be brought about through a symbiotic relationship between astronomy and connectionism, whereby astronomy provides high quality multimodal data to train the foundation model, and in turn the foundation model is used to advance astronomical research.
translated by 谷歌翻译
卷积神经网络(CNN)是理解庞大图像数据集的好解决方案。随着配备电池电动汽车的数量增加在全球范围内蓬勃发展,已经进行了很多研究,了解了哪种电荷电力汽车驾驶员会选择为车辆充电以无需任何预防就能到达目的地。我们实施了深度学习方法来分析表格数据集,以了解其充电状态以及他们会选择哪些充电水平。此外,我们还为表格数据集算法实施了图像生成器,以利用表格数据集作为图像数据集来训练卷积神经网络。此外,我们集成了其他CNN体系结构,例如ExcilityNet,以证明CNN是从表格数据集中转换的图像中读取信息的出色学习者,并能够预测配备电池配备电池电动汽车的充电水平。我们还评估了几种优化方法,以提高模型的学习率,并检查了改进模型体系结构的进一步分析。
translated by 谷歌翻译
手写数字识别(HDR)是光学特征识别(OCR)领域中最具挑战性的任务之一。不管语言如何,HDR都存在一些固有的挑战,这主要是由于个人跨个人的写作风格的变化,编写媒介和环境的变化,无法在反复编写任何数字等时保持相同的笔触。除此之外,特定语言数字的结构复杂性可能会导致HDR的模棱两可。多年来,研究人员开发了许多离线和在线HDR管道,其中不同的图像处理技术与传统的机器学习(ML)基于基于的和/或基于深度学习(DL)的体系结构相结合。尽管文献中存在有关HDR的广泛审查研究的证据,例如:英语,阿拉伯语,印度,法尔西,中文等,但几乎没有对孟加拉人HDR(BHDR)的调查,这缺乏对孟加拉语HDR(BHDR)的研究,而这些调查缺乏对孟加拉语HDR(BHDR)的研究。挑战,基础识别过程以及可能的未来方向。在本文中,已经分析了孟加拉语手写数字的特征和固有的歧义,以及二十年来最先进的数据集的全面见解和离线BHDR的方法。此外,还详细讨论了一些涉及BHDR的现实应用特定研究。本文还将作为对离线BHDR背后科学感兴趣的研究人员的汇编,煽动了对相关研究的新途径的探索,这可能会进一步导致在不同应用领域对孟加拉语手写数字进行更好的离线认识。
translated by 谷歌翻译
在三维分子结构上运行的计算方法有可能解决生物学和化学的重要问题。特别地,深度神经网络的重视,但它们在生物分子结构域中的广泛采用受到缺乏系统性能基准或统一工具包的限制,用于与分子数据相互作用。为了解决这个问题,我们呈现Atom3D,这是一个新颖的和现有的基准数据集的集合,跨越几个密钥的生物分子。我们为这些任务中的每一个实施多种三维分子学习方法,并表明它们始终如一地提高了基于单维和二维表示的方法的性能。结构的具体选择对于性能至关重要,具有涉及复杂几何形状的任务的三维卷积网络,在需要详细位置信息的系统中表现出良好的图形网络,以及最近开发的设备越多的网络显示出显着承诺。我们的结果表明,许多分子问题符合三维分子学习的增益,并且有可能改善许多仍然过分曝光的任务。为了降低进入并促进现场进一步发展的障碍,我们还提供了一套全面的DataSet处理,模型培训和在我们的开源ATOM3D Python包中的评估工具套件。所有数据集都可以从https://www.atom3d.ai下载。
translated by 谷歌翻译
近年来,随着传感器和智能设备的广泛传播,物联网(IoT)系统的数据生成速度已大大增加。在物联网系统中,必须经常处理,转换和分析大量数据,以实现各种物联网服务和功能。机器学习(ML)方法已显示出其物联网数据分析的能力。但是,将ML模型应用于物联网数据分析任务仍然面临许多困难和挑战,特别是有效的模型选择,设计/调整和更新,这给经验丰富的数据科学家带来了巨大的需求。此外,物联网数据的动态性质可能引入概念漂移问题,从而导致模型性能降解。为了减少人类的努力,自动化机器学习(AUTOML)已成为一个流行的领域,旨在自动选择,构建,调整和更新机器学习模型,以在指定任务上实现最佳性能。在本文中,我们对Automl区域中模型选择,调整和更新过程中的现有方法进行了审查,以识别和总结将ML算法应用于IoT数据分析的每个步骤的最佳解决方案。为了证明我们的发现并帮助工业用户和研究人员更好地实施汽车方法,在这项工作中提出了将汽车应用于IoT异常检测问题的案例研究。最后,我们讨论并分类了该领域的挑战和研究方向。
translated by 谷歌翻译
来自世界卫生组织的现行指南表明,萨尔科夫-2冠状病毒导致新型冠状病毒疾病(Covid-19),通过呼吸液滴或通过接触传输。当受污染的双手触摸嘴巴,鼻子或眼睛的粘膜时,会发生接触传输。此外,病原体也可以通过受污染的手从一个表面转移到另一个表面,这便于通过间接接触传输。因此,手卫生极为重要,无法防止萨尔库夫-2病毒的传播。此外,手工洗涤和/或手摩擦也破坏了其他病毒和细菌的传播,引起常见的感冒,流感和肺炎,从而降低了整体疾病负担。可穿戴设备(如Smartwatches)的巨大扩散,包括加速,旋转,磁场传感器等,以及人工智能的现代技术,如机器学习和最近深度学习,允许开发准确的应用人类活动的认可和分类,如:步行,攀爬楼梯,跑步,拍手,坐着,睡觉等。在这项工作中,我们评估了基于当前智能手​​表的自动系统的可行性,该智能手表能够识别何时受试者洗涤或摩擦它的手,以监测频率和持续时间的参数,并评估手势的有效性。我们的初步结果显示了分别为深度和标准学习技术的约95%和约94%的分类准确性。
translated by 谷歌翻译
Graph classification is an important area in both modern research and industry. Multiple applications, especially in chemistry and novel drug discovery, encourage rapid development of machine learning models in this area. To keep up with the pace of new research, proper experimental design, fair evaluation, and independent benchmarks are essential. Design of strong baselines is an indispensable element of such works. In this thesis, we explore multiple approaches to graph classification. We focus on Graph Neural Networks (GNNs), which emerged as a de facto standard deep learning technique for graph representation learning. Classical approaches, such as graph descriptors and molecular fingerprints, are also addressed. We design fair evaluation experimental protocol and choose proper datasets collection. This allows us to perform numerous experiments and rigorously analyze modern approaches. We arrive to many conclusions, which shed new light on performance and quality of novel algorithms. We investigate application of Jumping Knowledge GNN architecture to graph classification, which proves to be an efficient tool for improving base graph neural network architectures. Multiple improvements to baseline models are also proposed and experimentally verified, which constitutes an important contribution to the field of fair model comparison.
translated by 谷歌翻译
近年来,机器学习(ML),深度学习(DL)和人工智能(AI)的普及已急剧上升。尽管受欢迎程度激增,但ML和DL算法的内部运作被认为是不透明的,并且它们与经典数据分析工具的关系仍然存在争议。通常认为ML和DL主要在做出预测方面出色。但是,最近,它们越来越多地用于传统上统计模型涵盖的经典分析任务。此外,最近对ML的评论专门针对DL,缺少综合具有不同优势和一般原则的ML算法财富。在这里,我们提供了ML和DL领域的全面概述,从其历史发展,现有算法家庭,与传统统计工具的差异以及通用ML原则的差异。然后,我们讨论为什么以及何时ML和DL模型在预测任务上表现出色,以及它们可以为推理提供传统统计方法的替代方法,从而突出了当前和新兴的生态问题应用程序。最后,我们总结了新兴趋势,例如科学和因果ML,可解释的AI以及负责的AI,这些AI可能会在未来显着影响生态数据分析。
translated by 谷歌翻译
氨基酸的分类及其序列分析在生命科学中起着至关重要的作用,并且是一项艰巨的任务。本文使用并比较了最新的深度学习模型,例如卷积神经网络(CNN),长期记忆(LSTM)和门控复发单元(GRU),以解决使用氨基酸的大分子分类问题。与传统的机器学习技术相比,这些模型具有有效的框架来解决广泛的复杂学习问题。我们使用嵌入单词来表示氨基酸序列作为向量。CNN从氨基酸序列中提取特征,这些特征被视为向量,然后喂入上面提到的模型以训练健壮的分类器。我们的结果表明,嵌入与VGG-16相结合的Word2Vec的性能比LSTM和GRU更好。提出的方法的错误率为1.5%。
translated by 谷歌翻译
Future surveys such as the Legacy Survey of Space and Time (LSST) of the Vera C. Rubin Observatory will observe an order of magnitude more astrophysical transient events than any previous survey before. With this deluge of photometric data, it will be impossible for all such events to be classified by humans alone. Recent efforts have sought to leverage machine learning methods to tackle the challenge of astronomical transient classification, with ever improving success. Transformers are a recently developed deep learning architecture, first proposed for natural language processing, that have shown a great deal of recent success. In this work we develop a new transformer architecture, which uses multi-head self attention at its core, for general multi-variate time-series data. Furthermore, the proposed time-series transformer architecture supports the inclusion of an arbitrary number of additional features, while also offering interpretability. We apply the time-series transformer to the task of photometric classification, minimising the reliance of expert domain knowledge for feature selection, while achieving results comparable to state-of-the-art photometric classification methods. We achieve a logarithmic-loss of 0.507 on imbalanced data in a representative setting using data from the Photometric LSST Astronomical Time-Series Classification Challenge (PLAsTiCC). Moreover, we achieve a micro-averaged receiver operating characteristic area under curve of 0.98 and micro-averaged precision-recall area under curve of 0.87.
translated by 谷歌翻译
冠状质量弹出(CME)是最地理化的空间天气现象,与大型地磁风暴有关,有可能引起电信,卫星网络中断,电网损失和故障的干扰。因此,考虑到这些风暴对人类活动的潜在影响,对CME的地理效果的准确预测至关重要。这项工作着重于在接近太阳CME的白光冠状动脉数据集中训练的不同机器学习方法,以估计这种新爆发的弹出是否有可能诱导地磁活动。我们使用逻辑回归,k-nearest邻居,支持向量机,向前的人工神经网络以及整体模型开发了二进制分类模型。目前,我们限制了我们的预测专门使用太阳能发作参数,以确保延长警告时间。我们讨论了这项任务的主要挑战,即我们数据集中的地理填充和无效事件的数量以及它们的众多相似之处以及可用变量数量有限的极端失衡。我们表明,即使在这种情况下,这些模型也可以达到足够的命中率。
translated by 谷歌翻译
通过卫星摄像机获取关于地球表面的大面积的信息使我们能够看到远远超过我们在地面上看到的更多。这有助于我们在检测和监测土地使用模式,大气条件,森林覆盖和许多非上市方面的地区的物理特征。所获得的图像不仅跟踪连续的自然现象,而且对解决严重森林砍伐的全球挑战也至关重要。其中亚马逊盆地每年占最大份额。适当的数据分析将有助于利用可持续健康的氛围来限制对生态系统和生物多样性的不利影响。本报告旨在通过不同的机器学习和优越的深度学习模型用大气和各种陆地覆盖或土地使用亚马逊雨林的卫星图像芯片。评估是基于F2度量完成的,而用于损耗函数,我们都有S形跨熵以及Softmax交叉熵。在使用预先训练的ImageNet架构中仅提取功能之后,图像被间接馈送到机器学习分类器。鉴于深度学习模型,通过传输学习使用微调Imagenet预训练模型的集合。到目前为止,我们的最佳分数与F2度量为0.927。
translated by 谷歌翻译