SARS-COV-2是一种上呼吸系统的RNA病毒,截至2021年5月,在全球范围内引起超过300万人死亡,截至5月201日。迄今为止,SARS-COV-2突变对科学家造成重大挑战跟上疫苗开发和公共卫生措施的步伐。因此,鉴定来自患者的实验室样本分歧的有效方法非常有助于SARS-COV-2基因组学的文件。在这项研究中,我们提出了一种神经网络模型,可利用复发性和卷积单元直接参与尖峰蛋白的氨基酸序列并分类相应的片状。我们还将我们的模型的性能与来自蛋白质数据库预先培训的变压器(BERT)的双向编码器表示。我们的方法具有基于基于物种内分化的当前同源性提供了更加计算上的替代方案。
translated by 谷歌翻译
由影响它们折叠并因此决定其功能和特征的氨基酸链组成,蛋白质是一类大分子,它们在主要生物过程中起着核心作用,并且是人体组织的结构,功能和调节所必需的。了解蛋白质功能对于治疗和精确医学的发展至关重要,因此可以根据可测量特征对蛋白质进行分类及其功能至关重要。实际上,从其主要结构(称为其主要结构)中对蛋白质特性的自动推断仍然是生物信息学领域中的一个重要开放问题,尤其是考虑到测序技术的最新进展和广泛的已知但未分类的蛋白质具有未知属性。在这项工作中,我们演示和比较了几个深度学习框架的性能,包括新型双向LSTM和卷积模型,这些卷积模型在蛋白质数据库(PDB)的广泛可用的测序数据合作中,结构生物信息信息技术(RCSB),RCSB),RCSB(RCSB),RCSB(RCSB)的研究合作。除了对经典的机器学习方法进行基准测试,包括K-Nearest邻居和多项式回归分类器,对实验数据进行了培训。我们的结果表明,我们的深度学习模型为经典的机器学习方法提供了卓越的性能,卷积体系结构提供了最令人印象深刻的推理性能。
translated by 谷歌翻译
严重的急性呼吸综合征冠状病毒2(SARS-COV-2)导致持续的大流行感染了21900万人的10/19/21,死亡率为3.6%。自然选择可以产生有利的突变,具有改善的健身优势;然而,所识别的冠状病毒可能是冰山的尖端,并且可能会随着时间的推移出现潜在的致命变体(VOC)。理解可能导致功能或免疫逃逸的新出现VOC和预测突变的模式是迫切需要的。在这里,我们开发了Phylotransformer,一种基于变压器的辨别模型,其与多头自我关注机制接合以模拟可能导致病毒生殖优势的基因突变。为了识别每个输入序列的元件之间的复杂依赖性,Phylotransformer利用高级建模技术,包括从Performer的正交随机特征方法(Hibl +)以及来自双向编码器表示的屏蔽语言模型(MLM)的新颖快速关注变压器(伯特)。从全球倡议检索的1,765,297次遗传序列培训,从全球范围内检测到所有流感数据(GISAID)数据库。首先,我们使用广泛的基线模型比较了新型突变和新颖组合的预测准确性;我们发现,这种具有统计显着性的每个基线方法都优势了。其次,我们检查了受体结合基序(RBM)的每个核苷酸中的突变预测,我们发现我们的预测是精确和准确的。第三,我们预测了N-糖基化位点的修饰,以鉴定与在病毒进化期间可能有利的改变的糖基化相关的突变。我们预计Phylotransformer可以引导积极的疫苗设计,以有效靶向未来SARS-COV-2变体。
translated by 谷歌翻译
基因组工程正在进行前所未有的发展,现在已广泛可用。为确保负责任的生物技术创新并减少滥用工程DNA序列,为识别工程型质粒的起源实验室来说是至关重要的。基因工程归因(GEA),制定序列实验室协会的能力将支持这一过程中的法医专家。在这里,我们提出了一种基于度量学习的方法,该方法将最可能的原产实验室排名,同时为质粒序列和实验室产生嵌入。这些嵌入物可用于执行各种下游任务,例如聚类DNA序列和实验室,以及在机器学习模型中使用它们作为特征。我们的方法采用了循环转移增强方法,能够在前10个预测中正确地将原产于原产的90亿美元的时间排列 - 优于所有最新的最先进的方法。我们还证明我们可以使用只需10次\%$ 10 \%$ of序列进行几次拍摄学习并获得76±10美元的准确性。这意味着,我们仅使用第十个数据表达先前的CNN方法。我们还证明我们能够在特定实验室中提取质粒序列中的关键签名,允许对模型的产出进行可解释的检查。
translated by 谷歌翻译
Covid-19大流行,仍然是未知的,是一个重要的开放问题。有猜测蝙蝠是可能的起源。同样地,有许多密切相关的(电晕)病毒,例如SARS,发现通过练习圈传递。对潜在的载体和致命病毒发射器的不同主体的研究对于了解,减轻和预防当前和未来的流行性至关重要。在冠状病毒中,表面(S)蛋白或尖峰蛋白是确定宿主特异性的重要组成部分,因为它是病毒与宿主细胞膜之间的接触点。在本文中,我们将超过五千个冠状病毒的刺激蛋白序列分类,将它们分离成艾滋病,蝙蝠,骆驼,猪,人类和奶酪中明显宿主的集群,以命名几个。我们提出了一种基于众所周知的位置重量矩阵(PWM)的特征嵌入,我们呼叫PWM2VEC,并用于从这些冠状虫病毒的尖峰蛋白序列产生特征向量。虽然我们的嵌入受到PWMS在生物应用中的成功,例如确定蛋白质功能,或识别转录因子结合位点,但我们是在来自病毒序列的宿主分类的上下文中使用PWM的第一个(我们的知识)生成固定长度的特征矢量表示。现实世界数据的结果显示,与使用PWM2VEC,与基线模型相比,我们能够相当良好地执行。我们还使用信息增益来测量不同氨基酸的重要性,以显示对预测给定冠状病毒的宿主来说重要的氨基酸。
translated by 谷歌翻译
在这项工作中,我们审查并评估了一个具有公开可用和广泛使用的数据集的深度学习知识追踪(DLKT)模型,以及学习编程的新型学生数据集。评估的DLKT模型已重新实现,用于评估先前报告的结果的可重复性和可复制性。我们测试在与模型的主要架构上独立于模型的比较模型中找到的不同输入和输出层变化,以及在某些研究中隐含地和明确地使用的不同最大尝试计数选项。几个指标用于反映评估知识追踪模型的质量。评估的知识追踪模型包括Vanilla-DKT,两个长短期内存深度知识跟踪(LSTM-DKT)变体,两个动态键值存储器网络(DKVMN)变体,以及自我细致的知识跟踪(SAKT)。我们评估Logistic回归,贝叶斯知识跟踪(BKT)和简单的非学习模型作为基准。我们的结果表明,DLKT模型一般优于非DLKT模型,DLKT模型之间的相对差异是微妙的,并且在数据集之间经常变化。我们的研究结果还表明,通常的纯模型,例如平均预测,比更复杂的知识追踪模型更好地表现出更好的性能,尤其是在准确性方面。此外,我们的公制和封路数据分析显示,用于选择最佳模型的度量标准对模型的性能有明显的影响,并且该度量选择可以影响模型排名。我们还研究了输入和输出层变化的影响,过滤出长期尝试序列,以及随机性和硬件等非模型属性。最后,我们讨论模型性能可重量和相关问题。我们的模型实现,评估代码和数据作为本工作的一部分发布。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
在三维分子结构上运行的计算方法有可能解决生物学和化学的重要问题。特别地,深度神经网络的重视,但它们在生物分子结构域中的广泛采用受到缺乏系统性能基准或统一工具包的限制,用于与分子数据相互作用。为了解决这个问题,我们呈现Atom3D,这是一个新颖的和现有的基准数据集的集合,跨越几个密钥的生物分子。我们为这些任务中的每一个实施多种三维分子学习方法,并表明它们始终如一地提高了基于单维和二维表示的方法的性能。结构的具体选择对于性能至关重要,具有涉及复杂几何形状的任务的三维卷积网络,在需要详细位置信息的系统中表现出良好的图形网络,以及最近开发的设备越多的网络显示出显着承诺。我们的结果表明,许多分子问题符合三维分子学习的增益,并且有可能改善许多仍然过分曝光的任务。为了降低进入并促进现场进一步发展的障碍,我们还提供了一套全面的DataSet处理,模型培训和在我们的开源ATOM3D Python包中的评估工具套件。所有数据集都可以从https://www.atom3d.ai下载。
translated by 谷歌翻译
已经开发出各种机器学习模型,包括深神经网络模型,以预测错义(非同义)突变的有害性。尽管如此,使用更复杂的自适应机器学习方法对生物学问题的新审查可能会受益于当前最新水平的潜在改进。自然语言处理领域的最新进展显示了变压器模型 - 一种深神经网络类型,在与上下文依赖性建模序列信息方面特别有力。在这项研究中,我们介绍了Mutformer,这是一种基于变压器的模型,用于预测有害错义突变。 Mutformer使用人类基因组中的参考和突变蛋白序列作为主要特征。它结合了自我发项层和卷积层的结合,以学习蛋白质序列中氨基酸突变之间的远距离依赖性和短期依赖性。我们在参考蛋白序列和突变蛋白序列上预先训练融合剂,该蛋白质序列是由于人类种群中观察到的常见遗传变异而产生的。接下来,我们检查了不同的微调方法,以成功地将模型应用于错义突变的有害性预测。最后,我们在多个测试数据集上评估了杂货商的性能。我们发现,在各种现有工具中,杂种器表现出相似或改进的性能,包括使用常规机器学习方法的工具(例如,支持向量机,卷积神经网络,经常性神经网络)。我们得出的结论是,杂货商成功考虑了以前研究中未探索的序列特征,并且可能会补充现有的计算预测或经验产生的功能分数,以提高我们对疾病变异的理解。
translated by 谷歌翻译
这是一门专门针对STEM学生开发的介绍性机器学习课程。我们的目标是为有兴趣的读者提供基础知识,以在自己的项目中使用机器学习,并将自己熟悉术语作为进一步阅读相关文献的基础。在这些讲义中,我们讨论受监督,无监督和强化学习。注释从没有神经网络的机器学习方法的说明开始,例如原理分析,T-SNE,聚类以及线性回归和线性分类器。我们继续介绍基本和先进的神经网络结构,例如密集的进料和常规神经网络,经常性的神经网络,受限的玻尔兹曼机器,(变性)自动编码器,生成的对抗性网络。讨论了潜在空间表示的解释性问题,并使用梦和对抗性攻击的例子。最后一部分致力于加强学习,我们在其中介绍了价值功能和政策学习的基本概念。
translated by 谷歌翻译
基于注意力的深网络已成功应用于NLP字段中的文本数据。然而,与普通文本词不同,它们在蛋白质序列上的应用造成额外的挑战。标准关注技术面临的这些未开发的挑战包括(i)消失注意评分问题和(ii)注意分布的高变化。在这方面,我们介绍了一种新颖的{\ Lambda} -Scaled注意技术,用于快速有效地建模蛋白质序列,这些蛋白质序列解决了上述问题。这用于开发{\ lambda} -scaled注意网络,并评估在蛋白质序列水平上实施的蛋白质功能预测的任务。对生物过程的数据集(BP)和分子函数(MF)的实验表明,基于标准注意技术(+ 2.01%),所提出的{\ Lambda} -scaled技术的F1分数值的F1评分值的显着改进(+ 2.01% BP和MF的+ 4.67%)和最先进的Protvecgen-Plus方法(BP的2.61%,MF的2.20%)。此外,在训练过程中,还观察到快速收敛(在时期的一半)和高效学习(在训练和验证损失之间的差异方面)也被观察到。
translated by 谷歌翻译
流感病毒迅速变异,可能对公共卫生构成威胁,尤其是对弱势群体的人。在整个历史中,流感A病毒在不同物种之间引起了大流行病。重要的是要识别病毒的起源,以防止爆发的传播。最近,人们对使用机器学习算法来为病毒序列提供快速准确的预测一直引起人们的兴趣。在这项研究中,使用真实的测试数据集和各种评估指标用于评估不同分类学水平的机器学习算法。由于血凝素是免疫反应中的主要蛋白质,因此仅使用血凝素序列并由位置特异性评分基质和单词嵌入来表示。结果表明,5-grams-transformer神经网络是预测病毒序列起源的最有效算法,大约99.54%的AUCPR,98.01%的F1分数和96.60%的MCC,在较高的分类水平上,约94.74%AUCPR,87.41%,87.41%,87.41% %F1分数%和80.79%的MCC在较低的分类水平下。
translated by 谷歌翻译
Future surveys such as the Legacy Survey of Space and Time (LSST) of the Vera C. Rubin Observatory will observe an order of magnitude more astrophysical transient events than any previous survey before. With this deluge of photometric data, it will be impossible for all such events to be classified by humans alone. Recent efforts have sought to leverage machine learning methods to tackle the challenge of astronomical transient classification, with ever improving success. Transformers are a recently developed deep learning architecture, first proposed for natural language processing, that have shown a great deal of recent success. In this work we develop a new transformer architecture, which uses multi-head self attention at its core, for general multi-variate time-series data. Furthermore, the proposed time-series transformer architecture supports the inclusion of an arbitrary number of additional features, while also offering interpretability. We apply the time-series transformer to the task of photometric classification, minimising the reliance of expert domain knowledge for feature selection, while achieving results comparable to state-of-the-art photometric classification methods. We achieve a logarithmic-loss of 0.507 on imbalanced data in a representative setting using data from the Photometric LSST Astronomical Time-Series Classification Challenge (PLAsTiCC). Moreover, we achieve a micro-averaged receiver operating characteristic area under curve of 0.98 and micro-averaged precision-recall area under curve of 0.87.
translated by 谷歌翻译
In recent years, deep learning has infiltrated every field it has touched, reducing the need for specialist knowledge and automating the process of knowledge discovery from data. This review argues that astronomy is no different, and that we are currently in the midst of a deep learning revolution that is transforming the way we do astronomy. We trace the history of astronomical connectionism from the early days of multilayer perceptrons, through the second wave of convolutional and recurrent neural networks, to the current third wave of self-supervised and unsupervised deep learning. We then predict that we will soon enter a fourth wave of astronomical connectionism, in which finetuned versions of an all-encompassing 'foundation' model will replace expertly crafted deep learning models. We argue that such a model can only be brought about through a symbiotic relationship between astronomy and connectionism, whereby astronomy provides high quality multimodal data to train the foundation model, and in turn the foundation model is used to advance astronomical research.
translated by 谷歌翻译
本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片(Sota)。它填补了空白,因为现有的调查文章在其范围内或被约会。我们包括两个重要方面,目前正在挖掘和建模社交媒体的重要性:动态和网络。社会动态对于了解影响影响或疾病的传播,友谊的形成,友谊的形成等,另一方面,可以捕获各种复杂关系,提供额外的洞察力和识别否则将不会被注意的重要模式。
translated by 谷歌翻译
分子和形态特征是生物分类学的重要部分,是矛盾的,但需要整合。如今,有机体的图像识别和生物信息学正在出现和热门问题,但它们之间存在差距。在这项工作中,由遗传信息介导的一个多分支识别框架桥接了这个障碍,该障碍建立了宏观形态学和蘑菇的微分子信息之间的联系。提出了新型的多角度结构来融合三个分支模型的特征图像,从而显着提高了识别的准确性约10%,高达90%以上。此外,通过使用遗传距离嵌入作为预测图像距离和物种识别的表示空间,将遗传信息实现到蘑菇图像识别任务中。还首次深入讨论了传统分类任务的语义过度拟合和细粒图像识别的粒度。使用零拍学习任务在细粒度的情况下研究了该模型的普遍性,这可以预测看不见样本的分类和进化信息。我们提出了第一种将图像映射到DNA的方法,即使用编码器映射图像来遗传距离,然后通过预先训练的解码器解码DNA,其中37种DNA预测的总检验准确性为87.45%。这项研究通过系统地研究蘑菇图像识别问题,弥合宏观生物学信息和微观分子信息之间的差距,从而创建一个新颖的识别框架,这将为未来的智能生物识别技术提供新的参考。
translated by 谷歌翻译
本文介绍了关于剧透筛选的研究。在这种用例中,我们描述了微调和组织基于文本的模型任务的方法,并具有最新的深度学习成果和技术来解释模型的结果。到目前为止,文献中的剧透研究很少描述。我们在带有带注释的扰流板(ROC AUC以上的TV Tropes Point DataSet上超过81 \%的Roc Auc以上的Roc Auc上超过81 \%)的转移学习方法和不同的最新变压器架构。我们还收集了数据并使用细粒度注释组装了新数据集。为此,我们采用了可解释技术和措施来评估模型的可靠性并解释其结果。
translated by 谷歌翻译
本文通过自然应用程序对网页和元素分类来解决复杂结构数据的高效表示的问题。我们假设网页内部元素周围的上下文对问题的价值很高,目前正在被利用。本文旨在通过考虑到其上下文来解决将Web元素分类为DOM树的子树的问题。为实现这一目标,首先讨论当前在结构上工作的专家知识系统,如树 - LSTM。然后,我们向该模型提出上下文感知扩展。我们表明,在多级Web分类任务中,新模型实现了0.7973的平均F1分数。该模型为各种子树生成更好的表示,并且可以用于应用此类元素分类,钢筋在网上学习中的状态估计等。
translated by 谷歌翻译
病毒感染导致全世界的显着发病率和死亡率。理解特定病毒和人类蛋白质之间的相互作用模式在揭示病毒感染和发病机制的潜在机制方面发挥着至关重要的作用。这可以进一步帮助预防和治疗病毒相关疾病。然而,由于病毒 - 人类相互作用的稀缺数据和大多数病毒的快速突变率,预测新病毒和人体细胞之间的蛋白质 - 蛋白质相互作用的任务是非常挑战性的。我们开发了一种多任务转移学习方法,利用人类互乱组约2400万蛋白序列和相互作用模式的信息来解决小型训练数据集的问题。除了使用手工制作的蛋白质特征,而不是通过深语模型方法从巨大的蛋白质序列来源学习的统计学上丰富的蛋白质表示。此外,我们采用了额外的目的,旨在最大限度地提高观察人蛋白质蛋白质相互作用的可能性。这一附加任务目标充当规律器,还允许纳入域知识来告知病毒 - 人蛋白质 - 蛋白质相互作用预测模型。我们的方法在13个基准数据集中实现了竞争力,以及SAR-COV-2病毒受体的案例研究。实验结果表明,我们所提出的模型有效地用于病毒 - 人和细菌 - 人蛋白质 - 蛋白质 - 蛋白质相互作用预测任务。我们分享我们的重复性和未来研究代码,以便在https://git.l3s.uni-hannover.de/dong/multitastastastastastastastastastask-transfer。
translated by 谷歌翻译
互联网审查制度是社会重要性的现象,并吸引了来自多个学科的调查。几个研究小组,例如审查的星球,已经部署了大规模的互联网测量平台,以收集网络可及性数据。但是,现有的研究通常依赖于手动设计的规则(即使用审查指纹)从数据中检测基于网络的Internet审查。尽管这种基于规则的方法产生了很高的真实积极检测率,但它面临着几个挑战:它需要人类的专业知识,费力,并且无法检测到规则未捕获的任何审查制度。为了克服这些挑战,我们设计和评估了基于潜在特征表示学习和基于图像的分类模型的分类模型,以检测基于网络的Internet审查制度。为了从网络可及性数据中推断潜在特征表示,我们提出了一个序列到序列自动编码器,以捕获数据中数据元素的结构和顺序。为了估算从推断的潜在特征估算审查事件的概率,我们依靠密集连接的多层神经网络模型。我们基于图像的分类模型将网络可及数据记录编码为灰度图像,并将图像分类为审查或不使用密集的卷积神经网络。我们使用持续评估使用审查行星的数据集比较和评估这两种方法。两种分类模型都能够检测基于网络的Internet审查制度,因为我们能够确定已知指纹未检测到的审查实例。潜在功能表示可能编码数据中的更多细微差别,因为潜在特征学习方法发现了新的审查实例的数量和更多样化的集合。
translated by 谷歌翻译