深度学习在涉及数据的每个领域都起着至关重要的作用。它已经成为一个强大而有效的框架,可以应用于广泛的复杂学习问题,这些问题过去很难使用传统的机器学习技术来解决。在这项研究中,我们专注于用深度学习技术的蛋白质序列分类。氨基酸序列的研究在生命科学中至关重要。我们使用自然语言处理中不同单词嵌入技术来表示氨基酸序列作为向量。我们的主要目标是将序列分类为DNA,RNA,蛋白质和杂交的四组类别。经过几次测试,我们达到了近99%的火车和测试准确性。我们已经在CNN,LSTM,双向LSTM和GRU上进行了实验。
translated by 谷歌翻译
氨基酸的分类及其序列分析在生命科学中起着至关重要的作用,并且是一项艰巨的任务。本文使用并比较了最新的深度学习模型,例如卷积神经网络(CNN),长期记忆(LSTM)和门控复发单元(GRU),以解决使用氨基酸的大分子分类问题。与传统的机器学习技术相比,这些模型具有有效的框架来解决广泛的复杂学习问题。我们使用嵌入单词来表示氨基酸序列作为向量。CNN从氨基酸序列中提取特征,这些特征被视为向量,然后喂入上面提到的模型以训练健壮的分类器。我们的结果表明,嵌入与VGG-16相结合的Word2Vec的性能比LSTM和GRU更好。提出的方法的错误率为1.5%。
translated by 谷歌翻译
在这项工作中,我们开始使用深入学习方法来找到对蛋白质结构进行分类的方法。我们的人工智能已经训练,以识别从蛋白质数据库(PDB)数据库外推的复杂的生物分子结构,并将其被重新处理为图像;为此目的,已经使用预先训练的卷积神经网络进行了各种测试,例如InceptionResnetv2或Inceptionv3,以便从这些图像中提取有效的特征并正确对分子进行分类。因此,将产生对各种网络的性能的比较分析。
translated by 谷歌翻译
在这项工作中,我们通过使用卷积神经网络,基于深度学习方法的系统提供了一种基于蛋白质数据库中包含的蛋白质描述来分类氨基酸的蛋白质链。每个蛋白质在其XML格式中的文件中的化学物理 - 几何属性中完全描述。这项工作的目的是设计一个原型的深层学习机械,用于收集和管理大量数据,并通过其应用于氨基酸序列的分类来验证。我们设想将所述方法应用于与结构性质和相似性有关的生物分子中的更通用分类问题。
translated by 谷歌翻译
精确预测蛋白质功能和性质的能力在生物技术行业中是必不可少的,例如,药物开发和人工蛋白质合成等。蛋白质功能预测的主要挑战是大标签空间和缺乏标记的训练数据。我们的方法利用无监督的序列嵌入和深度卷积神经网络的成功来克服这些挑战。相比之下,大多数现有方法删除了罕见的蛋白质功能以减少标签空间。此外,一些现有方法需要额外的生物信息(例如,蛋白质的三维结构),其难以在生化实验中确定。我们所提出的方法显着优于仅使用蛋白质序列作为输入的公共可用基准的其他方法。这允许识别识别蛋白质功能的过程。
translated by 谷歌翻译
基于注意力的深网络已成功应用于NLP字段中的文本数据。然而,与普通文本词不同,它们在蛋白质序列上的应用造成额外的挑战。标准关注技术面临的这些未开发的挑战包括(i)消失注意评分问题和(ii)注意分布的高变化。在这方面,我们介绍了一种新颖的{\ Lambda} -Scaled注意技术,用于快速有效地建模蛋白质序列,这些蛋白质序列解决了上述问题。这用于开发{\ lambda} -scaled注意网络,并评估在蛋白质序列水平上实施的蛋白质功能预测的任务。对生物过程的数据集(BP)和分子函数(MF)的实验表明,基于标准注意技术(+ 2.01%),所提出的{\ Lambda} -scaled技术的F1分数值的F1评分值的显着改进(+ 2.01% BP和MF的+ 4.67%)和最先进的Protvecgen-Plus方法(BP的2.61%,MF的2.20%)。此外,在训练过程中,还观察到快速收敛(在时期的一半)和高效学习(在训练和验证损失之间的差异方面)也被观察到。
translated by 谷歌翻译
在DNA序列中定位启动子区域对于生物信息学领域至关重要。这是文学中广泛研究的问题,但尚未完全解决。一些研究人员使用卷积网络提出了显着的结果,允许自动提取来自DNA链的特征。然而,尚未实现可能概括为若干生物的普遍架构,从而要求研究人员寻求新的架构和对每个新的生物体的近似数目。在这项工作中,我们提出了一种基于胶囊网络的多功能架构,可以精确地识别来自七种不同生物,真核和原核的原始DNA数据中的启动子序列。我们的模型是Capsprom,可以帮助在生物之间的学习转移并扩大其适用性。此外,CAPSPROM显示出具有竞争力的结果,克服了七个测试数据集中的五分之一的基线方法(F1分数)。模型和源代码在https://github.com/lauromoraes/capsnet-promoter提供。
translated by 谷歌翻译
The development of deep neural networks has improved representation learning in various domains, including textual, graph structural, and relational triple representations. This development opened the door to new relation extraction beyond the traditional text-oriented relation extraction. However, research on the effectiveness of considering multiple heterogeneous domain information simultaneously is still under exploration, and if a model can take an advantage of integrating heterogeneous information, it is expected to exhibit a significant contribution to many problems in the world. This thesis works on Drug-Drug Interactions (DDIs) from the literature as a case study and realizes relation extraction utilizing heterogeneous domain information. First, a deep neural relation extraction model is prepared and its attention mechanism is analyzed. Next, a method to combine the drug molecular structure information and drug description information to the input sentence information is proposed, and the effectiveness of utilizing drug molecular structures and drug descriptions for the relation extraction task is shown. Then, in order to further exploit the heterogeneous information, drug-related items, such as protein entries, medical terms and pathways are collected from multiple existing databases and a new data set in the form of a knowledge graph (KG) is constructed. A link prediction task on the constructed data set is conducted to obtain embedding representations of drugs that contain the heterogeneous domain information. Finally, a method that integrates the input sentence information and the heterogeneous KG information is proposed. The proposed model is trained and evaluated on a widely used data set, and as a result, it is shown that utilizing heterogeneous domain information significantly improves the performance of relation extraction from the literature.
translated by 谷歌翻译
病毒感染导致全世界的显着发病率和死亡率。理解特定病毒和人类蛋白质之间的相互作用模式在揭示病毒感染和发病机制的潜在机制方面发挥着至关重要的作用。这可以进一步帮助预防和治疗病毒相关疾病。然而,由于病毒 - 人类相互作用的稀缺数据和大多数病毒的快速突变率,预测新病毒和人体细胞之间的蛋白质 - 蛋白质相互作用的任务是非常挑战性的。我们开发了一种多任务转移学习方法,利用人类互乱组约2400万蛋白序列和相互作用模式的信息来解决小型训练数据集的问题。除了使用手工制作的蛋白质特征,而不是通过深语模型方法从巨大的蛋白质序列来源学习的统计学上丰富的蛋白质表示。此外,我们采用了额外的目的,旨在最大限度地提高观察人蛋白质蛋白质相互作用的可能性。这一附加任务目标充当规律器,还允许纳入域知识来告知病毒 - 人蛋白质 - 蛋白质相互作用预测模型。我们的方法在13个基准数据集中实现了竞争力,以及SAR-COV-2病毒受体的案例研究。实验结果表明,我们所提出的模型有效地用于病毒 - 人和细菌 - 人蛋白质 - 蛋白质 - 蛋白质相互作用预测任务。我们分享我们的重复性和未来研究代码,以便在https://git.l3s.uni-hannover.de/dong/multitastastastastastastastastastask-transfer。
translated by 谷歌翻译
蛋白质RNA相互作用对各种细胞活性至关重要。已经开发出实验和计算技术来研究相互作用。由于先前数据库的限制,尤其是缺乏蛋白质结构数据,大多数现有的计算方法严重依赖于序列数据,只有一小部分使用结构信息。最近,alphafold彻底改变了整个蛋白质和生物领域。可预应学,在即将到来的年份,也将显着促进蛋白质-RNA相互作用预测。在这项工作中,我们对该字段进行了彻底的审查,调查绑定站点和绑定偏好预测问题,并覆盖常用的数据集,功能和模型。我们还指出了这一领域的潜在挑战和机遇。本调查总结了过去的RBP-RNA互动领域的发展,并预见到了alphafold时代未来的发展。
translated by 谷歌翻译
由影响它们折叠并因此决定其功能和特征的氨基酸链组成,蛋白质是一类大分子,它们在主要生物过程中起着核心作用,并且是人体组织的结构,功能和调节所必需的。了解蛋白质功能对于治疗和精确医学的发展至关重要,因此可以根据可测量特征对蛋白质进行分类及其功能至关重要。实际上,从其主要结构(称为其主要结构)中对蛋白质特性的自动推断仍然是生物信息学领域中的一个重要开放问题,尤其是考虑到测序技术的最新进展和广泛的已知但未分类的蛋白质具有未知属性。在这项工作中,我们演示和比较了几个深度学习框架的性能,包括新型双向LSTM和卷积模型,这些卷积模型在蛋白质数据库(PDB)的广泛可用的测序数据合作中,结构生物信息信息技术(RCSB),RCSB),RCSB(RCSB),RCSB(RCSB)的研究合作。除了对经典的机器学习方法进行基准测试,包括K-Nearest邻居和多项式回归分类器,对实验数据进行了培训。我们的结果表明,我们的深度学习模型为经典的机器学习方法提供了卓越的性能,卷积体系结构提供了最令人印象深刻的推理性能。
translated by 谷歌翻译
流感每个季节都会发生,偶尔会引起大流行。尽管死亡率较低,但流感却是一个主要的公共卫生问题,因为肺炎等严重疾病可能会使它复杂化。一种快速,准确和低成本的方法来预测流感病毒的原始宿主和亚型,可以帮助减少病毒的传播并使资源贫乏的地区受益。在这项工作中,我们提出了多通道神经网络,以预测具有黑凝集素和神经氨酸酶蛋白序列的流感类型和宿主的抗原类型和宿主。包含完整蛋白质序列的集成数据集用于产生预训练的模型,并使用其他两个数据集来测试模型的性能。一个测试组包含完整的蛋白质序列,另一个测试组包含不完整的蛋白质序列。结果表明,多通道神经网络适用于预测具有完整和部分蛋白质序列的流感病毒宿主和抗原亚型。
translated by 谷歌翻译
Sentiment analysis is the computational study of opinions and emotions ex-pressed in text. Deep learning is a model that is currently producing state-of-the-art in various application domains, including sentiment analysis. Many researchers are using a hybrid approach that combines different deep learning models and has been shown to improve model performance. In sentiment analysis, input in text data is first converted into a numerical representation. The standard method used to obtain a text representation is the fine-tuned embedding method. However, this method does not pay attention to each word's context in the sentence. Therefore, the Bidirectional Encoder Representation from Transformer (BERT) model is used to obtain text representations based on the context and position of words in sentences. This research extends the previous hybrid deep learning using BERT representation for Indonesian sentiment analysis. Our simulation shows that the BERT representation improves the accuracies of all hybrid architectures. The BERT-based LSTM-CNN also reaches slightly better accuracies than other BERT-based hybrid architectures.
translated by 谷歌翻译
现在,我们目睹了深度学习方法在各种蛋白质(或数据集)中的重大进展。但是,缺乏评估不同方法的性能的标准基准,这阻碍了该领域的深度学习进步。在本文中,我们提出了一种称为PEER的基准,这是一种用于蛋白质序列理解的全面和多任务基准。 PEER提供了一组不同的蛋白质理解任务,包括蛋白质功能预测,蛋白质定位预测,蛋白质结构预测,蛋白质 - 蛋白质相互作用预测和蛋白质 - 配体相互作用预测。我们评估每个任务的不同类型的基于序列的方法,包括传统的特征工程方法,不同的序列编码方法以及大规模的预训练蛋白质语言模型。此外,我们还研究了这些方法在多任务学习设置下的性能。实验结果表明,大规模的预训练蛋白质语言模型可实现大多数单个任务的最佳性能,共同训练多个任务进一步提高了性能。该基准的数据集和源代码均可在https://github.com/deepgraphlearning/peer_benchmark上获得
translated by 谷歌翻译
在这项研究中,我们展示了我们的工作参与BioCreative VII挑战的药物支持。药物靶靶相互作用(DTI)对于药物发现和重新施加至关重要,其通常从实验制品中手动提取。有关PubMed的32M生物医学文章和手动提取来自这种巨大的知识库的DTI是具有挑战性的。为了解决这个问题,我们为赛道1提供了一种解决方案,旨在提取药物和蛋白质实体之间的10种类型的相互作用。我们应用了一个组合生物向罗伯塔,艺术语言模型的艺术状态的集合类模型,卷积神经网络(CNN)来提取这些关系。尽管Biocreative VII药物测试语料库中的阶级失衡,但我们的模型与挑战中其他提交的平均值相比实现了良好的性能,微F1分数为55.67%(生物重建VI Chemprot测试语料库)。结果表明,深入学习在提取各种类型的DTIS方面的潜力。
translated by 谷歌翻译
在线新闻和信息来源是方便且可访问的方法来了解当前问题。例如,超过3亿人在全球Twitter上参与帖子,这提供了传播误导信息的可能性。在许多情况下,由于虚假新闻,已经犯了暴力犯罪。这项研究介绍了Covidmis20数据集(Covid-19误导2020数据集),该数据集由2月至2020年7月收集的1,375,592条推文组成。Covidmis20可以自动更新以获取最新新闻,并在以下网址公开,网址为:HTTPPS://GITHUB.COM./github.com./github.com。/一切guy/covidmis20。这项研究是使用BI-LSTM深度学习和合奏CNN+BI-GRU进行假新闻检测进行的。结果表明,测试精度分别为92.23%和90.56%,集合CNN+BI-GRU模型始终提供了比BI-LSTM模型更高的精度。
translated by 谷歌翻译
SARS-COV-2是一种上呼吸系统的RNA病毒,截至2021年5月,在全球范围内引起超过300万人死亡,截至5月201日。迄今为止,SARS-COV-2突变对科学家造成重大挑战跟上疫苗开发和公共卫生措施的步伐。因此,鉴定来自患者的实验室样本分歧的有效方法非常有助于SARS-COV-2基因组学的文件。在这项研究中,我们提出了一种神经网络模型,可利用复发性和卷积单元直接参与尖峰蛋白的氨基酸序列并分类相应的片状。我们还将我们的模型的性能与来自蛋白质数据库预先培训的变压器(BERT)的双向编码器表示。我们的方法具有基于基于物种内分化的当前同源性提供了更加计算上的替代方案。
translated by 谷歌翻译
在三维分子结构上运行的计算方法有可能解决生物学和化学的重要问题。特别地,深度神经网络的重视,但它们在生物分子结构域中的广泛采用受到缺乏系统性能基准或统一工具包的限制,用于与分子数据相互作用。为了解决这个问题,我们呈现Atom3D,这是一个新颖的和现有的基准数据集的集合,跨越几个密钥的生物分子。我们为这些任务中的每一个实施多种三维分子学习方法,并表明它们始终如一地提高了基于单维和二维表示的方法的性能。结构的具体选择对于性能至关重要,具有涉及复杂几何形状的任务的三维卷积网络,在需要详细位置信息的系统中表现出良好的图形网络,以及最近开发的设备越多的网络显示出显着承诺。我们的结果表明,许多分子问题符合三维分子学习的增益,并且有可能改善许多仍然过分曝光的任务。为了降低进入并促进现场进一步发展的障碍,我们还提供了一套全面的DataSet处理,模型培训和在我们的开源ATOM3D Python包中的评估工具套件。所有数据集都可以从https://www.atom3d.ai下载。
translated by 谷歌翻译
流感病毒迅速变异,可能对公共卫生构成威胁,尤其是对弱势群体的人。在整个历史中,流感A病毒在不同物种之间引起了大流行病。重要的是要识别病毒的起源,以防止爆发的传播。最近,人们对使用机器学习算法来为病毒序列提供快速准确的预测一直引起人们的兴趣。在这项研究中,使用真实的测试数据集和各种评估指标用于评估不同分类学水平的机器学习算法。由于血凝素是免疫反应中的主要蛋白质,因此仅使用血凝素序列并由位置特异性评分基质和单词嵌入来表示。结果表明,5-grams-transformer神经网络是预测病毒序列起源的最有效算法,大约99.54%的AUCPR,98.01%的F1分数和96.60%的MCC,在较高的分类水平上,约94.74%AUCPR,87.41%,87.41%,87.41% %F1分数%和80.79%的MCC在较低的分类水平下。
translated by 谷歌翻译
在过去的几年里,假新闻的前所未有的扩散。因此,我们更容易受到误导和消毒蔓延可能在我们社会的不同细分市场的影响。因此,开发自动检测假新闻的工具和在预防其负面影响方面发挥着重要作用。大多数尝试仅在使用文本信息时检测和分类错误内容焦点。多式联运方法频繁不那么频繁,它们通常将新闻分类为真假或假。在这项工作中,我们使用单峰和多模式方法对FakedDit DataSet进行精细的虚假新闻分类。我们的实验表明,基于卷积神经网络(CNN)架构的多模式方法组合文本和图像数据的最佳结果,精度为87%。一些假新闻类别,如操纵内容,讽刺或假连接强烈地受益于图像的使用。使用图像也提高了其他类别的结果,但影响较少。关于仅使用文本的单向方法,来自变压器(BERT)的双向编码器表示是最佳模型,精度为78%。因此,利用文本和图像数据显着提高了假新闻检测的性能。
translated by 谷歌翻译