随着Covid-19的快速全球传播,越来越多的数据与该病毒有关正在变得可用,包括基因组序列数据。目前在GISAID等平台上公开可用的基因组序列总数是数百万,每天都在增加。此类\ EMPH {Big Data}的可用性为研究人员提供了详细研究该病毒的新机会。这对Covid-19变体的所有动态尤其重要,其出现并循环。这种丰富的数据源将为我们提供对这一和未来大流行威胁的最佳方式的最佳方法,具有减轻或消除此类威胁的最终目标。分析和处理数百万基因组序列是一个具有挑战性的任务。虽然证明了序列分类的传统方法是有效的,但它们不设计用于处理这些特定类型的基因组序列。此外,大多数现有方法也面临着可扩展性问题。以前的研究被定制成冠状病毒基因组数据,提出用于使用尖峰序列(对应于基因组的随后),而不是使用完整的基因组序列,以执行不同的机器学习(ML)任务,例如分类和聚类。但是,这些方法遭受可扩展性问题。在本文中,我们提出了一种称为Spike2VEC的方法,对于可以用于下游ML任务的每个尖峰序列,一种称为Spike2VEC,高效且可伸缩的特征向量表示。通过实验,我们表明Spike2VEC不仅可以在数百万秒峰序列上可扩展,而且在预测精度,F1分数等方面也优越基线模型。
translated by 谷歌翻译
Covid-19大流行,仍然是未知的,是一个重要的开放问题。有猜测蝙蝠是可能的起源。同样地,有许多密切相关的(电晕)病毒,例如SARS,发现通过练习圈传递。对潜在的载体和致命病毒发射器的不同主体的研究对于了解,减轻和预防当前和未来的流行性至关重要。在冠状病毒中,表面(S)蛋白或尖峰蛋白是确定宿主特异性的重要组成部分,因为它是病毒与宿主细胞膜之间的接触点。在本文中,我们将超过五千个冠状病毒的刺激蛋白序列分类,将它们分离成艾滋病,蝙蝠,骆驼,猪,人类和奶酪中明显宿主的集群,以命名几个。我们提出了一种基于众所周知的位置重量矩阵(PWM)的特征嵌入,我们呼叫PWM2VEC,并用于从这些冠状虫病毒的尖峰蛋白序列产生特征向量。虽然我们的嵌入受到PWMS在生物应用中的成功,例如确定蛋白质功能,或识别转录因子结合位点,但我们是在来自病毒序列的宿主分类的上下文中使用PWM的第一个(我们的知识)生成固定长度的特征矢量表示。现实世界数据的结果显示,与使用PWM2VEC,与基线模型相比,我们能够相当良好地执行。我们还使用信息增益来测量不同氨基酸的重要性,以显示对预测给定冠状病毒的宿主来说重要的氨基酸。
translated by 谷歌翻译
机器学习(ML)模型,例如SVM,用于分类和序列的聚类等任务,需要定义序列对之间的距离/相似性。已经提出了几种方法来计算序列之间的相似性,例如确切的方法计算$ k $ -s-mers(长度$ k $的子序列)之间的匹配数和估计成对相似性得分的近似方法。尽管精确的方法产生了更好的分类性能,但它们的计算成本很高,将其适用性限制在少量序列中。事实证明,近似算法更可扩展,并具有相当的性能(有时更好)确切方法 - 它们以“一般”方式设计用于处理不同类型的序列(例如音乐,蛋白质等)。尽管一般适用性是算法的所需属性,但在所有情况下都不是这种情况。例如,在当前的Covid-19(冠状病毒)大流行中,需要一种可以专门处理冠状病毒的方法。为此,我们提出了一系列方法来提高近似内核的性能(使用最小化和信息增益),以增强其预测性能PM冠状病毒序列。更具体地说,我们使用域知识(使用信息增益计算)和有效的预处理(使用最小值计算)来提高近似内核的质量,以对与不同变体相对应的冠状病毒峰值蛋白序列进行分类(例如,Alpha,Beta,Beta,Gamma)。我们使用不同的分类和聚类算法报告结果,并使用多个评估指标评估其性能。使用两个数据集,我们表明我们提出的方法有助于与医疗保健领域的基线和最先进的方法相比,有助于提高内核的性能。
translated by 谷歌翻译
COVID-19大流行的快速扩散导致SARS-COV-2基因组的序列数据量很大,数百万序列和计数。尽管超出传统方法的能力来理解病毒的多样性,动态和演变的能力,但这一数量的数量幅度仍然是机器学习(ML)方法的丰富资源(ML)作为从这些数据中提取此类重要信息的替代方法。因此,设计一个用于测试和基准测试这些ML模型的鲁棒性的框架至关重要。本文(据我们所知)首次努力通过使用错误模拟生物学序列来基准ML模型的鲁棒性。在本文中,我们介绍了几种方法来扰动SARS-COV-2基因组序列,以模仿普通测序平台(例如Illumina和pacbio)的误差曲线。我们从在各种ML模型上的实验中证明,对于某些特定的嵌入方法,某些基于仿真的方法比其他针对输入序列的对抗性攻击更健壮(和准确)。我们的基准测试框架可以帮助研究人员正确评估不同的ML模型,并帮助他们了解SARS-COV-2病毒的行为或避免未来可能的大流行。
translated by 谷歌翻译
由于SARS-COV-2(COVID-19)病毒的快速发展,许多突变发生了许多变体,例如Alpha,Gamma,Delta和Omicron,对世界经济产生了巨大影响。无监督的机器学习方法具有压缩,表征和可视化数据的能力。在本文中,我们提出了一个框架,该框架利用了无监督的机器学习方法,其中包括选定的尺寸还原和聚类方法的组合,以区分和可视化基于基于基因组序列的主要COVID-19变体的关联。该框架利用K-MER分析来处理基因组(RNA)序列,并比较包括主成分分析(PCA)和T-分布的随机邻居嵌入(T-SNE)和统一歧管近似投影( UMAP)。此外,该框架采用了团聚层次聚类方法,并使用树状图提供了可视化。我们发现所提出的框架可以有效地区分主要变体,因此可以在将来区分新兴变体。
translated by 谷歌翻译
病毒感染导致全世界的显着发病率和死亡率。理解特定病毒和人类蛋白质之间的相互作用模式在揭示病毒感染和发病机制的潜在机制方面发挥着至关重要的作用。这可以进一步帮助预防和治疗病毒相关疾病。然而,由于病毒 - 人类相互作用的稀缺数据和大多数病毒的快速突变率,预测新病毒和人体细胞之间的蛋白质 - 蛋白质相互作用的任务是非常挑战性的。我们开发了一种多任务转移学习方法,利用人类互乱组约2400万蛋白序列和相互作用模式的信息来解决小型训练数据集的问题。除了使用手工制作的蛋白质特征,而不是通过深语模型方法从巨大的蛋白质序列来源学习的统计学上丰富的蛋白质表示。此外,我们采用了额外的目的,旨在最大限度地提高观察人蛋白质蛋白质相互作用的可能性。这一附加任务目标充当规律器,还允许纳入域知识来告知病毒 - 人蛋白质 - 蛋白质相互作用预测模型。我们的方法在13个基准数据集中实现了竞争力,以及SAR-COV-2病毒受体的案例研究。实验结果表明,我们所提出的模型有效地用于病毒 - 人和细菌 - 人蛋白质 - 蛋白质 - 蛋白质相互作用预测任务。我们分享我们的重复性和未来研究代码,以便在https://git.l3s.uni-hannover.de/dong/multitastastastastastastastastastask-transfer。
translated by 谷歌翻译
SARS-COV-2是一种上呼吸系统的RNA病毒,截至2021年5月,在全球范围内引起超过300万人死亡,截至5月201日。迄今为止,SARS-COV-2突变对科学家造成重大挑战跟上疫苗开发和公共卫生措施的步伐。因此,鉴定来自患者的实验室样本分歧的有效方法非常有助于SARS-COV-2基因组学的文件。在这项研究中,我们提出了一种神经网络模型,可利用复发性和卷积单元直接参与尖峰蛋白的氨基酸序列并分类相应的片状。我们还将我们的模型的性能与来自蛋白质数据库预先培训的变压器(BERT)的双向编码器表示。我们的方法具有基于基于物种内分化的当前同源性提供了更加计算上的替代方案。
translated by 谷歌翻译
严重的急性呼吸综合征冠状病毒2(SARS-COV-2)导致持续的大流行感染了21900万人的10/19/21,死亡率为3.6%。自然选择可以产生有利的突变,具有改善的健身优势;然而,所识别的冠状病毒可能是冰山的尖端,并且可能会随着时间的推移出现潜在的致命变体(VOC)。理解可能导致功能或免疫逃逸的新出现VOC和预测突变的模式是迫切需要的。在这里,我们开发了Phylotransformer,一种基于变压器的辨别模型,其与多头自我关注机制接合以模拟可能导致病毒生殖优势的基因突变。为了识别每个输入序列的元件之间的复杂依赖性,Phylotransformer利用高级建模技术,包括从Performer的正交随机特征方法(Hibl +)以及来自双向编码器表示的屏蔽语言模型(MLM)的新颖快速关注变压器(伯特)。从全球倡议检索的1,765,297次遗传序列培训,从全球范围内检测到所有流感数据(GISAID)数据库。首先,我们使用广泛的基线模型比较了新型突变和新颖组合的预测准确性;我们发现,这种具有统计显着性的每个基线方法都优势了。其次,我们检查了受体结合基序(RBM)的每个核苷酸中的突变预测,我们发现我们的预测是精确和准确的。第三,我们预测了N-糖基化位点的修饰,以鉴定与在病毒进化期间可能有利的改变的糖基化相关的突变。我们预计Phylotransformer可以引导积极的疫苗设计,以有效靶向未来SARS-COV-2变体。
translated by 谷歌翻译
了解人类行为是一项重要的任务,并且在许多领域(例如针对性的广告,健康分析,安全和娱乐等)都有应用。为此,设计活动识别系统(AR)很重要。但是,由于每个人都可以具有不同的行为,因此理解和分析共同模式成为一项艰巨的任务。由于现代世界中的每个人都很容易获得智能手机,因此使用它们来跟踪人类活动变得可能是可能的。在本文中,我们通过构建Android移动应用程序的Android智能手机的加速度计,磁力计和陀螺仪传感器提取了不同的人类活动。使用不同的社交媒体应用程序,例如Facebook,Instagram,WhatsApp和Twitter,我们提取了原始传感器值以及$ 29 $主题的属性及其属性(类标签),例如年龄,性别,左/右/右/双手的应用使用情况。我们从原始信号中提取功能,并使用它们使用不同的机器学习(ML)算法进行分类。使用统计分析,我们显示了不同特征对类标签预测的重要性。最后,我们在数据上使用训练有素的ML模型来从UCI存储库中众所周知的活动识别数据中提取未知功能,该数据突出了使用ML模型的隐私漏洞的潜力。这种安全分析可以帮助研究人员将来采取适当的步骤来保护人类受试者的隐私。
translated by 谷歌翻译
COVID-19的大流行提出了对多个领域决策者的流行预测的重要性,从公共卫生到整个经济。虽然预测流行进展经常被概念化为类似于天气预测,但是它具有一些关键的差异,并且仍然是一项非平凡的任务。疾病的传播受到人类行为,病原体动态,天气和环境条件的多种混杂因素的影响。由于政府公共卫生和资助机构的倡议,捕获以前无法观察到的方面的丰富数据来源的可用性增加了研究的兴趣。这尤其是在“以数据为中心”的解决方案上进行的一系列工作,这些解决方案通过利用非传统数据源以及AI和机器学习的最新创新来增强我们的预测能力的潜力。这项调查研究了各种数据驱动的方法论和实践进步,并介绍了一个概念框架来导航它们。首先,我们列举了与流行病预测相关的大量流行病学数据集和新的数据流,捕获了各种因素,例如有症状的在线调查,零售和商业,流动性,基因组学数据等。接下来,我们将讨论关注最近基于数据驱动的统计和深度学习方法的方法和建模范式,以及将机械模型知识域知识与统计方法的有效性和灵活性相结合的新型混合模型类别。我们还讨论了这些预测系统的现实部署中出现的经验和挑战,包括预测信息。最后,我们重点介绍了整个预测管道中发现的一些挑战和开放问题。
translated by 谷歌翻译
dadapy是用于分析和表征高维数据歧管的Python软件包。它提供了估计固有维度和概率密度的方法,用于执行基于密度的聚类和比较不同的距离指标。我们回顾包装的主要功能,并在玩具案例和现实世界中的使用中举例说明其使用情况。dadapy可在开源Apache 2.0许可下自由使用。
translated by 谷歌翻译
这是一门专门针对STEM学生开发的介绍性机器学习课程。我们的目标是为有兴趣的读者提供基础知识,以在自己的项目中使用机器学习,并将自己熟悉术语作为进一步阅读相关文献的基础。在这些讲义中,我们讨论受监督,无监督和强化学习。注释从没有神经网络的机器学习方法的说明开始,例如原理分析,T-SNE,聚类以及线性回归和线性分类器。我们继续介绍基本和先进的神经网络结构,例如密集的进料和常规神经网络,经常性的神经网络,受限的玻尔兹曼机器,(变性)自动编码器,生成的对抗性网络。讨论了潜在空间表示的解释性问题,并使用梦和对抗性攻击的例子。最后一部分致力于加强学习,我们在其中介绍了价值功能和政策学习的基本概念。
translated by 谷歌翻译
在低维空间中节点的学习表示是一项至关重要的任务,在网络分析中具有许多有趣的应用,包括链接预测,节点分类和可视化。解决此问题的两种流行方法是矩阵分解和基于步行的随机模型。在本文中,我们旨在将两全其美的最好的人融合在一起,以学习节点表示。特别是,我们提出了一个加权矩阵分解模型,该模型编码有关网络节点的随机步行信息。这种新颖的表述的好处是,它使我们能够利用内核函数,而无需意识到确切的接近矩阵,从而增强现有矩阵分解方法的表达性,并减轻其计算复杂性。我们通过多个内核学习公式扩展了方法,该公式提供了学习内核作为以数据驱动方式的词典的线性组合的灵活性。我们在现实世界网络上执行经验评估,表明所提出的模型优于基线节点嵌入下游机器学习任务中的算法。
translated by 谷歌翻译
自2020年2月以来,世界一直在与Covid-19疾病进行激烈的斗争,随着疾病变成大流行,卫生系统受到悲惨的压力。这项研究的目的是使用对LogNNET储层神经网络的向后特征消除算法获得COVID-19的诊断和预后中最有效的常规血值(RBV)。该研究中的第一个数据集由5296例患者组成,具有相同数量的阴性和阳性COVID-19。 Lognnet模型在疾病诊断中的准确率为99.5%,其特征的精度为99.17%,只有平均红细胞血红蛋白浓度,平均性肌张力性血红蛋白和激活的部分凝血酶蛋白时间。第二个数据集由总共3899例COVID-19诊断为医院接受治疗的患者,其中203名患者是严重的患者,3696例患者是温和的患者。该模型以48个特征确定疾病预后的准确率达到94.4%,而仅红细胞沉降率,中性粒细胞计数和C反应性蛋白质特征,精度为82.7%。我们的方法将减少卫生部门的负压力,并帮助医生使用关键特征来了解Covid-19的发病机理。该方法有望在物联网中创建移动健康监控系统。
translated by 谷歌翻译
图表表示学习是一种快速增长的领域,其中一个主要目标是在低维空间中产生有意义的图形表示。已经成功地应用了学习的嵌入式来执行各种预测任务,例如链路预测,节点分类,群集和可视化。图表社区的集体努力提供了数百种方法,但在所有评估指标下没有单一方法擅长,例如预测准确性,运行时间,可扩展性等。该调查旨在通过考虑算法来评估嵌入方法的所有主要类别的图表变体,参数选择,可伸缩性,硬件和软件平台,下游ML任务和多样化数据集。我们使用包含手动特征工程,矩阵分解,浅神经网络和深图卷积网络的分类法组织了图形嵌入技术。我们使用广泛使用的基准图表评估了节点分类,链路预测,群集和可视化任务的这些类别算法。我们在Pytorch几何和DGL库上设计了我们的实验,并在不同的多核CPU和GPU平台上运行实验。我们严格地审查了各种性能指标下嵌入方法的性能,并总结了结果。因此,本文可以作为比较指南,以帮助用户选择最适合其任务的方法。
translated by 谷歌翻译
机器学习,已经在越来越多的系统和应用程序的核心,被设置为更普遍存在的可穿戴设备和物联网的快速崛起。在大多数机器学习应用中,主要焦点是实现的结果的质量(例如,预测准确性),因此正在收集大量数据,需要大量的计算资源来构建模型。但是,在许多情况下,建立大型集中式数据存储库是不可行或不切实际的。例如,在个人健康中,隐私问题可能会抑制详细个人数据的共享。在这种情况下,理想情况下,机器学习应该在可穿戴设备本身上执行,这提高了诸如Smartwatches的电池容量的主要计算限制。因此,本文调查了节俭学习,旨在使用最少量资源来构建最准确的可能模型。通过节俭镜头检查广泛的学习算法,在各种数据集上分析了它们的准确性/运行时性能。此后,最有前途的算法通过在SmartWatch中实现它们,并让他们在手表本身上学习活动识别模型来评估现实世界的情况。
translated by 谷歌翻译
现代单细胞流量和质量细胞仪技术测量血液或组织样品中单个细胞的几种蛋白质的表达。因此,每个分析的生物样品都由数十万个多维细胞特征向量表示,这会产生高计算成本,以预测每个生物样品与机器学习模型的相关表型。如此大的固定基础性也限制了机器学习模型的可解释性,因为难以跟踪每个单个单个细胞如何影响最终预测。我们建议使用内核平均嵌入来编码每个分类生物样品的细胞景观。尽管我们最重要的目标是制作一个更透明的模型,但我们发现我们的方法与通过简单的线性分类器相比,您的方法获得了可比性或更好的精度。结果,我们的模型包含很少的参数,但仍与具有数百万参数的深度学习模型相似。与深度学习方法相反,我们模型的线性和子选择步骤使解释分类结果变得容易。分析进一步表明,我们的方法可以接受丰富的生物学解释性,以将细胞异质性与临床表型联系起来。
translated by 谷歌翻译
Neglected tropical diseases (NTDs) continue to affect the livelihood of individuals in countries in the Southeast Asia and Western Pacific region. These diseases have been long existing and have caused devastating health problems and economic decline to people in low- and middle-income (developing) countries. An estimated 1.7 billion of the world's population suffer one or more NTDs annually, this puts approximately one in five individuals at risk for NTDs. In addition to health and social impact, NTDs inflict significant financial burden to patients, close relatives, and are responsible for billions of dollars lost in revenue from reduced labor productivity in developing countries alone. There is an urgent need to better improve the control and eradication or elimination efforts towards NTDs. This can be achieved by utilizing machine learning tools to better the surveillance, prediction and detection program, and combat NTDs through the discovery of new therapeutics against these pathogens. This review surveys the current application of machine learning tools for NTDs and the challenges to elevate the state-of-the-art of NTDs surveillance, management, and treatment.
translated by 谷歌翻译
在这项工作中,我们提出了一种维度减少算法,即AKA。素描,用于分类数据集。我们提出的草图算法舱从高维分类向量构造低维二进制草图,我们的距离估计算法CHAM仅计算任何两个原始向量之间的汉明距离的近似近似。 Cham以确保良好估计的速度要求的最小尺寸理论上只取决于数据点的稀疏性 - 使其对涉及稀疏数据集的许多现实生活场景有用。我们对我们的方法提供了严格的理论分析,并在几个高维现实世界数据集上进行了广泛的实验,包括一个超过一百万维度的实验。我们表明,与使用完整数据集和其他维数减少技术相比,机舱和Cham Duo是一种明显的快速准确的任务和群集,如RMSE,全对相似性和聚类。
translated by 谷歌翻译
为了允许机器学习算法从原始数据中提取知识,必须首先清除,转换,并将这些数据置于适当的形式。这些通常很耗时的阶段被称为预处理。预处理阶段的一个重要步骤是特征选择,其目的通过减少数据集的特征量来更好地执行预测模型。在这些数据集中,不同事件的实例通常是不平衡的,这意味着某些正常事件被超出,而其他罕见事件非常有限。通常,这些罕见的事件具有特殊的兴趣,因为它们具有比正常事件更具辨别力。这项工作的目的是过滤提供给这些罕见实例的特征选择方法的实例,从而积极影响特征选择过程。在这项工作过程中,我们能够表明这种过滤对分类模型的性能以及异常值检测方法适用于该过滤。对于某些数据集,所产生的性能增加仅为百分点,但对于其他数据集,我们能够实现高达16%的性能的增加。这项工作应导致预测模型的改进以及在预处理阶段的过程中的特征选择更好的可解释性。本着公开科学的精神,提高了我们的研究领域的透明度,我们已经在公开的存储库中提供了我们的所有源代码和我们的实验结果。
translated by 谷歌翻译