机器学习(ML)模型,例如SVM,用于分类和序列的聚类等任务,需要定义序列对之间的距离/相似性。已经提出了几种方法来计算序列之间的相似性,例如确切的方法计算$ k $ -s-mers(长度$ k $的子序列)之间的匹配数和估计成对相似性得分的近似方法。尽管精确的方法产生了更好的分类性能,但它们的计算成本很高,将其适用性限制在少量序列中。事实证明,近似算法更可扩展,并具有相当的性能(有时更好)确切方法 - 它们以“一般”方式设计用于处理不同类型的序列(例如音乐,蛋白质等)。尽管一般适用性是算法的所需属性,但在所有情况下都不是这种情况。例如,在当前的Covid-19(冠状病毒)大流行中,需要一种可以专门处理冠状病毒的方法。为此,我们提出了一系列方法来提高近似内核的性能(使用最小化和信息增益),以增强其预测性能PM冠状病毒序列。更具体地说,我们使用域知识(使用信息增益计算)和有效的预处理(使用最小值计算)来提高近似内核的质量,以对与不同变体相对应的冠状病毒峰值蛋白序列进行分类(例如,Alpha,Beta,Beta,Gamma)。我们使用不同的分类和聚类算法报告结果,并使用多个评估指标评估其性能。使用两个数据集,我们表明我们提出的方法有助于与医疗保健领域的基线和最先进的方法相比,有助于提高内核的性能。
translated by 谷歌翻译
了解人类行为是一项重要的任务,并且在许多领域(例如针对性的广告,健康分析,安全和娱乐等)都有应用。为此,设计活动识别系统(AR)很重要。但是,由于每个人都可以具有不同的行为,因此理解和分析共同模式成为一项艰巨的任务。由于现代世界中的每个人都很容易获得智能手机,因此使用它们来跟踪人类活动变得可能是可能的。在本文中,我们通过构建Android移动应用程序的Android智能手机的加速度计,磁力计和陀螺仪传感器提取了不同的人类活动。使用不同的社交媒体应用程序,例如Facebook,Instagram,WhatsApp和Twitter,我们提取了原始传感器值以及$ 29 $主题的属性及其属性(类标签),例如年龄,性别,左/右/右/双手的应用使用情况。我们从原始信号中提取功能,并使用它们使用不同的机器学习(ML)算法进行分类。使用统计分析,我们显示了不同特征对类标签预测的重要性。最后,我们在数据上使用训练有素的ML模型来从UCI存储库中众所周知的活动识别数据中提取未知功能,该数据突出了使用ML模型的隐私漏洞的潜力。这种安全分析可以帮助研究人员将来采取适当的步骤来保护人类受试者的隐私。
translated by 谷歌翻译
COVID-19大流行的快速扩散导致SARS-COV-2基因组的序列数据量很大,数百万序列和计数。尽管超出传统方法的能力来理解病毒的多样性,动态和演变的能力,但这一数量的数量幅度仍然是机器学习(ML)方法的丰富资源(ML)作为从这些数据中提取此类重要信息的替代方法。因此,设计一个用于测试和基准测试这些ML模型的鲁棒性的框架至关重要。本文(据我们所知)首次努力通过使用错误模拟生物学序列来基准ML模型的鲁棒性。在本文中,我们介绍了几种方法来扰动SARS-COV-2基因组序列,以模仿普通测序平台(例如Illumina和pacbio)的误差曲线。我们从在各种ML模型上的实验中证明,对于某些特定的嵌入方法,某些基于仿真的方法比其他针对输入序列的对抗性攻击更健壮(和准确)。我们的基准测试框架可以帮助研究人员正确评估不同的ML模型,并帮助他们了解SARS-COV-2病毒的行为或避免未来可能的大流行。
translated by 谷歌翻译
Covid-19大流行,仍然是未知的,是一个重要的开放问题。有猜测蝙蝠是可能的起源。同样地,有许多密切相关的(电晕)病毒,例如SARS,发现通过练习圈传递。对潜在的载体和致命病毒发射器的不同主体的研究对于了解,减轻和预防当前和未来的流行性至关重要。在冠状病毒中,表面(S)蛋白或尖峰蛋白是确定宿主特异性的重要组成部分,因为它是病毒与宿主细胞膜之间的接触点。在本文中,我们将超过五千个冠状病毒的刺激蛋白序列分类,将它们分离成艾滋病,蝙蝠,骆驼,猪,人类和奶酪中明显宿主的集群,以命名几个。我们提出了一种基于众所周知的位置重量矩阵(PWM)的特征嵌入,我们呼叫PWM2VEC,并用于从这些冠状虫病毒的尖峰蛋白序列产生特征向量。虽然我们的嵌入受到PWMS在生物应用中的成功,例如确定蛋白质功能,或识别转录因子结合位点,但我们是在来自病毒序列的宿主分类的上下文中使用PWM的第一个(我们的知识)生成固定长度的特征矢量表示。现实世界数据的结果显示,与使用PWM2VEC,与基线模型相比,我们能够相当良好地执行。我们还使用信息增益来测量不同氨基酸的重要性,以显示对预测给定冠状病毒的宿主来说重要的氨基酸。
translated by 谷歌翻译
随着Covid-19的快速全球传播,越来越多的数据与该病毒有关正在变得可用,包括基因组序列数据。目前在GISAID等平台上公开可用的基因组序列总数是数百万,每天都在增加。此类\ EMPH {Big Data}的可用性为研究人员提供了详细研究该病毒的新机会。这对Covid-19变体的所有动态尤其重要,其出现并循环。这种丰富的数据源将为我们提供对这一和未来大流行威胁的最佳方式的最佳方法,具有减轻或消除此类威胁的最终目标。分析和处理数百万基因组序列是一个具有挑战性的任务。虽然证明了序列分类的传统方法是有效的,但它们不设计用于处理这些特定类型的基因组序列。此外,大多数现有方法也面临着可扩展性问题。以前的研究被定制成冠状病毒基因组数据,提出用于使用尖峰序列(对应于基因组的随后),而不是使用完整的基因组序列,以执行不同的机器学习(ML)任务,例如分类和聚类。但是,这些方法遭受可扩展性问题。在本文中,我们提出了一种称为Spike2VEC的方法,对于可以用于下游ML任务的每个尖峰序列,一种称为Spike2VEC,高效且可伸缩的特征向量表示。通过实验,我们表明Spike2VEC不仅可以在数百万秒峰序列上可扩展,而且在预测精度,F1分数等方面也优越基线模型。
translated by 谷歌翻译
特征提取是图分析中的重要任务。这些特征向量(称为图形描述符)用于基于下游矢量空间的图形分析模型。过去证明了这个想法,基于光谱的图形描述符提供了最新的分类准确性。但是,要计算有意义的描述符的已知算法不会扩展到大图,因为:(1)它们需要将整个图存储在内存中,并且(2)最终用户无法控制算法的运行时。在本文中,我们提出流算法以大约计算三个不同的图形描述符,以捕获图的基本结构。在边缘流上操作使我们避免将整个图存储在内存中,并控制样本大小使我们能够将算法的运行时间保持在所需的范围内。我们通过分析近似误差和分类精度来证明所提出的描述符的功效。我们的可扩展算法计算图形的描述符,并在几分钟之内具有数百万个边缘。此外,这些描述符得出的预测精度可与最新方法相当,但只能使用25%的记忆来计算。
translated by 谷歌翻译
Existing automated techniques for software documentation typically attempt to reason between two main sources of information: code and natural language. However, this reasoning process is often complicated by the lexical gap between more abstract natural language and more structured programming languages. One potential bridge for this gap is the Graphical User Interface (GUI), as GUIs inherently encode salient information about underlying program functionality into rich, pixel-based data representations. This paper offers one of the first comprehensive empirical investigations into the connection between GUIs and functional, natural language descriptions of software. First, we collect, analyze, and open source a large dataset of functional GUI descriptions consisting of 45,998 descriptions for 10,204 screenshots from popular Android applications. The descriptions were obtained from human labelers and underwent several quality control mechanisms. To gain insight into the representational potential of GUIs, we investigate the ability of four Neural Image Captioning models to predict natural language descriptions of varying granularity when provided a screenshot as input. We evaluate these models quantitatively, using common machine translation metrics, and qualitatively through a large-scale user study. Finally, we offer learned lessons and a discussion of the potential shown by multimodal models to enhance future techniques for automated software documentation.
translated by 谷歌翻译
In this paper, we reduce the complexity of approximating the correlation clustering problem from $O(m\times\left( 2+ \alpha (G) \right)+n)$ to $O(m+n)$ for any given value of $\varepsilon$ for a complete signed graph with $n$ vertices and $m$ positive edges where $\alpha(G)$ is the arboricity of the graph. Our approach gives the same output as the original algorithm and makes it possible to implement the algorithm in a full dynamic setting where edge sign flipping and vertex addition/removal are allowed. Constructing this index costs $O(m)$ memory and $O(m\times\alpha(G))$ time. We also studied the structural properties of the non-agreement measure used in the approximation algorithm. The theoretical results are accompanied by a full set of experiments concerning seven real-world graphs. These results shows superiority of our index-based algorithm to the non-index one by a decrease of %34 in time on average.
translated by 谷歌翻译
This paper proposes a novel self-supervised based Cut-and-Paste GAN to perform foreground object segmentation and generate realistic composite images without manual annotations. We accomplish this goal by a simple yet effective self-supervised approach coupled with the U-Net based discriminator. The proposed method extends the ability of the standard discriminators to learn not only the global data representations via classification (real/fake) but also learn semantic and structural information through pseudo labels created using the self-supervised task. The proposed method empowers the generator to create meaningful masks by forcing it to learn informative per-pixel as well as global image feedback from the discriminator. Our experiments demonstrate that our proposed method significantly outperforms the state-of-the-art methods on the standard benchmark datasets.
translated by 谷歌翻译
Machine learning models are typically evaluated by computing similarity with reference annotations and trained by maximizing similarity with such. Especially in the bio-medical domain, annotations are subjective and suffer from low inter- and intra-rater reliability. Since annotations only reflect the annotation entity's interpretation of the real world, this can lead to sub-optimal predictions even though the model achieves high similarity scores. Here, the theoretical concept of Peak Ground Truth (PGT) is introduced. PGT marks the point beyond which an increase in similarity with the reference annotation stops translating to better Real World Model Performance (RWMP). Additionally, a quantitative technique to approximate PGT by computing inter- and intra-rater reliability is proposed. Finally, three categories of PGT-aware strategies to evaluate and improve model performance are reviewed.
translated by 谷歌翻译