Deep learning has been widely used for protein engineering. However, it is limited by the lack of sufficient experimental data to train an accurate model for predicting the functional fitness of high-order mutants. Here, we develop SESNet, a supervised deep-learning model to predict the fitness for protein mutants by leveraging both sequence and structure information, and exploiting attention mechanism. Our model integrates local evolutionary context from homologous sequences, the global evolutionary context encoding rich semantic from the universal protein sequence space and the structure information accounting for the microenvironment around each residue in a protein. We show that SESNet outperforms state-of-the-art models for predicting the sequence-function relationship on 26 deep mutational scanning datasets. More importantly, we propose a data augmentation strategy by leveraging the data from unsupervised models to pre-train our model. After that, our model can achieve strikingly high accuracy in prediction of the fitness of protein mutants, especially for the higher order variants (> 4 mutation sites), when finetuned by using only a small number of experimental mutation data (<50). The strategy proposed is of great practical value as the required experimental effort, i.e., producing a few tens of experimental mutation data on a given protein, is generally affordable by an ordinary biochemical group and can be applied on almost any protein.
translated by 谷歌翻译
准确,快速的双核细胞(BC)检测在预测白血病和其他恶性肿瘤的风险中起着重要作用。但是,手动显微镜计数是耗时的,缺乏客观性。此外,由于bc显微镜整体幻灯片图像(WSIS)的染色质量和多样性的限制,传统的图像处理方法是无助的。为了克服这一挑战,我们提出了一种基于深度学习的结构启发的两阶段检测方法,该方法是基于深度学习的,该方法是在斑块级别的WSI-Level和细粒度分类处实施BCS粗略检测的级联。粗糙检测网络是基于用于细胞检测的圆形边界框的多任务检测框架,以及用于核检测的中心关键点。圆的表示降低了自由度,与通常的矩形盒子相比,减轻周围杂质的影响,并且在WSI中可能是旋转不变的。检测细胞核中的关键点可以帮助网络感知,并在后来的细粒分类中用于无监督的颜色层分割。精细的分类网络由基于颜色层掩模的监督和基于变压器的关键区域选择模块组成的背景区域抑制模块,其全局建模能力。此外,首先提出了无监督和未配对的细胞质发生器网络来扩展长尾分配数据集。最后,在BC多中心数据集上进行实验。拟议的BC罚款检测方法在几乎所有评估标准中都优于其他基准,从而为诸如癌症筛查等任务提供了澄清和支持。
translated by 谷歌翻译
正如最近的作品中观察到的那样,通信图神经网络(GNN)中信号传播的质量强烈影响其表现力。特别是,对于依靠远程相互作用的预测任务,节点特征的递归聚合可能导致不希望的现象称为“过句”。我们提出了一个基于信息收缩的分析过度句子的框架。我们的分析以可靠计算的模型为指导,该模型由于冯·诺伊曼(Von Neumann),该模型在嘈杂的计算图中提供了新的洞察力作为信号淬灭的新见解。在此基础上,我们提出了一个旨在减轻过度量化的算法的图形。我们的算法采用了由扩展器图构造动机的随机局部边缘翻转原始的。我们将算法的光谱膨胀特性与现有基于曲率的非本地重新布线策略的光谱膨胀属性进行了比较。合成实验表明,尽管我们的算法通常具有较慢的膨胀速率,但总体计算更便宜,可以准确地保留节点度,并且永远不会断开图表的连接。
translated by 谷歌翻译
本文为旋转组开发了旋转不变的阵阵卷积,因此(3)可以提炼球形信号的多尺度信息。球形的阵头变换从$ \ mathbb {s}^2 $推广到SO(3)组,该组通过一组紧密的Framelet操作员将球形信号分解为近似和详细的光谱系数。分解和重建过程中的球形信号实现了旋转不变性。基于阵型变换,我们形成了一个带有多个SO(3)一面卷积层的NEDLET近似均值球形CNN(NES)。该网络建立了一个强大的工具,可以提取球形信号的几何不变特征。该模型允许具有多分辨率表示的足够网络可伸缩性。通过小波收缩激活函数学习了强大的信号嵌入,该函数会过滤冗余高通表示,同时保持近似旋转不变性。 NES实现了量子化学回归和宇宙微波背景(CMB)的最新性能,删除重建,这显示了通过高分辨率和多尺度球形信号表示解决科学挑战的巨大潜力。
translated by 谷歌翻译
Gigapixel Medical图像提供了大量的数据,包括形态学纹理和空间信息。由于组织学的数据量表较大,​​深度学习方法作为特征提取器起着越来越重要的作用。现有的解决方案在很大程度上依赖卷积神经网络(CNN)进行全局像素级分析,从而使潜在的局部几何结构(例如肿瘤微环境中的细胞之间的相互作用均未探索。事实证明,医学图像中的拓扑结构与肿瘤进化密切相关,可以很好地表征图。为了获得下游肿瘤学任务的更全面的表示,我们提出了一个融合框架,以增强CNN捕获的全局图像级表示,并使用图形神经网络(GNN)学习的细胞级空间信息的几何形状。融合层优化了全局图像和单元图的协作特征之间的集成。已经开发了两种融合策略:一种具有MLP的融合策略,这很简单,但通过微调而有效,而Transformer获得了融合多个网络的冠军。我们评估了从大型患者群体和胃癌策划的组织学数据集中的融合策略,以完成三个生物标志物预测任务。两种型号的表现都优于普通CNN或GNN,在各种网络骨架上达到了超过5%的AUC提高。实验结果在医学图像分析中将图像水平的形态特征与细胞空间关系相结合的必要性。代码可在https://github.com/yiqings/hegnnenhancecnn上找到。
translated by 谷歌翻译
神经消息传递是用于图形结构数据的基本功能提取单元,它考虑了相邻节点特征在网络传播中从一层到另一层的影响。我们通过相互作用的粒子系统与具有吸引力和排斥力的相互作用粒子系统以及在相变建模中产生的艾伦 - 卡恩力进行建模。该系统是一个反应扩散过程,可以将颗粒分离为不同的簇。这会导致图形神经网络的艾伦 - 卡恩消息传递(ACMP),其中解决方案的数值迭代构成了消息传播。 ACMP背后的机制是颗粒的相变,该颗粒能够形成多群集,从而实现GNNS预测进行节点分类。 ACMP可以将网络深度推向数百个层,理论上证明了严格的dirichlet能量下限。因此,它提供了GNN的深层模型,该模型避免了GNN过度厚度的常见问题。具有高均匀难度的各种实际节点分类数据集的实验表明,具有ACMP的GNN可以实现最先进的性能,而不会衰减Dirichlet Energy。
translated by 谷歌翻译
图表神经网络(GNNS)在各种机器学习任务中获得了表示学习的提高。然而,应用邻域聚合的大多数现有GNN通常在图中的图表上执行不良,其中相邻的节点属于不同的类。在本文中,我们示出了在典型的异界图中,边缘可以被引导,以及是否像是处理边缘,也可以使它们过度地影响到GNN模型的性能。此外,由于异常的限制,节点对来自本地邻域之外的类似节点的消息非常有益。这些激励我们开发一个自适应地学习图表的方向性的模型,并利用潜在的长距离相关性节点之间。我们首先将图拉普拉斯概括为基于所提出的特征感知PageRank算法向数字化,该算法同时考虑节点之间的图形方向性和长距离特征相似性。然后,Digraph Laplacian定义了一个图形传播矩阵,导致一个名为{\ em diglaciangcn}的模型。基于此,我们进一步利用节点之间的通勤时间测量的节点接近度,以便在拓扑级别上保留节点的远距离相关性。具有不同级别的10个数据集的广泛实验,同意级别展示了我们在节点分类任务任务中对现有解决方案的有效性。
translated by 谷歌翻译
随着从现实世界所收集的图形数据仅仅是无噪声,图形的实际表示应该是强大的噪声。现有的研究通常侧重于特征平滑,但留下几何结构不受影响。此外,大多数工作需要L2-Norm,追求全局平滑度,这限制了图形神经网络的表现。本文根据特征和结构噪声裁定图表数据的常规程序,其中目标函数用乘法器(ADMM)的交替方向方法有效地解决。该方案允许采用多个层,而无需过平滑的关注,并且保证对最佳解决方案的收敛性。实证研究证明,即使在重大污染的情况下,我们的模型也与流行的图表卷积相比具有明显更好的性能。
translated by 谷歌翻译
商业自主机器是一个蓬勃发展的扇区,它可能是下一个无处不在的计算平台,它是在个人计算机(PC),云计算和移动计算之后的。然而,缺少适用于自动机器的合适计算基板,许多公司被迫开发既不原则也不可扩展的临时计算解决方案。通过分析自动机器计算的需求,本文提出了数据流加速器体系结构(DAA),这是经典数据流原理的现代实例化,与自动机器软件的特性相匹配。
translated by 谷歌翻译
视频异常检测(VAD)在视频分析中一直是一个重要的主题。由于异常往往很少,它通常在半监督设置下解决,这需要使用纯正普通视频进行培训。为了避免疲惫的手动标签,我们受到人类感知异常的启发,并提出了一种使无人监督和端到端的VAD能够的主体框架。该框架基于两个关键观察:1)人类感知通常是局部的,即在感应异常时聚焦在局部前景及其背景下。因此,我们建议通过用通用知识定位前景,并设计一个区域本地化策略来利用本地背景。 2)经常发生的事件将塑造人类的常态定义,这激励我们设计了代理培训范式。它列举了一个深度神经网络(DNN)来学习使用未标记的视频的代理任务,并且经常发生的事件将在“模制”DNN中发挥主导作用。通过这种方式,培训损失差距将自动表现出很少看到的新颖事件作为异常。为了实施,我们探索各种代理任务以及经典和新兴DNN模型。对常用VAD基准的广泛评估使框架适用于不同代理任务或DNN模型,并证明其惊人的效果:它不仅优于现有的无监督解决方案,宽边值(8%至10%的AUROC增益),还达到了对最先进的半监督对手进行了可比或甚至卓越的性能。
translated by 谷歌翻译