In the field of antibody engineering, an essential task is to design a novel antibody whose paratopes bind to a specific antigen with correct epitopes. Understanding antibody structure and its paratope can facilitate a mechanistic understanding of its function. Therefore, antibody structure prediction from its sequence alone has always been a highly valuable problem for de novo antibody design. AlphaFold2, a breakthrough in the field of structural biology, provides a solution to predict protein structure based on protein sequences and computationally expensive coevolutionary multiple sequence alignments (MSAs). However, the computational efficiency and undesirable prediction accuracy of antibodies, especially on the complementarity-determining regions (CDRs) of antibodies limit their applications in the industrially high-throughput drug design. To learn an informative representation of antibodies, we employed a deep antibody language model (ALM) on curated sequences from the observed antibody space database via a transformer model. We also developed a novel model named xTrimoABFold to predict antibody structure from antibody sequence based on the pretrained ALM as well as efficient evoformers and structural modules. The model was trained end-to-end on the antibody structures in PDB by minimizing the ensemble loss of domain-specific focal loss on CDR and the frame-aligned point loss. xTrimoABFold outperforms AlphaFold2 and other protein language model based SOTAs, e.g., OmegaFold, HelixFold-Single, and IgFold with a large significant margin (30+\% improvement on RMSD) while performing 151 times faster than AlphaFold2. To the best of our knowledge, xTrimoABFold achieved state-of-the-art antibody structure prediction. Its improvement in both accuracy and efficiency makes it a valuable tool for de novo antibody design and could make further improvements in immuno-theory.
translated by 谷歌翻译
基于AI的蛋白质结构预测管道(例如AlphaFold2)已达到了几乎实验的准确性。这些高级管道主要依赖于多个序列比对(MSA)和模板作为输入来从同源序列中学习共进化信息。但是,从蛋白质数据库中搜索MSA和模板很耗时,通常需要数十分钟。因此,我们尝试通过仅使用蛋白质的主要序列来探索快速蛋白质结构预测的极限。提出了Helixfold单一的形式将大规模蛋白质语言模型与AlphaFold2的优质几何学习能力相结合。我们提出的方法,Helixfold单个,首先预先培训是一种大规模蛋白质语言模型(PLM),使用了数以千计的主要序列利用自我监督的学习范式,将用作MSA和模板的替代方法共同进化信息。然后,通过将预训练的PLM和AlphaFold2的必需组件组合在一起,我们获得了一个端到端可区分模型,以仅从主要序列预测原子的3D坐标。 Helixfold-Single在数据集CASP14和Cameo中得到了验证,通过基于MSA的方法,具有大型同源家庭的基于MSA的方法,从而实现了竞争精度。此外,与主流管道进行蛋白质结构预测相比,Helixfold单个的时间比主流管道的时间少得多,这表明其在需要许多预测的任务中的潜力。 HelixFold-Single的守则可在https://github.com/paddlepaddle/paddlehelix/tree/dev/dev/pprotein_folding/helixfold-single上获得,我们还在https://paddlehelix.baidu.com上提供稳定的Web服务。 /app/drug/protein-single/prevast。
translated by 谷歌翻译
图形神经网络(GNNS)可以使用深度学习对图进行分析,并在图中捕获结构化信息的结果有希望的结果。本文着重于创建一个小图来表示原始图,以便在尺寸降低的图上训练的GNN可以做出准确的预测。我们将原始图视为接收场的分布,并旨在合成一个小图,其接受场具有相似的分布。因此,我们通过接受场分布匹配(GCDM)提出了图形屈服,该图是通过使用最大平均差异(MMD)量化的分布匹配损耗来优化合成图来完成的。此外,我们证明了GCDM生成的合成图在评估阶段高度概括为各种模型,并且使用此框架可显着提高冷凝速度。
translated by 谷歌翻译
关键字斑点(KWS)旨在将特定的唤醒单词与其他信号区分开,以精确有效地为不同的用户区分。最近的工作利用各种深层网络来培训KWS模型,并以所有用户的语音数据集中培训,而无需考虑数据隐私。联合KWS(FEDKW)可以作为解决方案而无需直接共享用户的数据。但是,少量数据,不同的用户习惯和各种口音可能导致致命问题,例如过度拟合或体重差异。因此,我们提出了几种策略,以鼓励该模型不要过度适合FEDKW中的用户特定信息。具体而言,我们首先提出了一种对抗性学习策略,该策略会根据适合过度的本地模型更新下载的全局模型,并明确鼓励全球模型捕获用户不变的信息。此外,我们提出了一种自适应的本地培训策略,让客户拥有更多的培训数据和更多统一的班级分布执行更多的本地更新步骤。同等地,这种策略可以削弱那些数据较少资格的用户的负面影响。我们提出的fedkws-UI可以在FEDKWS中明确和隐含地学习用户不变信息。对联邦Google语音命令的大量实验结果验证了FEDKWS-UI的有效性。
translated by 谷歌翻译
图神经网络〜(GNNS)是用于图表学习的有效工具。大多数GNN依靠递归邻里聚合方案,称为消息传递,因此其理论表达力仅限于第一阶Weisfeiler-Lehman测试(1-WL)。受到基于检索的模型和现成的高性能检索系统的成功的激励,我们提出了一种称为GraphRetReval的非参数和模型 - 敏捷方案,以增强现有的GNN模型。在GraphRetRieval中,与其地面真实标签相关的类似训练图被检索为可以与输入图表示共同利用的增强功能,以完成各种图形属性预测任务。特别是,为了有效地从检索的图中“吸收”有用的信息,并“忽略”可能的噪声,我们引入了基于自我注意的适配器,以明确了解输入图与其检索到的类似图之间的相互作用。通过在12个不同的数据集上尝试三个经典的GNN模型,我们证明了GraphRetReval能够为现有GNN模型带来实质性改进,而无需包括模型大小和预测效率。我们的工作还首先验证了检索增强图神经网络的可行性和有效性。
translated by 谷歌翻译
弱监督指定的实体识别方法训练标签模型,以汇总多个嘈杂标签功能(LFS)的代币注释,而无需看到任何手动注释的标签。为了正常工作,标签模型需要在上下文上识别和强调表现出色的LF,同时降低表现不佳的情况。但是,由于缺乏地面真理,评估LFS是具有挑战性的。为了解决这个问题,我们提出了稀疏条件隐藏的马尔可夫模型(稀疏-CHMM)。稀疏-CHMM并没有将整个发射矩阵视为其他基于HMM的方法,而是专注于估计其对角线元素,这些元素被认为是LFS的可靠性得分。然后将稀疏分数扩展到具有预定义膨胀函数的全面发射矩阵。我们还通过加权XOR分数来增强发射,该分数跟踪LF观察不正确实体的概率。通过三阶段的训练管道通过无监督的学习来优化稀疏-CHMM,从而降低了训练难度并防止模型落入本地Optima。与扳手基准中的基线相比,稀疏-CHMM在五个综合数据集上取得了3.01的平均F1分数提高。实验表明,稀疏-CHMM的每个组件都是有效的,估计的LF可靠性与真实LF F1分数密切相关。
translated by 谷歌翻译
我们考虑在离线域中的强化学习(RL)方法,没有其他在线数据收集,例如移动健康应用程序。计算机科学文献中的大多数现有策略优化算法都是在易于收集或模拟的在线设置中开发的。通过预采用的离线数据集,它们对移动健康应用程序的概括尚不清楚。本文的目的是开发一个新颖的优势学习框架,以便有效地使用预采用的数据进行策略优化。所提出的方法采用由任何现有的最新RL算法计算的最佳Q-估计器作为输入,并输出一项新策略,其价值比基于初始Q-得出的策略更快地收敛速度。估计器。进行广泛的数值实验以支持我们的理论发现。我们提出的方法的Python实现可在https://github.com/leyuanheart/seal上获得。
translated by 谷歌翻译
据报道,传感器嵌入式手套系统需要仔细,耗时和精确的校准,以获得一致的可用数据。我们已经开发出低成本,基于Flex传感器的智能手套系统,可能是对数据手套的共同限制的弹性。该系统利用Arduino基础的微控制器以及每个手指上的单个柔性传感器。从Arduinos模拟到数字转换器的反馈可用于推断对象尺寸特性,每个单独的手指的反应相对于掌握物体的尺寸和形状不同。在这项工作中,我们在统计上区分了不同的半径的统计差异的静止物体,无论手套用户引入的变化如何。使用我们的传感器嵌入式手套系统,我们根据智能手套的每根手指的触觉传感器响应探索了物体分类的实用性。从五个手指平均柔性传感器读数中的每一个计算平均值的估计标准误差。与文献一致,我们发现物体形状,尺寸和柔性传感器读数之间存在系统的依赖性。当比较相同半径的球形和圆柱形物体时,从至少一个手指输出的传感器从至少一个手指输出。当传感各种尺寸的球体和气缸时,所有五个手指对每个形状具有明显不同的反应。我们认为,我们的发现可以用于机器学习模型,用于实时对象识别。
translated by 谷歌翻译
节点之间有序序列的动态图在现实世界的工业应用中普遍存在电子商务和社交平台中。然而,由于数据的时间和结构依赖性和不规则性,因此,对动态图表的表示学习已经提出了很大的计算挑战,防止这些模型部署到现实世界的应用程序。为了解决这一挑战,我们提出了一种有效的算法,有效的动态图学习(边缘),它通过训练丢失选择性地表达某些时间依赖性,以改善计算中的并行性。我们展示了边缘可以扩展到数百万节点的动态图形,数亿个时间事件,实现新的最先进的(SOTA)性能。
translated by 谷歌翻译
优化所需特性的化学分子在于药物发育的核心。尽管深度生成模型和加强学习方法进行了初步成功,但这些方法主要受到预定义属性函数或通过手动预编译的原始和优化分子的并行数据的限制。在本文中,我们首次制定了作为样式转移问题的分子优化,并提出了一种新的生成模型,可以通过对抗训练策略自动学习两组非并行数据之间的内部差异。我们的模型通过组合辅助引导变分自身额和生成流动技术,可以通过组合辅助引导变分自动化器和经常性流动技术来保存分子内容和分子特性的优化。两种分子优化任务的实验,毒性修饰和合成性改进,证明我们的模型显着优于几种最先进的方法。
translated by 谷歌翻译