估计到达时间(ETA)预测时间(也称为旅行时间估计)是针对各种智能运输应用程序(例如导航,路线规划和乘车服务)的基本任务。为了准确预测一条路线的旅行时间,必须考虑到上下文和预测因素,例如空间 - 周期性的互动,驾驶行为和交通拥堵传播的推断。先前在百度地图上部署的ETA预测模型已经解决了时空相互作用(constgat)和驾驶行为(SSML)的因素。在这项工作中,我们专注于建模交通拥堵传播模式以提高ETA性能。交通拥堵的传播模式建模具有挑战性,它需要考虑到随着时间的推移影响区域的影响区域,以及延迟变化随时间变化的累积影响,这是由于道路网络上的流量事件引起的。在本文中,我们提出了一个实用的工业级ETA预测框架,名为Dueta。具体而言,我们基于交通模式的相关性构建了一个对拥堵敏感的图,并开发了一种路线感知图形变压器,以直接学习路段的长距离相关性。该设计使Dueta能够捕获空间遥远但与交通状况高度相关的路段对之间的相互作用。广泛的实验是在从百度地图收集的大型现实世界数据集上进行的。实验结果表明,ETA预测可以从学习的交通拥堵传播模式中显着受益。此外,Dueta已经在Baidu Maps的生产中部署,每天都有数十亿个请求。这表明Dueta是用于大规模ETA预测服务的工业级和强大的解决方案。
translated by 谷歌翻译
分子财产预测是药物和材料行业的基本任务。从物理上讲,分子的特性取决于其自身的电子结构,可以通过schr \“ odinger方程来精确描述。但是,由于大多数分子的求解schr \“ odinger”方程非常具有挑战性量子多体系统的行为。虽然已证明深度学习方法在分子性质预测中有效,但我们设计了一种新颖的方法,即GEM-2,它全面考虑了分子中的远距离和多体相互作用。 GEM-2由两个相互作用的轨道组成:一个原子级轨道模拟任意两个原子之间的局部和全局相关性,以及一个对所有原子对之间的相关性建模的成对轨道,它们嵌入任何3或4个原子之间的信息。广泛的实验证明了GEM-2在量子化学和药物发现任务中的多种基线方法的优越性。
translated by 谷歌翻译
基于AI的蛋白质结构预测管道(例如AlphaFold2)已达到了几乎实验的准确性。这些高级管道主要依赖于多个序列比对(MSA)和模板作为输入来从同源序列中学习共进化信息。但是,从蛋白质数据库中搜索MSA和模板很耗时,通常需要数十分钟。因此,我们尝试通过仅使用蛋白质的主要序列来探索快速蛋白质结构预测的极限。提出了Helixfold单一的形式将大规模蛋白质语言模型与AlphaFold2的优质几何学习能力相结合。我们提出的方法,Helixfold单个,首先预先培训是一种大规模蛋白质语言模型(PLM),使用了数以千计的主要序列利用自我监督的学习范式,将用作MSA和模板的替代方法共同进化信息。然后,通过将预训练的PLM和AlphaFold2的必需组件组合在一起,我们获得了一个端到端可区分模型,以仅从主要序列预测原子的3D坐标。 Helixfold-Single在数据集CASP14和Cameo中得到了验证,通过基于MSA的方法,具有大型同源家庭的基于MSA的方法,从而实现了竞争精度。此外,与主流管道进行蛋白质结构预测相比,Helixfold单个的时间比主流管道的时间少得多,这表明其在需要许多预测的任务中的潜力。 HelixFold-Single的守则可在https://github.com/paddlepaddle/paddlehelix/tree/dev/dev/pprotein_folding/helixfold-single上获得,我们还在https://paddlehelix.baidu.com上提供稳定的Web服务。 /app/drug/protein-single/prevast。
translated by 谷歌翻译
准确的蛋白质结构预测可以显着加速生命科学的发展。 Alphafold2的准确性是边界端到端结构预测系统,已经接近实验确定技术的准确性。由于复杂的模型体系结构和大量的内存消耗,因此需要大量的计算资源和时间来实施从头开始实施Alphafold2的训练和推断。对于大多数个人和机构来说,运行原始AlphaFold2的成本都是昂贵的。因此,降低这一成本可以加速生命科学的发展。我们使用PaddlePaddle(即HelixFold)实现Alphafold2,以提高训练和推理速度并减少记忆消耗。操作员融合,张量融合和混合并行性计算改善了性能,而通过重新计算,BFLOAT16和内存读/写入/编写就场,内存进行了优化。与原始的Alphafold2(由JAX实施)和OpenFold(由Pytorch实施)相比,HelixFold仅需7.5天即可完成完整的端到端培训,并且在使用Hybrid ParalleleSism时只需要5.3天,而Alphafold2和OpenFold都可以使用11个。天。 Helixfold节省了1倍的训练时间。我们验证了HelixFold的准确性可能与CASP14和CAMAO数据集上的Alphafold2相当。 HelixFold的代码可免费下载:https://github.com/paddlepaddle/paddlehelix/paddlehelix/tree/dev/dev/pprotein_folding/helixfold,我们还在https://paddlehelix.baidu.com/com上提供稳定的Web服务。应用程序/药物/蛋白质/预测。
translated by 谷歌翻译
由于肿瘤的异质性,在个性化的基础上预测抗癌药物的临床结局在癌症治疗中具有挑战性。已经采取了传统的计算努力来建模药物反应对通过其分子概况描绘的单个样品的影响,但由于OMICS数据的高维度而发生过度拟合,因此阻碍了临床应用的模型。最近的研究表明,深度学习是通过学习药物和样品之间的学习对准模式来建立药物反应模型的一种有前途的方法。但是,现有研究采用了简单的特征融合策略,仅考虑了整个药物特征,同时忽略了在对齐药物和基因时可能起着至关重要的作用的亚基信息。特此在本文中,我们提出了TCR(基于变压器的癌症药物反应网络),以预测抗癌药物反应。通过利用注意机制,TCR能够在我们的研究中有效地学习药物原子/子结构和分子特征之间的相互作用。此外,设计了双重损耗函数和交叉抽样策略,以提高TCR的预测能力。我们表明,TCR在所有评估矩阵上(一些具有显着改进)的各种数据分裂策略下优于所有其他方法。广泛的实验表明,TCR在独立的体外实验和体内实际患者数据上显示出显着提高的概括能力。我们的研究强调了TCR的预测能力及其对癌症药物再利用和精度肿瘤治疗的潜在价值。
translated by 谷歌翻译
以时间序列形式出现的信号测量是医疗机学习应用中使用的最常见数据类型之一。但是,这样的数据集通常很小,使深度神经网络体系结构的培训无效。对于时间序列,我们可以用来扩展数据集大小的数据增强技巧套件受到维护信号的基本属性的限制。生成对抗网络(GAN)生成的数据可以用作另一个数据增强工具。基于RNN的GAN遭受了这样一个事实,即它们无法有效地模拟具有不规则时间关系的长序列数据点。为了解决这些问题,我们介绍了TTS-GAN,这是一种基于变压器的GAN,可以成功生成与实际长度相似的任意长度的现实合成时间序列数据序列。 GAN模型的生成器和鉴别网络均使用纯变压器编码器体系结构构建。我们使用可视化和降低降低技术来证明真实和生成的时间序列数据的相似性。我们还将生成数据的质量与最佳现有替代方案进行了比较,即基于RNN的时间序列GAN。
translated by 谷歌翻译
蛋白质 - 蛋白质相互作用(PPI)对于许多生物过程至关重要,其中两种或更多种蛋白质物理地结合在一起以实现其功能。建模PPI对许多生物医学应用有用,例如疫苗设计,抗体治疗和肽药物发现。预先训练蛋白质模型以学习有效的代表对于PPI至关重要。对于PPI的大多数预训练模型是基于序列的,这是基于序列的,该模型是基于氨基酸序列的自然语言处理中使用的语言模型。更先进的作品利用结构感知的预训练技术,利用已知蛋白质结构的联系地图。然而,既不是序列和联系地图都可以完全表征蛋白质的结构和功能,这与PPI问题密切相关。灵感来自这种洞察力,我们提出了一种具有三种方式的多模式蛋白质预训练模型:序列,结构和功能(S2F)。值得注意的是,而不是使用联系地图来学习氨基酸水平刚性结构,而是用重度原子的点云的拓扑复合物编码结构特征。它允许我们的模型不仅仅是基于底部的结构信息,还可以了解侧链。此外,我们的模型包括从文献或手动注释中提取的蛋白质的功能描述中的知识。我们的实验表明,S2F学习蛋白质嵌入物,在包括各种PPI,包括跨物种PPI,抗体 - 抗原亲和预测,抗体中和对SARS-COV-2的抗体中和预测的蛋白质嵌入,以及突变驱动的结合亲和力变化预测。
translated by 谷歌翻译
与准确性和计算成本具有密切关系的图像分辨率在网络培训中发挥了关键作用。在本文中,我们观察到缩小图像保留相对完整的形状语义,但是失去了广泛的纹理信息。通过形状语义的一致性和纹理信息的脆弱的启发,我们提出了一个名为时间性解决方案递减的新颖培训策略。其中,我们在时域中随机将训练图像降低到较小的分辨率。在使用缩小图像和原始图像的替代训练期间,图像中的不稳定纹理信息导致纹理相关模式与正确标签之间的相关性较弱,自然强制执行模型,以更多地依赖于稳健的形状属性。符合人类决策规则。令人惊讶的是,我们的方法大大提高了卷积神经网络的计算效率。在Imagenet分类上,使用33%的计算量(随机将培训图像随机降低到112 $ \倍112美元)仍然可以将resnet-50从76.32%提高到77.71%,并使用63%的计算量(随机减少在50%时期的训练图像到112 x 112)可以改善resnet-50至78.18%。
translated by 谷歌翻译
有效地发现满足各种性能要求的分子可以显着受益药物发现行业。由于搜索整个化学空间是不可行的,因此最近的作品采用了用于目标定向分子产生的生成模型。它们倾向于利用迭代过程,优化每次迭代时的分子发生模型的参数,以产生有望的分子以进一步验证。利用评估来评估每次迭代的产生的分子,为模型优化提供方向。然而,最先前的作品需要大量的昂贵且耗时的评估,例如湿法实验和分子动态模拟,导致缺乏实用性。为了减少迭代过程中的评估,我们提出了一种在潜在空间中的成本效益的演化策略,其优化了分子潜在载波。我们采用预先训练的分子生成模型来映射潜伏和观察空间,利用大规模未标记的分子来学习化学知识。为了进一步减少昂贵的评估数量,我们将一个筛选器预先介绍为评估的代理。我们对多种优化任务进行了广泛的实验,将建议的框架与几种先进技术进行比较,表明所提出的框架更好地实现了更好的评估。
translated by 谷歌翻译
牡蛎是海洋的活真空吸尘器。由于过度收获,牡蛎人口呈指数下降。随着自动化和AI的当前发展,机器人正成为环境监测过程中不可或缺的一部分,该过程也可以用于牡蛎礁保存。然而,水下环境构成了许多困难,包括实用的危险和耗时的操作以及技术观点 - 扭曲的感知和不可靠的导航。为此,我们提出了一个模拟环境,可用于改善牡蛎礁监测。模拟环境可用于创建具有多个传感器数据和远程操作车辆(ROV)的地面真相位置的照片真实的图像数据集。当前,没有用于牡蛎礁监视的照片真实图像数据集。因此,我们希望为水下社区提供新的基准套件。
translated by 谷歌翻译