蛋白质 - 蛋白质相互作用(PPI)对正常细胞功能至关重要,并且与许多疾病途径有关。然而,只有4%的PPI用PTMS在诸如完整的生物知识数据库中的PTM,主要通过手动策策进行,这既不是时间也不是成本效益。我们使用完整的PPI数据库创建具有交互蛋白对,它们相应的PTM类型和来自PubMed数据库的相关摘要注释的远程监督数据集。我们训练Biobert Models的一组合 - 配音PPI-Biobert-X10,以提高置信度校准。我们利用集合平均置信度方法的使用,置信范围抵消了类别不平衡提取高信任预测的影响。在测试集上评估的PPI-BIOBERT-X10模型导致适用的F1-MICRO 41.3(P = 5 8.1,R = 32.1)。然而,通过结合高信心和低变化来识别高质量的预测,调整精度预测,我们保留了100%精度的19%的测试预测。我们评估了1800万PubMed摘要的PPI-Biobert-X10,提取了160万(546507个独特的PTM-PPI三联网)PTM-PPI预测,并过滤〜5700(4584个独一无二)的高信心预测。在5700中,对于小型随机采样的子集进行人体评估表明,尽管置信度校准,精度降至33.7%,并突出了即使在置信度校准的情况下超出了测试集中的最长途的挑战。我们仅包括与多个论文相关的预测的问题来规避问题,从而将精确提高到58.8%。在这项工作中,我们突出了深入学习的文本挖掘在实践中的利益和挑战,并且需要增加对置信校准的强调,以促进人类策划努力。
translated by 谷歌翻译
动机:蛋白质 - 蛋白质相互作用(PPI)对正常和患病细胞中蛋白质的功能至关重要,并且许多关键蛋白质功能通过相互作用介导。这些相互作用的性质是对网络建设来分析生物学的重要性数据。然而,在蛋白质相互作用数据库中仅捕获的小百分比PPI具有可用功能的注释,例如:只有4%的PPI在完整数据库中有功能注释。在这里,我们的目标是通过提取PubMed摘要中描述的关系来标记PPI的功能类型类型。方法:我们从完整的PPI数据库中创建一个弱监督数据集,其中包含具有带有注释功能的交互蛋白对和来自PubMed数据库的相关摘要。我们为生物医学自然语言处理任务,Biobert应用了最先进的深度学习技术,以构建模型 - 配音PPI-Biobert - 用于识别PPI的功能。为了大规模提取高质量的PPI功能,我们使用PPI-Biobert模型的集合来改善不确定性估计,并应用特定类型特定的阈值以抵消每个交互类型的训练样本数量的变化的影响。结果:我们扫描1800万PubMed摘要,自动鉴定3253个新的类型的PPI,包括磷酸化和乙酰化相互作用,基于人类审查的样品,整体精度为46%(乙酰化87%)。这项工作表明,PPI函数提取的生物医学摘要分析是一种可行的方法,可以基本上增加在在线数据库中捕获的功能的互动的互动次数。
translated by 谷歌翻译
在确定最佳方法,机器学习或统计建模时,数据科学家和统计学家往往是赔率,以解决分析挑战。然而,机器学习和统计学建模比分析战场的不同侧面的对手更多。选择两种方法或在某些情况下使用两种情况都基于要解决的问题和所需的结果以及可用于使用的数据和分析的情况。基于类似的数学原理,机器学习和统计建模是互补的,但只需在整体分析知识库中使用不同的工具。确定主要方法应该基于要解决的问题以及经验证据,例如数据的尺寸和完整性,变量数,其假设或缺乏,以及预期的结果,例如预测或因果关系。良好的分析师和数据科学家应该在这两种技术和适当的应用中进行精通,从而使用正确的工具来实现所需的结果。
translated by 谷歌翻译
在过去几年中,无监督的学习取得了很大的进展,特别是通过对比的自我监督学习。用于基准测试自我监督学习的主导数据集已经想象,最近的方法正在接近通过完全监督培训实现的性能。然而,ImageNet DataSet在很大程度上是以对象为中心的,并且目前尚不清楚这些方法的广泛不同的数据集和任务,这些方法是非以对象为中心的,例如数字病理学。虽然自我监督的学习已经开始在这个领域探讨了令人鼓舞的结果,但有理由看起来更接近这个环境与自然图像和想象成的不同。在本文中,我们对组织病理学进行了对比学学习的深入分析,引脚指向对比物镜的表现如何不同,由于组织病理学数据的特征。我们提出了一些考虑因素,例如对比目标和超参数调整的观点。在大量的实验中,我们分析了组织分类的下游性能如何受到这些考虑因素的影响。结果指出了对比学习如何减少数字病理中的注释工作,但需要考虑特定的数据集特征。为了充分利用对比学习目标,需要不同的视野和超参数校准。我们的结果为实现组织病理学应用的自我监督学习的全部潜力铺平了道路。
translated by 谷歌翻译
由于筛选乳房X线照片的假阴性评估,通常在晚期检测到与其他癌症更差的间隔和大型侵入性乳腺癌。错过的筛选时间检测通常由其周围乳腺组织模糊的肿瘤引起的,这是一种称为掩蔽的现象。为了研究和基准爆发癌症的乳房Xmmpare掩蔽,在这项工作中,我们引入CSAW-M,最大的公共乳房数据集,从10,000多个人收集并用潜在的掩蔽注释。与以前的方法对比测量乳房图像密度作为代理的方法,我们的数据集直接提供了五个专家屏蔽潜在评估的注释。我们还培训了CSAW-M的深入学习模型来估计掩蔽水平,并显示估计的掩蔽更加预测筛查患有间隔和大型侵入性癌症的参与者 - 而不是明确培训这些任务 - 而不是其乳房密度同行。
translated by 谷歌翻译
高维领域的数据经常在许多学科中自然地或由于初步处理而产生并且可以具有需要理解的复杂依赖结构。我们开发了对预计的正态分布的探索性因子分析,以解释使用少数容易解释的潜在因子来解释这些数据的可变性。我们的方法通过新颖的快速交替期望简档条件最大化算法提供了最大似然估计。结果仿真实验在各种环境中均匀优异。我们的方法在2018年12月初使用$ \#Metoo $哈希特方式时,提供可解释和富有洞察力的结果,以时间课程的平均青少年大脑的时间函数磁共振图像在休息,表征手写的数字和基因来自癌症基因组地图集中癌细胞的表达数据。
translated by 谷歌翻译