蛋白质 - 蛋白质相互作用(PPI)对正常细胞功能至关重要,并且与许多疾病途径有关。然而,只有4%的PPI用PTMS在诸如完整的生物知识数据库中的PTM,主要通过手动策策进行,这既不是时间也不是成本效益。我们使用完整的PPI数据库创建具有交互蛋白对,它们相应的PTM类型和来自PubMed数据库的相关摘要注释的远程监督数据集。我们训练Biobert Models的一组合 - 配音PPI-Biobert-X10,以提高置信度校准。我们利用集合平均置信度方法的使用,置信范围抵消了类别不平衡提取高信任预测的影响。在测试集上评估的PPI-BIOBERT-X10模型导致适用的F1-MICRO 41.3(P = 5 8.1,R = 32.1)。然而,通过结合高信心和低变化来识别高质量的预测,调整精度预测,我们保留了100%精度的19%的测试预测。我们评估了1800万PubMed摘要的PPI-Biobert-X10,提取了160万(546507个独特的PTM-PPI三联网)PTM-PPI预测,并过滤〜5700(4584个独一无二)的高信心预测。在5700中,对于小型随机采样的子集进行人体评估表明,尽管置信度校准,精度降至33.7%,并突出了即使在置信度校准的情况下超出了测试集中的最长途的挑战。我们仅包括与多个论文相关的预测的问题来规避问题,从而将精确提高到58.8%。在这项工作中,我们突出了深入学习的文本挖掘在实践中的利益和挑战,并且需要增加对置信校准的强调,以促进人类策划努力。
translated by 谷歌翻译
动机:蛋白质 - 蛋白质相互作用(PPI)对正常和患病细胞中蛋白质的功能至关重要,并且许多关键蛋白质功能通过相互作用介导。这些相互作用的性质是对网络建设来分析生物学的重要性数据。然而,在蛋白质相互作用数据库中仅捕获的小百分比PPI具有可用功能的注释,例如:只有4%的PPI在完整数据库中有功能注释。在这里,我们的目标是通过提取PubMed摘要中描述的关系来标记PPI的功能类型类型。方法:我们从完整的PPI数据库中创建一个弱监督数据集,其中包含具有带有注释功能的交互蛋白对和来自PubMed数据库的相关摘要。我们为生物医学自然语言处理任务,Biobert应用了最先进的深度学习技术,以构建模型 - 配音PPI-Biobert - 用于识别PPI的功能。为了大规模提取高质量的PPI功能,我们使用PPI-Biobert模型的集合来改善不确定性估计,并应用特定类型特定的阈值以抵消每个交互类型的训练样本数量的变化的影响。结果:我们扫描1800万PubMed摘要,自动鉴定3253个新的类型的PPI,包括磷酸化和乙酰化相互作用,基于人类审查的样品,整体精度为46%(乙酰化87%)。这项工作表明,PPI函数提取的生物医学摘要分析是一种可行的方法,可以基本上增加在在线数据库中捕获的功能的互动的互动次数。
translated by 谷歌翻译
非结构化数据,尤其是文本,在各个领域继续迅速增长。特别是,在金融领域,有大量累积的非结构化财务数据,例如公司定期向监管机构提交的文本披露文件,例如证券和交易委员会(SEC)。这些文档通常很长,并且倾向于包含有关公司绩效的宝贵信息。因此,从这些长文本文档中学习预测模型是非常兴趣的,尤其是用于预测数值关键绩效指标(KPI)。尽管在训练有素的语言模型(LMS)中取得了长足的进步,这些模型从大量的文本数据中学习,但他们仍然在有效的长期文档表示方面挣扎。我们的工作满足了这种批判性需求,即如何开发更好的模型来从长文本文档中提取有用的信息,并学习有效的功能,这些功能可以利用软件财务和风险信息来进行文本回归(预测)任务。在本文中,我们提出并实施了一个深度学习框架,该框架将长文档分为大块,并利用预先训练的LMS处理和将块汇总为矢量表示,然后进行自我关注以提取有价值的文档级特征。我们根据美国银行的10-K公共披露报告以及美国公司提交的另一个报告数据集评估了模型。总体而言,我们的框架优于文本建模的强大基线方法以及仅使用数值数据的基线回归模型。我们的工作提供了更好的见解,即如何利用预先训练的域特异性和微调的长输入LMS来表示长文档可以提高文本数据的表示质量,从而有助于改善预测分析。
translated by 谷歌翻译
我们显示出与错误(LWE)问题的经典学习之间的直接和概念上的简单减少,其连续类似物(Bruna,Regev,Song and Tang,STOC 2021)。这使我们能够将基于LWE的密码学的强大机械带到Clwe的应用中。例如,我们在GAP最短矢量问题的经典最坏情况下获得了Clwe的硬度。以前,这仅在晶格问题的量子最坏情况下才知道。更广泛地说,随着我们在两个问题之间的减少,LWE的未来发展也将适用于CLWE及其下游应用程序。作为一种具体的应用,我们显示了高斯混合物密度估计的硬度结果改善。在此计算问题中,给定样品访问高斯人的混合物,目标是输出估计混合物密度函数的函数。在经典LWE问题的(合理且被广泛相信的)指数硬度下,我们表明高斯混合物密度估计$ \ Mathbb {r}^n $,大约$ \ log n $ gaussian组件给定$ \ mathsf {poly}(poly}(poly}(poly})) n)$样品需要$ n $的时间准分线性。在LWE的(保守)多项式硬度下,我们显示出$ n^{\ epsilon} $高斯的密度估计,对于任何常数$ \ epsilon> 0 $,它可以改善Bruna,Regev,Song和Tang(Stoc 2021) ,在多项式(量子)硬度假设下,他们至少以$ \ sqrt {n} $高斯的表现表现出硬度。我们的关键技术工具是从古典LWE到LWE的缩短,并使用$ k $ -sparse Secrets,其中噪声的乘法增加仅为$ o(\ sqrt {k})$,与环境尺寸$ n $无关。
translated by 谷歌翻译
分散的分布式学习是利用私有用户生成的本地数据在边缘设备上启用大规模机器学习(训练)的关键,而不依赖于云。然而,实际实现这种设备培训受到通信瓶颈的限制,训练深层模型的计算复杂性和跨设备的显着数据分布偏差。在文献中提出了许多基于反馈的压缩技术,以降低通信成本,并且通过提高收敛速率,少数作品提出算法改变,以帮助存在偏斜数据分布的性能。据我们所知,文献中没有工作,适用并显示计算有效的训练技术这种量化,修剪等,用于对等对等分散的学习设置。在本文中,我们分析并展示了低精度分散培训的趋同,旨在降低培训和推论的计算复杂性。此外,我们研究偏斜和通信压缩程度对各种计算机视觉和自然语言处理(NLP)任务的低精度分散训练的影响。我们的实验表明,与其全面的数据相比,8位分散的训练与其完整的精密对手相比,即使具有异质数据,也具有最小的精度损失。但是,当通过稀疏的沟通压缩伴随着低精度训练时,我们观察1-2%的准确性。所提出的低精度分散培训减少了计算复杂性,内存使用量和通信成本,同时交易低于IID和非IID数据的1%准确性。特别是具有更高的偏斜值,我们观察精度增加(〜0.5%),具有低精度训练,表明量化的正则化效果。
translated by 谷歌翻译