当疑问以获得更好的有效精度时,选择性分类允许模型放弃预测(例如,说“我不知道”)。尽管典型的选择性模型平均可以有效地产生更准确的预测,但它们仍可能允许具有很高置信度的错误预测,或者跳过置信度较低的正确预测。提供校准的不确定性估计以及预测(与真实频率相对应的概率)以及具有平均准确的预测一样重要。但是,不确定性估计对于某些输入可能不可靠。在本文中,我们开发了一种新的选择性分类方法,其中我们提出了一种拒绝“不确定”不确定性的示例的方法。通过这样做,我们旨在通过对所接受示例的分布进行{良好校准}的不确定性估计进行预测,这是我们称为选择性校准的属性。我们提出了一个用于学习选择性校准模型的框架,其中训练了单独的选择器网络以改善给定基本模型的选择性校准误差。特别是,我们的工作重点是实现强大的校准,该校准有意地设计为在室外数据上进行测试。我们通过受分配强大的优化启发的训练策略实现了这一目标,在该策略中,我们将模拟输入扰动应用于已知的,内域培训数据。我们证明了方法对多个图像分类和肺癌风险评估任务的经验有效性。
translated by 谷歌翻译
计算抗体设计旨在自动创建与抗原结合的抗体。结合亲和力受3D结合界面的控制,其中抗体残基(角膜膜)与抗原残基(表位)紧密相互作用。因此,预测3D副观察复合物(对接)是找到最佳寄生虫的关键。在本文中,我们提出了一个新模型,称为层状码头和设计的名为层次层次的改进网络(HERN)。在对接过程中,Hern采用层次消息传递网络来预测原子力,并利用它们以迭代性,模棱两可的方式来完善结合复合物。在生成期间,其自动回解码器逐渐扩展了寄生虫,并构建了绑定界面的几何表示,以指导下一个残基选择。我们的结果表明,HERN在伞形对接和设计基准测试方面的先验最先进。
translated by 谷歌翻译
支架结构的构建支持所需的基序,赋予蛋白质功能,显示出对疫苗和酶设计的希望。但是,解决这个主题交易问题的一般解决方案仍然开放。当前的脚手架设计的机器学习技术要么仅限于不切实际的小脚手架(长达20个长度),要么难以生产多种不同的脚手架。我们建议通过E(3) - 等级图神经网络学习各种蛋白质主链结构的分布。我们开发SMCDIFF以有效地从给定主题的条件下从该分布中采样脚手架;我们的算法是从理论上确保从扩散模型中的有条件样品,以大规模计算限制。我们通过与Alphafold2预测的结构保持一致的方式来评估我们设计的骨干。我们表明我们的方法可以(1)最多80个残基的样品支架,以及(2)实现固定基序的结构多样的支架。
translated by 谷歌翻译
在偏置数据集中培训时,分类器会偏差。作为一种补救措施,我们建议学习分裂(LS),这是一种用于自动偏置检测的算法。给定一个具有输入标签对的数据集,LS学会了将该数据集分开,以便在训练分训练上训练的预测因素不能推广到测试分配。该性能差距表明,数据集中的测试拆分代表性不足,这是潜在偏差的信号。识别不可替代的分裂是具有挑战性的,因为我们对偏见没有注释。在这项工作中,我们表明,测试拆分中每个示例的预测正确性可以用作弱监督的来源:如果我们移动正确预测的示例,将概括性能下降错误预测。 LS是任务不合时宜的,可以应用于任何监督的学习问题,从自然语言理解和图像分类到分子财产预测。经验结果表明,LS能够产生与人类识别偏见相关的惊人挑战分裂。此外,我们证明,将强大的学习算法(例如群DRO)与LS启用自动偏差确定的拆分相结合。与以前的最先进相比,当训练和验证过程中偏见的来源未知时,我们显着提高了最差的组绩效(平均为23.4%)。
translated by 谷歌翻译
蛋白质复合物形成是生物学中的核心问题,参与了大部分细胞的过程,以及对应用是必不可少的,例如,药物设计或蛋白质工程。我们解决刚性体蛋白 - 蛋白质对接,即计算地预测来自个体未结合结构的蛋白质 - 蛋白质复合物的3D结构,假设在结合期间蛋白质内没有构象变化。我们设计一种新的成对独立的SE(3)-Quivariant的图形匹配网络,以预测旋转和翻译,以将其中一个蛋白质放置在右对接位置相对于第二蛋白质。我们在数学上保证了基本原理:无论两个结构的初始位置和方向如何,预测复合物都是相同的。我们的模型,名为Equidock,近似于绑定口袋并通过最佳传输和可分辨率的Kabsch算法实现,实现了使用关键点匹配和对准的对接姿势。凭经验,尽管没有依赖于沉重的候选抽样,结构细化或模板,我们才能实现显着的运行时间改进,并且通常优于现有的对接软件。
translated by 谷歌翻译
产生稳定材料的周期性结构是材料设计界的长期挑战。这个任务很难,因为稳定的材料只存在于原子的所有可能的周期性布置的低维子空间中:1)坐标必须位于量子力学限定的局部能量最小,而2)全球稳定性也需要遵循结构不同原子类型之间的复杂,但特定的粘合偏好。现有方法未能纳入这些因素,并且经常缺乏适当的侵略者。我们提出了一种晶体扩散变分性AutoEncoder(CDVAE),其捕获材料稳定性的物理感应偏差。通过从稳定材料的数据分布中学习,解码器在扩散过程中产生材料,其将原子坐标朝向较低能量状态移动并更新原子类型以满足邻居之间的粘接偏好。我们的模型还明确地编码了周期性边界的交互,尊重置换,转换,旋转和周期性修正。我们在三个任务中显着优于过去的方法:1)重建输入结构,2)产生有效,多样化和现实的材料和3)产生优化特定性质的材料。我们还为更广泛的机器学习界提供了几个标准数据集和评估指标。
translated by 谷歌翻译
尽管无偏见的机器学习模型对于许多应用程序至关重要,但偏见是一个人为定义的概念,可以在任务中有所不同。只有输入标签对,算法可能缺乏足够的信息来区分稳定(因果)特征和不稳定(虚假)特征。但是,相关任务通常具有类似的偏见 - 我们可以利用在转移环境中开发稳定的分类器的观察结果。在这项工作中,我们明确通知目标分类器有关源任务中不稳定功能的信息。具体而言,我们得出一个表示,该表示通过对比源任务中的不同数据环境来编码不稳定的功能。我们通过根据此表示形式将目标任务的数据聚类来实现鲁棒性,并最大程度地降低这些集群中最坏情况的风险。我们对文本和图像分类进行评估。经验结果表明,我们的算法能够在合成生成的环境和现实环境的目标任务上保持鲁棒性。我们的代码可在https://github.com/yujiabao/tofu上找到。
translated by 谷歌翻译
Advancements in neural machinery have led to a wide range of algorithmic solutions for molecular property prediction. Two classes of models in particular have yielded promising results: neural networks applied to computed molecular fingerprints or expert-crafted descriptors, and graph convolutional neural networks that construct a learned molecular representation by operating on the graph structure of the molecule.However, recent literature has yet to clearly determine which of these two methods is superior when generalizing to new chemical space. Furthermore, prior research has
translated by 谷歌翻译
We seek to automate the design of molecules based on specific chemical properties. In computational terms, this task involves continuous embedding and generation of molecular graphs. Our primary contribution is the direct realization of molecular graphs, a task previously approached by generating linear SMILES strings instead of graphs. Our junction tree variational autoencoder generates molecular graphs in two phases, by first generating a tree-structured scaffold over chemical substructures, and then combining them into a molecule with a graph message passing network. This approach allows us to incrementally expand molecules while maintaining chemical validity at every step. We evaluate our model on multiple tasks ranging from molecular generation to optimization. Across these tasks, our model outperforms previous state-of-the-art baselines by a significant margin.
translated by 谷歌翻译
复杂的伤口通常会面临部分或完全损失皮肤厚度,从而通过次要意图愈合。它们可以是急性或慢性的,可以发现感染,缺血和组织坏死以及与全身性疾病的关联。全球研究机构报告了无数案件,最终涉及严重的公共卫生问题,因为它们涉及人力资源(例如医师和医疗保健专业人员),并对生活质量产生负面影响。本文提出了一个新的数据库,用于自动将复杂伤口自动分类为五个类别,即非缠绕区域,肉芽,纤维蛋白样组织和干性坏死,血肿。这些图像包括由压力,血管溃疡,糖尿病,燃烧和手术干预后的并发症引起的复杂伤口的不同情况。该数据集(称为ComplexWoundDB)是独一无二的,因为它可以从野外获得的27美元图像中的像素级分类,即在患者的房屋中收集图像,并由四名卫生专业人员标记。用不同的机器学习技术进行的进一步实验证明了解决计算机辅助复杂伤口组织分类问题的挑战。手稿阐明了该地区未来的方向,在文献中广泛使用的其他数据库中进行了详细比较。
translated by 谷歌翻译