数据驱动的生成机器学习模型最近被出现为最有希望的新材料发现方法之一。虽然发电机型号可以产生数百万候选者,但训练快速准确的机器学习模型至关重要,以滤除具有所需特性的稳定,可合成的材料。然而,通过缺乏不稳定或不合益的样本严重阻碍了构建监督回归或分类筛查模型的努力,这通常不会收集和沉积在诸如ICSD和材料项目(MP)的材料数据库中。与此同时,这些数据库中有很多未标记的数据。在这里,我们提出了一个半监控的深度神经网络(TSDNN)模型,用于高性能形成能量和合成性预测,通过其独特的教师 - 学生双网络架构实现,并有效利用大量未标记数据。对于基于能量基于能量的稳定性筛选,与基线CGCNN回归模型相比,我们的半监控分类器实现了绝对的10.3 \%的准确性改进。对于合成性预测,我们的模型显着增加了基准PU学习从87.9 \%到97.9 \%的真正阳性率使用1/49型号参数。为了进一步证明我们模型的有效性,我们将我们的TSDNN-Energy和Tsdnn-InsteSizability模型与我们的Cubicgan发生器组合起来,以发现新型稳定的立方体结构。我们的模型中的1000个推荐的候选样品,其中512个具有由我们的DFT形成能量计算验证的负面形成能量。我们的实验结果表明,我们的半监督深度神经网络可以在大型生成材料设计中显着提高筛选准确性。
translated by 谷歌翻译
Oxidation states are the charges of atoms after their ionic approximation of their bonds, which have been widely used in charge-neutrality verification, crystal structure determination, and reaction estimation. Currently only heuristic rules exist for guessing the oxidation states of a given compound with many exceptions. Recent work has developed machine learning models based on heuristic structural features for predicting the oxidation states of metal ions. However, composition based oxidation state prediction still remains elusive so far, which is more important in new material discovery for which the structures are not even available. This work proposes a novel deep learning based BERT transformer language model BERTOS for predicting the oxidation states of all elements of inorganic compounds given only their chemical composition. Our model achieves 96.82\% accuracy for all-element oxidation states prediction benchmarked on the cleaned ICSD dataset and achieves 97.61\% accuracy for oxide materials. We also demonstrate how it can be used to conduct large-scale screening of hypothetical material compositions for materials discovery.
translated by 谷歌翻译
大型未标记语料库上的预训练的变压器语言模型已产生了最新的最先进的结果,从而导致了自然语言处理,有机分子设计和蛋白质序列的产生。但是,尚未应用这种模型来学习无机材料的组成模式。在这里,我们使用在ICSD,OQMD中存放的材料和材料项目数据库中扩展的公式培训了七种现代变压器模型(GPT,GPT-2,GPT-2,GPT-NEO,GPT-NEO,GPT-J,BLMM,BART和ROBERTA) 。六个不同的数据集,具有/输出非电荷 - 中性或平衡的电负性样品用于对性能进行基准测试,并发现现代变压器模型的产生偏见,以生成材料组成的生成设计。我们的广泛实验表明,基于因果语言模型的材料变形金刚可以产生高达97.54 \%的化学有效材料组合物,即充电中性,而91.40 \%的电负性平衡,与基线相比,它的富集高6倍以上伪随机抽样算法。这些模型还表现出了很高的新颖性,并且它们在新材料发现中的潜力已经证明了它们的能力恢复了留出的材料。我们还发现,可以通过使用精选的训练集(例如高带盖材料)训练模型来量身定制生成的样品的性能。我们的实验还表明,不同模型在生成样品的属性方面都有自己的喜好,并且其运行时间复杂性差异很大。我们已经应用了材料变压器模型来发现一套使用DFT计算验证的新材料。
translated by 谷歌翻译
Labeling a module defective or non-defective is an expensive task. Hence, there are often limits on how much-labeled data is available for training. Semi-supervised classifiers use far fewer labels for training models, but there are numerous semi-supervised methods, including self-labeling, co-training, maximal-margin, and graph-based methods, to name a few. Only a handful of these methods have been tested in SE for (e.g.) predicting defects and even that, those tests have been on just a handful of projects. This paper takes a wide range of 55 semi-supervised learners and applies these to over 714 projects. We find that semi-supervised "co-training methods" work significantly better than other approaches. However, co-training needs to be used with caution since the specific choice of co-training methods needs to be carefully selected based on a user's specific goals. Also, we warn that a commonly-used co-training method ("multi-view"-- where different learners get different sets of columns) does not improve predictions (while adding too much to the run time costs 11 hours vs. 1.8 hours). Those cautions stated, we find using these "co-trainers," we can label just 2.5% of data, then make predictions that are competitive to those using 100% of the data. It is an open question worthy of future work to test if these reductions can be seen in other areas of software analytics. All the codes used and datasets analyzed during the current study are available in the https://GitHub.com/Suvodeep90/Semi_Supervised_Methods.
translated by 谷歌翻译
迄今为止,最强大的半监督对象检测器(SS-OD)基于伪盒,该盒子需要一系列带有微调超参数的后处理。在这项工作中,我们建议用稀疏的伪盒子以伪造的伪标签形式取代稀疏的伪盒。与伪盒相比,我们的密集伪标签(DPL)不涉及任何后处理方法,因此保留了更丰富的信息。我们还引入了一种区域选择技术,以突出关键信息,同时抑制密集标签所携带的噪声。我们将利用DPL作为密集老师的拟议的SS-OD算法命名。在可可和VOC上,密集的老师在各种环境下与基于伪盒的方法相比表现出卓越的表现。
translated by 谷歌翻译
尽管半监督学习(SSL)的最新研究已经在单标签分类问题上取得了强劲的表现,但同样重要但毫无疑问的问题是如何利用多标签分类任务中未标记数据的优势。为了将SSL的成功扩展到多标签分类,我们首先使用说明性示例进行分析,以获得有关多标签分类中存在的额外挑战的一些直觉。基于分析,我们提出了一个基于百分比的阈值调整方案的百分位摩擦,以动态地改变训练期间每个类别的正和负伪标签的得分阈值,以及动态的未标记失误权重,从而进一步降低了从早期未标记的预测。与最近的SSL方法相比,在不丧失简单性的情况下,我们在Pascal VOC2007和MS-Coco数据集上实现了强劲的性能。
translated by 谷歌翻译
产生具有良好稳定性特性的候选晶体结构的有效算法可以在数据驱动的材料发现中起关键作用。在这里,我们表明,晶体扩散变异自动编码器(CDVAE)能够生成高化学和结构多样性和形成能量的二维(2D)材料,这些材料反映了训练结构。具体来说,我们在2615 2D材料上训练CDVAE,其能量上方的凸壳$ \ delta h _ {\ mathrm {hull}} <0.3 $ ev/atom,并生成我们使用密度功能理论(DFT)放松的5003材料。我们还通过系统的元素替代训练结构生成14192个新晶体。我们发现,生成模型和晶格装饰方法是互补和产量材料具有相似稳定性的材料,但晶体结构和化学成分非常不同。总共我们发现11630预测了新的2D材料,其中8599个具有$ \ delta h _ {\ mathrm {hull}} <0.3 $ ev/Atom作为种子结构,而2004年,2004年在Convex Hull的50 MEV之内合成。所有材料的松弛原子结构都可以在开放计算2D材料数据库(C2DB)中获得。我们的工作将CDVAE确定为有效且可靠的晶体生成机器,并显着扩大了2D材料的空间。
translated by 谷歌翻译
Deep learning has emerged as an effective solution for solving the task of object detection in images but at the cost of requiring large labeled datasets. To mitigate this cost, semi-supervised object detection methods, which consist in leveraging abundant unlabeled data, have been proposed and have already shown impressive results. However, most of these methods require linking a pseudo-label to a ground-truth object by thresholding. In previous works, this threshold value is usually determined empirically, which is time consuming, and only done for a single data distribution. When the domain, and thus the data distribution, changes, a new and costly parameter search is necessary. In this work, we introduce our method Adaptive Self-Training for Object Detection (ASTOD), which is a simple yet effective teacher-student method. ASTOD determines without cost a threshold value based directly on the ground value of the score histogram. To improve the quality of the teacher predictions, we also propose a novel pseudo-labeling procedure. We use different views of the unlabeled images during the pseudo-labeling step to reduce the number of missed predictions and thus obtain better candidate labels. Our teacher and our student are trained separately, and our method can be used in an iterative fashion by replacing the teacher by the student. On the MS-COCO dataset, our method consistently performs favorably against state-of-the-art methods that do not require a threshold parameter, and shows competitive results with methods that require a parameter sweep search. Additional experiments with respect to a supervised baseline on the DIOR dataset containing satellite images lead to similar conclusions, and prove that it is possible to adapt the score threshold automatically in self-training, regardless of the data distribution.
translated by 谷歌翻译
实现一般逆设计可以通过用户定义的属性极大地加速对新材料的发现。然而,最先进的生成模型往往限于特定的组成或晶体结构。这里,我们提出了一种能够一般逆设计的框架(不限于给定的一组元件或晶体结构),其具有在实际和往复空间中编码晶体的广义可逆表示,以及来自变分的属性结构潜空间autoencoder(vae)。在三种设计情况下,该框架通过用户定义的形成能量,带隙,热电(TE)功率因数和组合产生142个新晶体。在训练数据库中缺席的这些生成的晶体通过第一原理计算验证。成功率(验证的第一原理验证的目标圆形晶体/数量的设计晶体)范围为7.1%和38.9%。这些结果表示利用生成模型朝着性质驱动的一般逆设计的重要步骤,尽管在与实验合成结合时仍然存在实际挑战。
translated by 谷歌翻译
This paper studies learning the representations of whole graphs in both unsupervised and semi-supervised scenarios. Graph-level representations are critical in a variety of real-world applications such as predicting the properties of molecules and community analysis in social networks. Traditional graph kernel based methods are simple, yet effective for obtaining fixed-length representations for graphs but they suffer from poor generalization due to hand-crafted designs. There are also some recent methods based on language models (e.g. graph2vec) but they tend to only consider certain substructures (e.g. subtrees) as graph representatives. Inspired by recent progress of unsupervised representation learning, in this paper we proposed a novel method called InfoGraph for learning graph-level representations. We maximize the mutual information between the graph-level representation and the representations of substructures of different scales (e.g., nodes, edges, triangles). By doing so, the graph-level representations encode aspects of the data that are shared across different scales of substructures. Furthermore, we further propose InfoGraph*, an extension of InfoGraph for semi-supervised scenarios. InfoGraph* maximizes the mutual information between unsupervised graph representations learned by InfoGraph and the representations learned by existing supervised methods. As a result, the supervised encoder learns from unlabeled data while preserving the latent semantic space favored by the current supervised task. Experimental results on the tasks of graph classification and molecular property prediction show that InfoGraph is superior to state-of-the-art baselines and InfoGraph* can achieve performance competitive with state-of-the-art semi-supervised models.
translated by 谷歌翻译
监督学习已被广​​泛用于攻击分类,需要高质量的数据和标签。但是,数据通常是不平衡的,很难获得足够的注释。此外,有监督的模型应遵守现实世界的部署问题,例如防御看不见的人造攻击。为了应对挑战,我们提出了一个半监督的细粒攻击分类框架,该框架由编码器和两个分支机构结构组成,并且该框架可以推广到不同的监督模型。具有残留连接的多层感知器用作提取特征并降低复杂性的编码器。提出了复发原型模块(RPM)以半监督的方式有效地训练编码器。为了减轻数据不平衡问题,我们将重量任务一致性(WTC)引入RPM的迭代过程中,通过将较大的权重分配给损失函数中较少样本的类别。此外,为了应对现实世界部署中的新攻击,我们提出了一种主动调整重新采样(AAR)方法,该方法可以更好地发现看不见的样本数据的分布并调整编码器的参数。实验结果表明,我们的模型优于最先进的半监督攻击检测方法,分类精度提高了3%,训练时间降低了90%。
translated by 谷歌翻译
机器学习(ML) - 基卡化的发现需要大量的高保真数据来揭示预测结构性质关系。对于对材料发现的兴趣的许多性质,数据生成的具体性和高成本导致数据景观几乎没有人居住和可疑质量。开始克服这些限制的数据驱动技术包括在密度函数理论中使用共识,开发新功能或加速电子结构理论,以及检测到计算要求苛刻的方法是最必要的。当无法可靠地模拟属性时,大型实验数据集可用于培训ML模型。在没有手动策策的情况下,越来越复杂的自然语言处理和自动图像分析使得可以从文献中学习结构性质关系。在这些数据集上培训的模型将随着社区反馈而改善。
translated by 谷歌翻译
组织病理学图像包含丰富的表型信息和病理模式,这是疾病诊断的黄金标准,对于预测患者预后和治疗结果至关重要。近年来,在临床实践中迫切需要针对组织病理学图像的计算机自动化分析技术,而卷积神经网络代表的深度学习方法已逐渐成为数字病理领域的主流。但是,在该领域获得大量细粒的注释数据是一项非常昂贵且艰巨的任务,这阻碍了基于大量注释数据的传统监督算法的进一步开发。最新的研究开始从传统的监督范式中解放出来,最有代表性的研究是基于弱注释,基于有限的注释的半监督学习范式以及基于自我监督的学习范式的弱监督学习范式的研究图像表示学习。这些新方法引发了针对注释效率的新自动病理图像诊断和分析。通过对130篇论文的调查,我们对从技术和方法论的角度来看,对计算病理学领域中有关弱监督学习,半监督学习以及自我监督学习的最新研究进行了全面的系统综述。最后,我们提出了这些技术的关键挑战和未来趋势。
translated by 谷歌翻译
计算催化和机器学习社区在开发用于催化剂发现和设计的机器学习模型方面取得了长足的进步。然而,跨越催化的化学空间的一般机器学习潜力仍然无法触及。一个重大障碍是在广泛的材料中获得访问培训数据的访问。缺乏数据的一类重要材料是氧化物,它抑制模型无法更广泛地研究氧气进化反应和氧化物电催化。为了解决这个问题,我们开发了开放的催化剂2022(OC22)数据集,包括62,521个密度功能理论(DFT)放松(〜9,884,504个单点计算),遍及一系列氧化物材料,覆盖范围,覆盖率和吸附物( *H, *o, *o, *o, *o, *o, * n, *c, *ooh, *oh, *oh2, *o2, *co)。我们定义广义任务,以预测催化过程中适用的总系统能量,发展几个图神经网络的基线性能(Schnet,Dimenet ++,Forcenet,Spinconv,Painn,Painn,Gemnet-DT,Gemnet-DT,Gemnet-OC),并提供预先定义的数据集分割以建立明确的基准,以实现未来的努力。对于所有任务,我们研究组合数据集是否会带来更好的结果,即使它们包含不同的材料或吸附物。具体而言,我们在Open Catalyst 2020(OC20)数据集和OC22上共同训练模型,或OC22上的微调OC20型号。在最一般的任务中,Gemnet-OC看到通过微调来提高了约32%的能量预测,通过联合训练的力预测提高了约9%。令人惊讶的是,OC20和较小的OC22数据集的联合培训也将OC20的总能量预测提高了约19%。数据集和基线模型是开源的,公众排行榜将遵循,以鼓励社区的持续发展,以了解总能源任务和数据。
translated by 谷歌翻译
半监督学习(SSL)的最新最新方法将一致性正则化与基于置信的伪标记结合在一起。为了获得高质量的伪标签,通常采用高置信度阈值。但是,已经表明,对于远离训练数据的样本,深网的基于软磁性的置信度得分可能很高,因此,即使是高信心不明的样品,伪标签也可能仍然不可靠。在这项工作中,我们提出了伪标记的新观点:而不是依靠模型信心,而是衡量未标记的样本是否可能是“分布”;即,接近当前的培训数据。为了对未标记的样本进行分类是“分布”还是“分发”,我们采用了分布外检测文献中的能量评分。随着培训的进行进展,更不标记的样品成为分配并有助于培训,标记和伪标记的数据可以更好地近似于真正的分布以改善模型。实验表明,我们的基于能量的伪标记方法,尽管从概念上讲简单,但在不平衡的SSL基准测试方面显着优于基于置信的方法,并在类平衡的数据上实现了竞争性能。例如,当不平衡比率高于50时,它会在CIFAR10-LT上产生4-6%的绝对准确性提高。当与最新的长尾SSL方法结合使用时,可以实现进一步的改进。
translated by 谷歌翻译
深度学习模型的最新发展,捕捉作物物候的复杂的时间模式有卫星图像时间序列(坐在),大大高级作物分类。然而,当施加到目标区域从训练区空间上不同的,这些模型差没有任何目标标签由于作物物候区域之间的时间位移进行。为了解决这个无人监督跨区域适应环境,现有方法学域不变特征没有任何目标的监督,而不是时间偏移本身。因此,这些技术提供了SITS只有有限的好处。在本文中,我们提出TimeMatch,一种新的无监督领域适应性方法SITS直接占时移。 TimeMatch由两个部分组成:1)时间位移的估计,其估计具有源极训练模型的未标记的目标区域的时间偏移,和2)TimeMatch学习,它结合了时间位移估计与半监督学习到一个分类适应未标记的目标区域。我们还引进了跨区域适应的开放式访问的数据集与来自欧洲四个不同区域的旁边。在此数据集,我们证明了TimeMatch优于所有竞争的方法,通过11%的在五个不同的适应情景F1-得分,创下了新的国家的最先进的跨区域适应性。
translated by 谷歌翻译
咳嗽音频信号分类是筛查呼吸道疾病(例如COVID-19)的潜在有用工具。由于从这种传染性疾病的患者那里收集数据是危险的,因此许多研究团队已转向众包来迅速收集咳嗽声数据,因为它是为了生成咳嗽数据集的工作。 Coughvid数据集邀请专家医生诊断有限数量上传的记录中存在的潜在疾病。但是,这种方法遭受了咳嗽的潜在标签,以及专家之间的显着分歧。在这项工作中,我们使用半监督的学习(SSL)方法来提高咳嗽数据集的标签一致性以及COVID-19的鲁棒性与健康的咳嗽声音分类。首先,我们利用现有的SSL专家知识聚合技术来克服数据集中的标签不一致和稀疏性。接下来,我们的SSL方法用于识别可用于训练或增加未来咳嗽分类模型的重新标记咳嗽音频样本的子样本。证明了重新标记的数据的一致性,因为它表现出高度的类可分离性,尽管原始数据集中存在专家标签不一致,但它比用户标记的数据高3倍。此外,在重新标记的数据中放大了用户标记的音频段的频谱差异,从而导致健康和COVID-19咳嗽之间的功率频谱密度显着不同,这既证明了新数据集的一致性及其与新数据的一致性及其与新数据的一致性的提高,其解释性与其与其解释性的一致性相同。声学的观点。最后,我们演示了如何使用重新标记的数据集来训练咳嗽分类器。这种SSL方法可用于结合几位专家的医学知识,以提高任何诊断分类任务的数据库一致性。
translated by 谷歌翻译
我们提出了Parse,这是一种新颖的半监督结构,用于学习强大的脑电图表现以进行情感识别。为了减少大量未标记数据与标记数据有限的潜在分布不匹配,Parse使用成对表示对准。首先,我们的模型执行数据增强,然后标签猜测大量原始和增强的未标记数据。然后将其锐化的标签和标记数据的凸组合锐化。最后,进行表示对准和情感分类。为了严格测试我们的模型,我们将解析与我们实施并适应脑电图学习的几种最先进的半监督方法进行了比较。我们对四个基于公共EEG的情绪识别数据集,种子,种子IV,种子V和Amigos(价和唤醒)进行这些实验。该实验表明,我们提出的框架在种子,种子-IV和Amigos(Valence)中的标记样品有限的情况下,取得了总体最佳效果,同时接近种子V和Amigos中的总体最佳结果(达到第二好) (唤醒)。分析表明,我们的成对表示对齐方式通过减少未标记数据和标记数据之间的分布比对来大大提高性能,尤其是当每类仅1个样本被标记时。
translated by 谷歌翻译
微创手术中的手术工具检测是计算机辅助干预措施的重要组成部分。当前的方法主要是基于有监督的方法,这些方法需要大量的完全标记的数据来培训监督模型,并且由于阶级不平衡问题而患有伪标签偏见。但是,带有边界框注释的大图像数据集通常几乎无法使用。半监督学习(SSL)最近出现了仅使用适度的注释数据训练大型模型的一种手段。除了降低注释成本。 SSL还显示出希望产生更强大和可推广的模型。因此,在本文中,我们在手术工具检测范式中介绍了半监督学习(SSL)框架,该框架旨在通过知识蒸馏方法来减轻培训数据的稀缺和数据失衡。在拟议的工作中,我们培训了一个标有数据的模型,该模型启动了教师学生的联合学习,在该学习中,学生接受了来自未标记数据的教师生成的伪标签的培训。我们提出了一个多级距离,在检测器的利益区域头部具有基于保证金的分类损失函数,以有效地将前景类别与背景区域隔离。我们在M2CAI16-Tool-locations数据集上的结果表明,我们的方法在不同的监督数据设置(1%,2%,5%,注释数据的10%)上的优越性,其中我们的模型可实现8%,12%和27的总体改善在最先进的SSL方法和完全监督的基线上,MAP中的%(在1%标记的数据上)。该代码可在https://github.com/mansoor-at/semi-supervise-surgical-tool-det上获得
translated by 谷歌翻译
积极的未标记(PU)学习旨在仅从积极和未标记的培训数据中学习二进制分类器。最近的方法通过发展无偏的损失功能通过对成本敏感的学习解决了这一问题,后来通过迭代伪标记解决方案改善了其性能。但是,这样的两步程序容易受到错误估计的伪标签的影响,因为在以后的错误预测训练新模型时,在以后的迭代中传播了错误。为了防止这种确认偏见,我们提出PUUPL是PU学习的新型损失不足的训练程序,该程序将认知不确定性纳入伪标签选择中。通过使用基于低确定性预测的神经网络的合奏并分配伪标记,我们表明PUUPL提高了伪标签的可靠性,提高了我们方法的预测性能,并导致了新的最先进的结果在自我训练中进行PU学习。通过广泛的实验,我们显示了方法对不同数据集,模式和学习任务的有效性,以及改进的校准,对先前拼写错误的稳健性,偏见的正数据和不平衡数据集。
translated by 谷歌翻译