智能论文笔记

动态上下文化的单词嵌入代表单词的时间语义变化。我们提出了一种通过使用时间敏感的模板适应预定的掩盖语言模型（MLM）来学习动态上下文化词嵌入的方法。给定了两个快照$ C_1 $和$ C_2 $的一家公司，分别在两个不同的时间戳$ T_1 $和$ T_2 $上拍摄，我们首先提出了一种无监督的方法，以选择（a）与$ C_1 $和$ C_2 $相关的（a）枢轴术语，（b）与每个单独的快照中特定枢轴项相关的锚定项。然后，我们通过使用提取的枢轴和锚定项填充手动编译模板来生成提示。此外，我们提出了一种自动方法，以从$ C_1 $和$ C_2 $中学习时间敏感的模板，而无需任何人类监督。接下来，我们使用生成的提示通过在提示上进行微调来调整预处理的MLM至$ T_2 $。实验结果表明，我们提出的方法大大降低了从$ t_2 $中选择的测试句子的困惑，从而超过了当前最新的动态上下文嵌入方法。

translated by 谷歌翻译

Random projections and Kernelised Leave One Cluster Out Cross-Validation: Universal baselines and evaluation tools for supervised machine learning for materials properties

Samantha Durdy , Michael Gaultois , Vladimir Gusev , Danushka Bollegala , Matthew J. Rosseinsky

分类：机器学习

2022-06-17

由于机器学习是当前计算材料科学文献中的流行主题，因此为化合物创建表示形式已成为普遍的位置。这些表示形式很少被比较，因为评估了它们的性能 - 与它们一起使用的算法的性能是非平凡的。由于研究过程引起的许多材料数据集含有偏差和偏斜，因此已经引入了一个集群交叉验证（LOCO-CV），以衡量算法在预测以前看不见的材料基团时的性能。这提出了对Loco-CV测量结果的簇大小范围的影响和控制的问题。我们提出了基于组成的表示之间的详尽比较，并研究了如何使用内核近似功能来更好地分开数据以增强Loco-CV应用程序。我们发现，在大多数测试的任务中，域知识并不能提高机器学习的性能，而带隙预测是显着的例外。我们还发现，径向基函数在所有测试的10个数据集中提高了化学数据集的线性可分离性，并为在Loco-CV过程中应用此函数的应用提供了一个框架，以改善机车-CV测量结果，无论机器学习算法如何，选择度量和复合表示的选择。我们建议将内核Loco-CV作为训练范式，以示材料数据上的算法的外推能力。

translated by 谷歌翻译

我们研究了掩盖语言模型（MLMS）的任务无关内在和特定于任务的外在社会偏见评估措施之间的关系，并发现这两种评估措施之间仅存在弱相关性。此外，我们发现在下游任务进行微调期间，使用不同方法的MLMS DEBIAS进行了重新划分。我们确定两个培训实例中的社会偏见及其分配的标签是内在偏见评估测量值之间差异的原因。总体而言，我们的发现突出了现有的MLM偏见评估措施的局限性，并提出了使用这些措施在下游应用程序中部署MLM的担忧。

translated by 谷歌翻译