数据增强技术广泛用于通过解决类别不平衡问题和数据稀疏性来增强机器学习模型的性能。已显示最先进的生成语言模型在不同的NLP任务中提供了显着的增益。但是,它们对几张拍摄设置中的文本分类任务的数据增强的适用性尚未完全探索,特别是对于专门域。在本文中,我们利用GPT-2(Radford A等,2019)来产生人工训练实例,以提高分类性能。我们的目的是分析种子训练示例的选择过程对GPT生成的样品的质量以及因此分类器性能的影响。我们使用几种种子选择策略进行实验,其中包括利用课程分层结构和域专家选择。我们的结果表明,少数标签实例中的微调GPT-2导致一致的分类改进和优于竞争性基线。最后,我们展示通过域专家选择指导这一过程可能会导致进一步的改进,这开辟了有趣的研究途径,用于结合生成模型和主动学习。
translated by 谷歌翻译
平行操纵器的配置歧管比串行操纵器表现出更多的非线性。从定性上讲,它们可以看到额外的褶皱。通过将这种歧管投射到工程相关性的空间上,例如输出工作区或输入执行器空间,这些折叠式的边缘呈现出表现非滑动行为的边缘。例如,在五杆链接的全局工作空间边界内显示了几个局部工作空间边界,这些边界仅限于该机制的某些输出模式。当专门研究这些投影而不是配置歧管本身时,这种边界的存在在输入和输出投影中都表现出来。特别是,非对称平行操纵器的设计已被其输入和输出空间中的外来投影所困扰。在本文中,我们用半径图表示配置空间,然后通过使用同型延续来量化传输质量来解决每个边缘。然后,我们采用图路径计划器来近似于避免传输质量区域的配置点之间的大地测量。我们的方法会自动生成能够在非邻居输出模式之间过渡的路径,该运动涉及示波多个工作空间边界(局部,全局或两者)。我们将技术应用于两个非对称五杆示例,这些示例表明如何通过切换输出模式来选择工作空间的传输属性和其他特征。
translated by 谷歌翻译
在整个计算科学中,越来越需要利用原始计算马力的持续改进,通过对蛮力的尺度锻炼的尺度增加,以增加网状元素数量的增加。例如,如果不考虑分子水平的相互作用,就不可能对纳米多孔介质的转运进行定量预测,即从紧密的页岩地层提取至关重要的碳氢化合物。同样,惯性限制融合模拟依赖于数值扩散来模拟分子效应,例如非本地转运和混合,而无需真正考虑分子相互作用。考虑到这两个不同的应用程序,我们开发了一种新颖的功能,该功能使用主动学习方法来优化局部细尺度模拟的使用来告知粗尺度流体动力学。我们的方法解决了三个挑战:预测连续性粗尺度轨迹,以推测执行新的精细分子动力学计算,动态地更新细度计算中的粗尺度,并量化神经网络模型中的不确定性。
translated by 谷歌翻译
人工智能(AI)已成为一种变革性和多功能工具,破坏了跨科学领域的新边界。在其最有希望的应用中,AI研究是在混凝土科学和工程中开展的,它为混合设计优化和胶合系统的服务寿命预测提供了新的见解。本章旨在揭示有关混凝土材料AI现有文献的主要研究兴趣和知识结构。首先,从1990年至2020年发表的总共389篇文章是从科学网络中检索出来的。采用了科学计量学工具,例如关键字共同出现分析和文档共分析,以量化研究领域的特征和特征。这些发现在数据驱动的具体研究中引起了迫切的问题,并为混凝土社区提供了充分利用AI技术能力的未来机会。
translated by 谷歌翻译
本文介绍了有关开发的原型的研究,以服务公共政策设计的定量研究。政治学的这种子学科着重于确定参与者,之间的关系以及在健康,环境,经济和其他政策方面可以使用的工具。我们的系统旨在自动化收集法律文件,用机构语法注释它们的过程,并使用超图来分析关键实体之间的相互关系。我们的系统经过了《联合国教科文组织公约》的保护,以保护2003年的无形文化遗产,这是一份法律文件,该文件规定了确保文化遗产的国际关系的基本方面。
translated by 谷歌翻译
气候变化增加了损害电力系统可靠性并导致多次设备故障的极端天气事件(风暴,大雨,野火)的数量。实时和准确检测潜在线路故障是减轻极端天气影响并激活紧急控制的第一步。功率平衡方程非线性,极端事件中的发电不确定性增加,缺乏电网可观察性会损害传统数据驱动的失败检测方法的效率。同时,基于神经网络的现代化的机器学习方法需要大量数据来检测事故,尤其是在改变时间的环境中。本文提出了一个具有物理信息的线路故障检测器(字段),该探测器利用网格拓扑信息来减少样本和时间复杂性并提高定位准确性。最后,我们说明了与最先进的方法相比,与各种测试用例相比,我们的方法的优越性实证性能。
translated by 谷歌翻译
深度神经网络的规模和复杂性继续成倍增长,大大增加了这些模型训练和推断的能源消耗。我们介绍了一个开源软件包ECO2AI,以帮助数据科学家和研究人员以直接的方式跟踪其模型的能源消耗和同等的二氧化碳排放。在Eco2ai中,我们强调能源消耗跟踪和正确的区域二氧化碳排放会计的准确性。我们鼓励研究社区搜索具有较低计算成本的新最佳人工智能(AI)架构。动机还来自基于AI的温室气体与可持续AI和绿色AI途径隔离周期的概念。
translated by 谷歌翻译
本文研究了“探索性”机器学习分类问题的置信后的事后校准。这些问题的困难源于持续的愿望,即在策划数据集时具有足够的例子来推广哪些类别的界限以及对这些类别的有效性的混乱。我们认为,对于此类问题,必须使用“单一的所有”方法(顶级标签校准),而不是文献中其他地方提倡的“校准 - 满足 - 响应 - 摩托克质”方法。我们介绍并测试了四种旨在处理特定置信度估计的特质的新算法。这些方法中的主要主要是将内核密度比用于置信度校准,包括用于选择带宽的新颖的防弹算法。我们测试了我们的主张,并探讨了生物信息学应用程序(Phanns)1以及经典的MNIST基准2。最后,我们的分析认为,事后校准应始终执行,应仅基于测试数据集,并且应在视觉上进行理智检查。
translated by 谷歌翻译
测量星系的结构参数(大小,总亮度,光浓度等)是朝着不同星系种群定量描述的重要第一步。在这项工作中,我们证明了贝叶斯神经网络(BNN)可用于通过不确定性定量的推断,从模拟的低表面闪光星系图像中对这种形态学参数进行了描述。与传统的配置拟合方法相比,我们表明使用BNN获得的不确定性在幅度,精心校准的情况下是可比性的,并且参数的点估计值更接近真实值。我们的方法也大大更快,这在大型星系调查和天体物理学中的大数据的时代的出现非常重要。
translated by 谷歌翻译
关于在线信息行为的数据的日益增长的可用性为政治传播研究带来了新的可能性。但是,这些数据的数量和多样性使它们难以分析,并提示需要开发自动化内容方法,这些方法依赖于广泛的自然语言处理技术(例如机器学习或基于神经网络)。在本文中,我们讨论如何使用这些技术来检测不同平台的政治内容。使用三个验证数据集,其中包括来自在线平台的各种政治和非政治文本文档,我们系统地比较了依赖词典,监督机器学习或神经网络的三组检测技术的性能。我们还使用大型检测模型的大集合(n = 66)检查了不同数据预处理模式(例如,驱动和停止词)对这些技术的低成本实现的影响。我们的结果表明,预处理对模型性能的影响有限,与基于神经网络和机器学习模型所获得的嘈杂数据的最佳结果相比,基于嘈杂的数据的基于词典模型的更强性能。
translated by 谷歌翻译