适当地识别和处理具有显着多参考(MR)特征的分子和材料对于在虚拟高通量筛选(VHT)中实现高数据保真度至关重要。然而,使用单一功能的近似密度泛函理论(DFT)进行大多数VHT。尽管发展了许多MR诊断,但这种诊断的单一价值的程度表明了对化学性质预测的MR效应不是很好的。我们评估超过10,000个过渡金属配合物(TMC)的MR诊断方法,并与有机分子中的那些进行比较。我们透露,只有一些MR诊断程序可在这些材料空间上转移。通过研究MR特征对涉及多个潜在能量表面的化学性质(即,MR效应)的影响(即绝热自旋分裂,$ \ DELTA E_ \ MATHRM {HL} $和电离潜力,IP),我们观察到这一点先生效应的取消超过积累。 MR特征的差异比预测物业预测中MR效应的先生特征的总程度更重要。通过这种观察,我们建立转移学习模型,直接预测CCSD(T)-Level绝热$ \ Delta e_ \ Mathrm {H-L} $和IP从较低的理论。通过将这些模型与不确定量化和多级建模相结合,我们引入了一种多管策略,可将数据采集加速至少三个,同时实现鲁棒VHT的化学精度(即1 kcal / mol)。
translated by 谷歌翻译
机器学习(ML) - 基卡化的发现需要大量的高保真数据来揭示预测结构性质关系。对于对材料发现的兴趣的许多性质,数据生成的具体性和高成本导致数据景观几乎没有人居住和可疑质量。开始克服这些限制的数据驱动技术包括在密度函数理论中使用共识,开发新功能或加速电子结构理论,以及检测到计算要求苛刻的方法是最必要的。当无法可靠地模拟属性时,大型实验数据集可用于培训ML模型。在没有手动策策的情况下,越来越复杂的自然语言处理和自动图像分析使得可以从文献中学习结构性质关系。在这些数据集上培训的模型将随着社区反馈而改善。
translated by 谷歌翻译
时间轴提供了最有效的方法之一,可以看到一段时间内发生的重要历史事实,从而呈现出从文本形式阅读等效信息的见解。通过利用生成的对抗性学习进行重要的句子分类,并通过吸收基于知识的标签来改善事件核心分辨率的性能,我们从多个(历史)文本文档中引入了两个分阶段的事件时间表生成的系统。我们在两个手动注释的历史文本文档上演示了我们的结果。我们的结果对历史学家,推进历史研究以及理解一个国家的社会政治格局的研究对历史学家来说非常有帮助。
translated by 谷歌翻译
在许多实际情况下,随着时间的推移,用于训练机器学习模型的数据将获得。但是,神经网络模型努力不断学习新概念,而不会忘记过去学到了什么。这种现象被称为灾难性的遗忘,由于实际的约束,通常很难预防,例如可以存储的数据量或可以使用的有限计算源。此外,从头开始培训大型神经网络,例如变形金刚,非常昂贵,需要大量的培训数据,这可能在感兴趣的应用程序领域中不可用。最近的趋势表明,基于参数扩展的动态体系结构可以在持续学习中有效地减少灾难性遗忘,但是这种需要复杂的调整以平衡不断增长的参数,并且几乎无法在任务中共享任何信息。结果,他们难以扩展到没有大量开销的大量任务。在本文中,我们在计算机视觉域中验证了一种最新的解决方案,称为适配器的自适应蒸馏(ADA),该解决方案是为了使用预先训练的变压器和适配器在文本分类任务上进行连续学习。我们在不同的分类任务上进行了经验证明,此方法在不进行模型或增加模型参数数量的情况下保持良好的预测性能。此外,与最先进的方法相比,推理时间的速度明显更快。
translated by 谷歌翻译
该项目旨在使用称为KubeFlow [1]的开源工具(端到端ML堆栈编排工具包)探索在Kubernetes上部署机器学习模型的过程。我们以管道形式创建端到端的机器学习模型,并分析各个点,包括设置,部署模型,性能,限制,限制和功能。我们希望我们的项目几乎像一个研讨会/入门报告一样,可以帮助Vanilla Cloud/Kubernetes用户对KubeFlow的零知识使用KubeFlow来部署ML模型。从不同的云上的设置到通过互联网提供训练有素的模型 - 我们提供详细信息和指标,详细介绍KubeFlow的性能。
translated by 谷歌翻译
我们证明,Littlestone Dimension $ d $的每一个在线学习的功能都可以接受具有有限信息复杂性的学习算法。为此,我们使用了全球稳定算法的概念。通常,这种全球稳定算法的信息复杂性是大但有限的,大致在$ d $中。我们还显示有改进的空间;对于规范的在线学习类,尺寸$ d $的仿射子空间的指标函数,信息复杂性可以在$ d $中以上对数。
translated by 谷歌翻译
我们在多变量时间序列预测(MTSF)的域中制定了一个新的推理任务,称为变量子集预报(VSF),其中仅在推理过程中可用一小部分变量子集。由于长期数据丢失(例如,传感器故障)或列车 /测试之间的高 - >低资源域移动,因此在推理过程中没有变量。据我们所知,在文献中尚未研究MTSF模型在存在此类故障的情况下的稳健性。通过广泛的评估,我们首先表明,在VSF设置中,最新方法的性能显着降低。我们提出了一种非参数包装技术,该技术可以应用于任何现有的预测模型。通过在4个数据集和5个预测模型的系统实验中,我们表明我们的技术能够恢复模型的接近95 \%性能,即使仅存在15 \%的原始变量。
translated by 谷歌翻译
近年来,Imbersive显示器(例如VR耳机,AR眼镜,多视图显示器,自由点电视)已成为一种新的展示技术,与传统显示相比,提供了更好的视觉体验和观众的参与度。随着3D视频和展示技术的发展,高动态范围(HDR)摄像机和显示器的消费市场迅速增长。缺乏适当的实验数据是3D HDR视频技术领域的主要研究工作的关键障碍。同样,足够的现实世界多曝光实验数据集的不可用是用于HDR成像研究的主要瓶颈,从而限制了观众的体验质量(QOE)。在本文中,我们介绍了在印度理工学院马德拉斯校园内捕获的多元化立体曝光数据集,该数据集是多元化的动植物的所在地。该数据集使用ZED立体相机捕获,并提供户外位置的复杂场景,例如花园,路边景观,节日场地,建筑物和室内地区,例如学术和居住区。提出的数据集可容纳宽深度范围,复杂的深度结构,使物体运动复杂化,照明变化,丰富的色彩动态,纹理差异,除了通过移动摄像机和背景运动引入的显着随机性。拟议的数据集可公开向研究界公开使用。此外,详细描述了捕获,对齐和校准多曝光立体视频和图像的过程。最后,我们讨论了有关HDR成像,深度估计,一致的音调映射和3D HDR编码的进度,挑战,潜在用例和未来研究机会。
translated by 谷歌翻译
科学和工程中的许多问题涉及在高维空间上优化昂贵的黑盒功能。对于此类黑盒优化(BBO)问题,我们通常会为在线功能评估进行少量预算,但通常也可以访问固定的离线数据集进行预读。先前的方法试图利用离线数据来近似函数或逆向,但与数据分布相距不足。我们提出了Black-Box优化变压器(Boomer),这是一种使用离线数据集预处理黑框优化器的生成框架。在Boomer中,我们训练自回归模型,以模仿隐式黑框功能优化器的轨迹运行。由于默认情况下这些轨迹不可用,因此我们通过从离线数据中对随机点进行排序来开发一个简单的随机启发式,以合成轨迹。从理论上讲,我们表明这种启发式诱导的轨迹,这些轨迹模仿了从不同的低保真度(探索)到高保真(剥削)样本的过渡。此外,我们引入了机制,以控制从勘探到剥削的轨迹过渡的速率,并在测试时间内将其推广到离线数据之外。从经验上讲,我们使用随便的蒙面变压器实例化繁荣,并在设计基础上进行评估,在设计基础上,我们平均排名最优于最优于最先进的基线。
translated by 谷歌翻译
我们在一般的非线性函数近似下研究无奖励增强学习(RL),并在各种标准结构假设下建立样品效率和硬度结果。从积极的一面来看,我们提出了在最小的结构假设下进行样品有效奖励探索的Rfolive(无奖励橄榄)算法,该假设涵盖了先前研究的线性MDPS的设置(Jin等,2020b),线性完整性(线性完整性)( Zanette等人,2020b)和低级MDP,具有未知的表示(Modi等,2021)。我们的分析表明,以前针对后两个设置的易学性或可及性假设在统计上对于无奖励探索而言并不是必需的。在负面方面,我们为在线性完整性假设下的无奖励和奖励意识探索提供统计硬度结果时,当基础特征未知时,显示了低级别和线性完整性设置之间的指数分离。
translated by 谷歌翻译