我们研究了判别性子轨迹挖掘的问题。给定两组轨迹,该问题的目标是以子轨迹的形式提取运动模式,子轨迹更类似于一组的子轨迹并且与另一组的子轨迹更不相似。我们提出了一种新方法,称为统计判别子轨迹挖掘(SDSM),用于解决这个问题。 SDSM方法的一个优点是,在找到假阳性子轨迹的可能性小于指定的显着性阈值α(例如,0.05)的意义上,提取的子轨迹的统计显着性被适当地控制,这在该方法中是必不可少的。用于嘈杂环境下的科学或社会研究。从大规模轨迹数据集中找到这种统计上有区别的子轨迹在计算上和统计上都具有挑战性。在SDSM方法中,我们通过在子轨迹之间引入atree表示并在树上运行基于有效的基于纯化的统计推断方法来解决困难。据我们所知,SDSM是第一种能够从大规模轨迹数据集中有效提取统计上的判别子轨迹的方法。我们通过将其应用于具有1,000,000个轨迹的区域世界数据集来说明SDSM方法的有效性和可扩展性,其包含16,723,602,505个子轨迹。
translated by 谷歌翻译
我们研究了基于高斯过程(GP)的主动学习(AL),它有效地列举了黑盒函数的所有局部最小解。这个问题具有挑战性,因为局部解决方案的特点是零梯度和正定的Hessian性质,但这些衍生物不能直接观察到。我们提出了一种新的AL方法,其中顺序选择输入点,以便有效地更新GP导数的置信区间以枚举局部最小解。我们从理论上分析了所提出的方法,并通过数值实验证明了它的有用性。
translated by 谷歌翻译
贝叶斯优化(BO)是黑盒优化的有效工具,其中目标函数评估通常非常昂贵。在实践中,目标函数的低保真度近似值通常是可用的。最近,多保真贝叶斯优化(MFBO)引起了人们的关注,因为它可以通过使用那些更便宜的观测来显着加速优化过程。我们提出了一种新的MFBO信息理论方法。基于信息的方法在BO中很受欢迎,但是基于信息的MFBO的现有研究受到难以准确估计信息增益的困扰。 Ourapproach基于一种基于信息的BO变体,称为最大值熵搜索(MES),它极大地便于评估MFBO中的信息增益。实际上,我们的采集函数的计算是在分析上编写的,除了一维积分和采样之外,可以有效和准确地计算。我们通过使用合成和基准数据集证明了我们方法的有效性,并进一步展示了材料科学数据的实际应用。
translated by 谷歌翻译
在本文中,我们以sparselinear规则组合的形式考虑线性预测模型,其中规则是在输入空间中定义为超高度矩形的指示符函数。由于从训练数据集生成的所有可能规则的数量变得非常大,因此在拟合稀疏模型​​时很难考虑所有这些规则。在本文中,我们提出安全最优规则拟合(SORF)作为解决该问题的方法,其被公式化为具有稀疏化的凸优化问题。所提出的SORF方法利用了所有可能规则的集合可以表示为树的事实。通过扩展一种称为安全筛选的最近推广的凸优化技术,我们开发了用于修剪树的新方法,使得修剪的节点保证与预测模型相关。这种方法允许我们有效地学习由指数大量所有可能规则构建的预测模型。我们通过使用几个基准数据集的数值实验证明了所提出方法的有用性。
translated by 谷歌翻译
“哪些生成对抗网络(GAN)产生最合理的图像?”一直是研究人员经常被问到的问题。为了解决这个问题,我们首先提出了一个\ emph {不完全} U-统计量估计的最大均值差异$ \ mathrm {MMD} _ {inc} $来衡量生成和真实图像之间的分布差异。 $ \ mathrm {MMD} _ {inc} $享有渐近正态性,计算效率和模式诊断性的优点。然后,我们提出了一个GAN分析框架,使用带有$ \ mathrm {MMD} _ {inc} $的帖子选择推理(PSI)来选择和测试GANs家族中的“最佳”成员。在实验中,我们采用了7GAN变体的拟议框架,并比较了他们的$ \ mathrm {MMD} _ {inc} $得分。
translated by 谷歌翻译
我们研究公制学习的安全筛选。距离度量学习可以优化一组三元组上的度量,每个三元组由一对相同的类实例和一个不同类中的实例定义。然而,即使对于小数据集,可能的三元组的数量也非常大。我们的safetriplet筛选识别三胞胎,可以从优化问题中安全地移除,而不会失去最优性。与现有的安全筛选研究相比,三重筛选特别重要,因为(1)大量可能的三联体,和(2)优化中的半确定约束。我们推导出筛选规则的几种变体,以及analyzetheir关系。基准数据集的数值实验证明了安全三联体筛选的有效性。
translated by 谷歌翻译
在工业系统中,需要监控以检测故障的某些过程变量通常很难或不可能测量。软传感技术被广泛用于从易于测量的过程中估计这种难以测量的过程变量。软传感器建模需要训练数据集,包括各种状态的信息,如操作模式,但具有目标变量的故障数据集不足以作为trainingdataset。本文描述了一种半监督的软测量建模方法,在训练数据集中包含一个没有目标变量的不完整数据集。为了合并不完整的数据集,我们考虑系统中操作模式之间的转换点处的过程的性质。在从模式转换的信息获得的约束条件下估计操作模式的回归系数。在一个案例研究中,这种受约束的软传感器建模被用于预测具有加热和冷却操作模式的空调系统中的制冷剂泄漏。结果表明,该建模方法在具有多种操作模式的系统中是有前景的传感器。
translated by 谷歌翻译
在本文中,我们提出了一种简单但有效的方法,用于训练具有有限数量的训练数据的神经网络。我们的方法继承了知识蒸馏的思想,将知识从深度或宽度参考模型转移到浅或窄的目标模型。所提议的方法是将这一想法模仿到模仿预测参考估计器,这些预测器比我们想要训练的网络更能抵抗过度拟合。与以前需要大量标记的训练数据的知识蒸馏的所有工作不同,所提出的方法仅需要少量的训练数据。相反,我们引入了伪训练示例,这些示例作为模型参数的一部分进行了优化。几个基准数据集的实验结果表明,所提出的方法优于所有其他基线,如目标模型的初始训练和标准知识蒸馏。
translated by 谷歌翻译