挖掘大型数据集以预测新数据时,统计机器学习背后原则的限制不仅对大数据迅速产生了严峻的挑战,而且对数据生成过程被偏置为低算法复杂性的传统假设构成了严峻的挑战。即使在有限数据集生成器中为简单呈现潜在的算法信息偏见时,我们也显示完全自动化,有或没有访问伪随机发生器,可计算学习算法,特别是当前机器学习方法中使用的统计性质的统计性质(包括深度学习),可以始终通过足够大的数据集来欺骗,自然地或人工。特别地,我们证明,对于每个有限的学习算法,存在足够大的数据集大小,上面不可预测的欺骗者的算法概率是算法的上限(最多只取决于学习算法的乘法常数)任何其他更大数据集的概率。换句话说,非常大的和复杂的数据集可能欺骗学习算法作为任何其他特定数据集的“简单泡沫”。这些欺骗数据集保证,任何预测都会从高算法复杂性全局最佳解决方案中发散,同时朝向低算法复杂度局部最佳解决方案。我们讨论框架和经验条件,以避免这种欺骗性现象,远离统计机器学习,以基于或激励的算法信息理论和可计算性理论的内在力量。
translated by 谷歌翻译