基于机器学习(ML)的系统的制作需要在其生命周期中进行统计控制。仔细量化业务需求和识别影响业务需求的关键因素降低了项目故障的风险。业务需求的量化导致随机变量的定义,表示通过统计实验需要分析的系统关键性能指标。此外,可提供的培训和实验结果产生影响系统的设计。开发系统后,测试并不断监控,以确保其符合其业务需求。这是通过持续应用统计实验来分析和控制关键绩效指标来完成的。本书教授制作和开发基于ML的系统的艺术。它倡导“首先”方法,强调从项目生命周期开始定义统计实验的需要。它还详细讨论了如何在整个生命周期中对基于ML的系统进行统计控制。
translated by 谷歌翻译
深度卷积神经网络(CNN)最近已达到最先进的手写文本识别(HTR)性能。但是,最近的研究表明,典型的CNN的学习性能是有限的,因为它们是具有简单(线性)神经元模型的同质网络。由于它们的异质网络结构结合了非线性神经元,最近提出了操作神经网络(ONNS)来解决这一缺点。自我结合是具有生成神经元模型的ONN的自组织变化,可以使用泰勒近似来生成任何非线性函数。在这项研究中,为了提高HTR的最新性能水平,提出了新型网络模型核心中的2D自组织(自我强调)。此外,本研究中使用了可变形的卷积,最近被证明可以更好地解决写作风格的变化。 IAM英语数据集和Hadara80p阿拉伯数据集中的结果表明,具有自我影响的操作层的拟议模型显着提高了字符错误率(CER)和单词错误率(WER)。与同行CNN相比,Hadara80p中的自我强调将CER和3.4%降低,在IAM数据集中,自我强调将CER降低1.2%和3.4%,为0.199%和1.244%。基准IAM上的结果表明,与自相互紧缩的操作层的拟议模型通过显着的边缘优于最近的深CNN模型,而使用具有可变形卷积的自我冲突表明了出色的结果。
translated by 谷歌翻译