Every automaton can be decomposed into a cascade of basic automata. This is the Prime Decomposition Theorem by Krohn and Rhodes. We show that cascades allow for describing the sample complexity of automata in terms of their components. In particular, we show that the sample complexity is linear in the number of components and the maximum complexity of a single component, modulo logarithmic factors. This opens to the possibility of learning automata representing large dynamical systems consisting of many parts interacting with each other. It is in sharp contrast with the established understanding of the sample complexity of automata, described in terms of the overall number of states and input letters, which implies that it is only possible to learn automata where the number of states is linear in the amount of data available. Instead our results show that one can learn automata with a number of states that is exponential in the amount of data available.
translated by 谷歌翻译
完全可观察到的非确定性(FONT)计划通过具有非确定性效果的行动模型不确定性。现有的FONS计划算法是有效的,并采用了广泛的技术。但是,大多数现有算法对于处理非确定性和任务规模并不强大。在本文中,我们开发了一种新颖的迭代深度优先搜索算法,该算法解决了精心的计划任务并产生了强大的循环策略。我们的算法是针对精心计划的明确设计的,更直接地解决了Fond Planning的非确定性方面,并且还利用了启发式功能的好处,以使算法在迭代搜索过程中更有效。我们将提出的算法与著名的Food Planners进行了比较,并表明它在考虑不同的指标的几种不同类型的FOND领域中具有良好的性能。
translated by 谷歌翻译
增强业务流程管理系统(ABPMS)是一类新兴的过程感知信息系统,可利用值得信赖的AI技术。ABPMS增强了业务流程的执行,目的是使这些过程更加适应性,主动,可解释和上下文敏感。该宣言为ABPMS提供了愿景,并讨论了需要克服实现这一愿景的研究挑战。为此,我们定义了ABPM的概念,概述了ABPMS中流程的生命周期,我们讨论了ABPMS的核心特征,并提出了一系列挑战以实现具有这些特征的系统。
translated by 谷歌翻译
To make machine learning (ML) sustainable and apt to run on the diverse devices where relevant data is, it is essential to compress ML models as needed, while still meeting the required learning quality and time performance. However, how much and when an ML model should be compressed, and {\em where} its training should be executed, are hard decisions to make, as they depend on the model itself, the resources of the available nodes, and the data such nodes own. Existing studies focus on each of those aspects individually, however, they do not account for how such decisions can be made jointly and adapted to one another. In this work, we model the network system focusing on the training of DNNs, formalize the above multi-dimensional problem, and, given its NP-hardness, formulate an approximate dynamic programming problem that we solve through the PACT algorithmic framework. Importantly, PACT leverages a time-expanded graph representing the learning process, and a data-driven and theoretical approach for the prediction of the loss evolution to be expected as a consequence of training decisions. We prove that PACT's solutions can get as close to the optimum as desired, at the cost of an increased time complexity, and that, in any case, such complexity is polynomial. Numerical results also show that, even under the most disadvantageous settings, PACT outperforms state-of-the-art alternatives and closely matches the optimal energy cost.
translated by 谷歌翻译
尽管最近的自动文本识别取得了进步,但在历史手稿方面,该性能仍然保持温和。这主要是因为缺乏可用的标记数据来训练渴望数据的手写文本识别(HTR)模型。由于错误率的降低,关键字发现系统(KWS)提供了HTR的有效替代方案,但通常仅限于封闭的参考词汇。在本文中,我们提出了一些学习范式,用于发现几个字符(n-gram)的序列,这些序列需要少量标记的训练数据。我们表明,对重要的n-gram的认识可以减少系统对词汇的依赖。在这种情况下,输入手写线图像中的vocabulary(OOV)单词可能是属于词典的n-gram序列。对我们提出的多代表方法进行了广泛的实验评估。
translated by 谷歌翻译
由于传感器的成本和可靠性高,泵的设计人员会尽可能地估算可行操作点所需的传感器数量。获得良好估计的主要挑战是可用的数据量低。使用此数量的数据,估算方法的性能不足以满足客户的要求。为了解决这个缺乏数据的问题,获取高质量数据对于获得良好的估计很重要。根据这些考虑,我们开发了一个主动学习框架,用于估计能量场中使用的模块化多泵的工作点。特别是,我们专注于电涌距离的估计。我们应用主动学习以使用最小数据集估算浪涌距离。结果报告说,主动学习也是真正应用的宝贵技术。
translated by 谷歌翻译
预测意大利电负载的整个24轮廓的问题被寻址为多任务学习问题,其复杂性通过替代正则化方法保持控制。鉴于四分之一小时的采样,使用96个预测器,每个预测器都在线性地取决于96个回归量。 96x96矩阵重量形成96x96矩阵,可以看到并显示为在方域上采样的表面。探讨了降低表面自由度的不同正则化和稀疏方法,比较了所获得的预测与意大利传输系统操作员泰尔纳的预测。除了在四分之一小时意味着绝对百分比误差和平均绝对误差方面表现出艰难的替代,预测残差与Terna略微相关,这表明进一步改进可以随着预测聚集而产生进一步的改进。事实上,聚合预测在四分之一小时和每日平均值百分比误差方面产生了进一步的相关液滴,而是在考虑的三个测试年度上平均误差和根均值误差(高达30%)。
translated by 谷歌翻译
乳腺癌是最常见的癌症,并寄存癌症的妇女的最多死亡人数。结合大规模筛查政策的诊断活动的最新进展显着降低了乳腺癌患者的死亡率。然而,病理学家手动检查病理学家的载玻片是麻烦的,耗时的,并且受到显着的和观察者内的变异性。最近,全幻灯片扫描系统的出现授权了病理幻灯片的快速数字化,并启用了开发数字工作流程。这些进步进一步使利用人工智能(AI)来协助,自动化和增强病理诊断。但是AI技术,尤其是深度学习(DL),需要大量的高质量注释数据来学习。构建此类任务特定的数据集造成了几个挑战,例如数据获取级别约束,耗时和昂贵的注释,以及私人信息的匿名化。在本文中,我们介绍了乳腺癌亚型(BRACS)DataSet,一个大队列的注释血清杂环蛋白和eosin(H&E) - 染色的图像,以促进乳房病变的表征。 BRACS包含547个全幻灯片图像(WSIS),并从WSI中提取4539个兴趣区域(ROI)。每个WSI和各自的ROI都是通过三个董事会认证的病理学家的共识注释为不同的病变类别。具体而言,Bracs包括三种病变类型,即良性,恶性和非典型,其进一步亚级分为七个类别。据我们所知,这是WSI和ROI水平的最大的乳腺癌亚型的附带数据集。此外,通过包括被升值的非典型病变,Bracs提供了利用AI更好地理解其特征的独特机会。
translated by 谷歌翻译
有关各个消费者财务行为(如信用卡和贷款活动)的数百个变量的数据是在许多国家常规收集的,并在贷款决策中发挥重要作用。我们假设该数据的详细性质可用于预测看似无关的域等诸如个人健康的域中的结果。我们构建一系列机器学习模型,以证明信用报告数据可用于预测单个死亡率。与信用卡和各种贷款相关的可变团体,主要是无担保贷款,具有显着的预测力。这些变量的滞后也很重要,从而表明动态也很重要。基于消费者金融数据的提高死亡率预测可以对保险市场具有重要的经济影响,但也可能提高隐私问题。
translated by 谷歌翻译
与小组元素的作用一样,在数学中通常用于分析或利用给定问题设置中固有的对称性。在这里,我们提供有效的量子算法,用于对存储为量子状态的数据进行线性组卷积和互相关。我们的算法的运行时间在组的维度上是对数,因此与经典算法相比,当输入数据作为量子状态和线性操作提供良好的条件时,提供了指数加速。我们的理论框架是出于解决代数问题的量子算法的丰富文献,为量化机器学习和采用小组操作的数值方法中的许多算法开辟了一条途径。
translated by 谷歌翻译