可以使用Huffman代码来压缩使用给定字母的符号编写的文本,该代码可最大程度地减少编码文本的长度。但是,有必要使用特定于文本的代码簿,即符号代码字典来解码原始文本。因此,应通过完整的代码长度,即编码文本的长度以及代码簿的长度来评估压缩性能。我们研究了几个字母,用于压缩文本 - 字母,字母,音节,单词和短语的n-gram。如果仅保留足够短的文本,则最佳字母或两倍的字母字母是最佳的。对于大多数Project Gutenberg文本,根据代码簿的表示,最好的字母(将完整代码长度最小化的字母最小化)是由音节或单词给出的。字母3和4克,平均具有与音节/单词相当长的长度,其性能比音节或单词差。在拥有非常大的代码簿的帐户上,Word 2-grams也从来都不是最好的字母。我们还表明,代码书表示很重要 - 从天真的表示变为紧凑的表示可以显着改善具有大量符号的字母的事项,最著名的是单词。因此,语言(音节或单词)的表达含义元素提供了最佳的压缩字母。
translated by 谷歌翻译
熵编码是骨干数据压缩。新的机器学习基于的压缩方法通常使用名为非对称数字系统(ANS)的新的熵编码器[Duda等人,2015],它提供非常接近最佳比特率并简化[Townsend等,2019]高级压缩技术作为位编码。然而,在机器学习中的研究人员往往很难了解ANS的工作原理,这可以防止它们利用其完全多功能性。本文作为教育资源,通过从潜在变量模型和所谓的位诀窍的新视角呈现它,使其更加接近。我们将读者逐步引导到Python编程语言中的完整实现,然后我们将概括为更高级的用例。我们还展示并经验评估了为研究和生产而设计的各种熵编码器的开源库。相关教学视频和问题集可在线获取。
translated by 谷歌翻译
人类语言中发现的最强大的模式之一是ZIPF的缩写定律,即更短的单词的趋势。自ZIPF开创性研究以来,该定律被视为压缩的体现,即形式的长度最小化 - 自然交流的普遍原则。尽管对语言进行优化的说法已经变得时尚,但衡量语言优化程度的尝试却相当稀缺。在这里,我们证明压缩在无例外的大量语言中表现出来,并且独立于测量单位。这两个单词长度都可以在书面语言的字符以及口语的持续时间中检测到。此外,为了衡量优化程度,我们得出了一个随机基线的简单公式,并提出了两个分数归一化的分数,即,它们相对于最小值和随机基线都进行了归一化。我们分析了这些和其他分数的理论和统计优势和缺点。利用最佳分数,我们首次量化了语言中单词长度的最佳程度。这表明当单词长度以字符测量时,语言平均被优化至62%或67%(取决于源),当单词长度及时测量时,平均而言,平均而言,平均而言,平均而言,平均而言,平均而言,平均至65%。通常,口语持续时间比字符中的书面单词长度更优化。除了这里报告的分析外,我们的工作还铺平了衡量其他物种发声或手势的最佳程度的方法,并将其与书面,口语或签名的人类语言进行比较。
translated by 谷歌翻译
我们建议出现的定量和客观概念。我们的建议使用算法信息理论作为一个客观框架的基础,其中某个字符串编码观测数据。这种字符串的Kolmogorov结构功能中有多个滴剂被视为出现的标志。我们的定义除了扩展了粗粒和边界条件的概念外,还提供了一些理论上的结果。最后,我们面对对动态系统和热力学的应用。
translated by 谷歌翻译
or if the system is intended to service several individual channels in multiplex; (e) Several functions of several variables --in color television the message consists of three functions f (x,y, t), g(x, y, t), h(x, y, t) defined in a three-dimensional continuum --we may also think of these three functions as components of a vector field defined in the region --similarly, several black and white television sources would produce "messages" consisting of a number of functions of three variables; (f) Various combinations also occur, for example in television with an associated audio channel.. A transmitter which operates on the message in some way to produce a signal suitable for transmission over the channel. In telephony this operation consists merely of changing sound pressure into a proportional electrical current. In telegraphy we have an encoding operation which produces a sequence of dots, dashes and spaces on the channel corresponding to the message. In a multiplex PCM system the different speech functions must be sampled, compressed, quantized and encoded, and finally interleaved properly to construct the signal. Vocoder systems, television and frequency modulation are other examples of complex operations applied to the message to obtain the signal.3. The channel is merely the medium used to transmit the signal from transmitter to receiver. It may be a pair of wires, a coaxial cable, a band of radio frequencies, a beam of light, etc. 4. The receiver ordinarily performs the inverse operation of that done by the transmitter, reconstructing the message from the signal.5. The destination is the person (or thing) for whom the message is intended.We wish to consider certain general problems involving communication systems. To do this it is first necessary to represent the various elements involved as mathematical entities, suitably idealized from their physical counterparts. We may roughly classify communication systems into three main categories: discrete, continuous and mixed. By a discrete system we will mean one in which both the message and the signal are a sequence of discrete symbols. A typical case is telegraphy where the message is a sequence of letters and the signal a sequence of dots, dashes and spaces. A continuous system is one in which the message and signal are both treated
translated by 谷歌翻译
这项工作探讨了Rissanen开发的最小描述长度(MDL)原则之间的连接,以及DESOLNEUX,MOISAN和MOREL提出的结构检测的A-Contrario框架。MDL原则侧重于整个数据的最佳解释,而A逆方法专注于检测具有异常统计数据的数据部分。虽然在不同的理论形式主义中陷害,但两种方法都在他们的机器中分享了许多常见的概念和工具,并在许多有趣的场景中产生非常相似的配方,从简单的玩具例子到实际应用,如曲线和线段检测的多边形近似值在图像中。我们还制定了两种方法正式等同的条件。
translated by 谷歌翻译
我们重新讨论了最小的局部语法编码问题。在这种情况下,局部语法编码器按符号编码语法符号,而最小的语法转换最小化的语法最小化可以最大程度地减少由局部语法编码的长度给出的预设语法中的语法长度。众所周知,对于严格的正熵率,这种最小代码是强烈通用的,而最小语法中的规则数构成了源互信息的上限。尽管完全最小的代码可能是棘手的,但可以有效地计算约束的最小块代码。在本说明中,无论熵率如何,我们提供了最小块代码的强大普遍性的新的,更简单,更一般的证明。该证明基于一个简单的Zipfian绑定,用于排名概率。顺便说一句,我们还从经验上表明,最小块代码中规则的数量不能清楚地区分长期内存和无内存来源,例如英语文本和其字符的随机置换。这与我们以前的期望相抵触。
translated by 谷歌翻译
我们介绍了一种新型的格式转换加密,其中密文的格式隐含在机器学习的生成模型中。在这个原始的周围,我们构建了一个用于大型公共互联网平台(例如Twitter)上的秘密消息传递的系统。宽松地,我们的系统构成了经过身份验证的加密方案,一种方法是将随机密文钻头编码为生成模型的种子索引令牌分布的样品中的样品。通过修复部署方案,我们被迫考虑系统级和算法解决方案,以应对真正的挑战 - 例如接收者端解析的歧义,以及实际的代币发行的低信息携带能力〜-先前的工作。我们将GPT-2用作生成模型,以便我们的系统加密将明文Bitsring转换为适合发布公共平台的自然语言封面。我们考虑了对互联网平台内容的全面视图的对手,其目标是表面使用我们的系统进行秘密消息传递的帖子。我们进行了一套实验,以提供安全性证据,并探索运营效率和可检测性之间的权衡。
translated by 谷歌翻译
We are interested in understanding the underlying generation process for long sequences of symbolic events. To do so, we propose COSSU, an algorithm to mine small and meaningful sets of sequential rules. The rules are selected using an MDL-inspired criterion that favors compactness and relies on a novel rule-based encoding scheme for sequences. Our evaluation shows that COSSU can successfully retrieve relevant sets of closed sequential rules from a long sequence. Such rules constitute an interpretable model that exhibits competitive accuracy for the tasks of next-element prediction and classification.
translated by 谷歌翻译
单词是基本的语言单位,通过含义将思想和事物联系起来。但是,单词在文本序列中并未独立出现。句法规则的存在导致相邻单词之间的相关性。此外,单词不是均匀分布的,而是遵循幂定律,因为带有纯语义内容的术语似乎比指定语法关系的术语要少得多。使用序数模式方法,我们对11种主要语言的词汇统计连接进行了分析。我们发现,语言用来表达单词关系的各种举止产生了独特的模式分布。值得注意的是,我们发现这些关系可以用马尔可夫2的模型建模,并且该结果对所有研究的语言都有普遍有效。此外,模式分布的波动可以使我们能够确定文本及其作者的历史时期。综上所述,这些结果强调了时间序列分析和信息理论方法的相关性,以理解自然语言的统计相关性。
translated by 谷歌翻译
这项正在进行的工作旨在为统计学习提供统一的介绍,从诸如GMM和HMM等经典模型到现代神经网络(如VAE和扩散模型)缓慢地构建。如今,有许多互联网资源可以孤立地解释这一点或新的机器学习算法,但是它们并没有(也不能在如此简短的空间中)将这些算法彼此连接起来,或者与统计模型的经典文献相连现代算法出现了。同样明显缺乏的是一个单一的符号系统,尽管对那些已经熟悉材料的人(如这些帖子的作者)不满意,但对新手的入境造成了重大障碍。同样,我的目的是将各种模型(尽可能)吸收到一个用于推理和学习的框架上,表明(以及为什么)如何以最小的变化将一个模型更改为另一个模型(其中一些是新颖的,另一些是文献中的)。某些背景当然是必要的。我以为读者熟悉基本的多变量计算,概率和统计以及线性代数。这本书的目标当然不是​​完整性,而是从基本知识到过去十年中极强大的新模型的直线路径或多或少。然后,目标是补充而不是替换,诸如Bishop的\ emph {模式识别和机器学习}之类的综合文本,该文本现在已经15岁了。
translated by 谷歌翻译
迄今为止,通信系统主要旨在可靠地交流位序列。这种方法提供了有效的工程设计,这些设计对消息的含义或消息交换所旨在实现的目标不可知。但是,下一代系统可以通过将消息语义和沟通目标折叠到其设计中来丰富。此外,可以使这些系统了解进行交流交流的环境,从而为新颖的设计见解提供途径。本教程总结了迄今为止的努力,从早期改编,语义意识和以任务为导向的通信开始,涵盖了基础,算法和潜在的实现。重点是利用信息理论提供基础的方法,以及学习在语义和任务感知通信中的重要作用。
translated by 谷歌翻译
语言模型通常仅在文本上进行培训,而无需其他基础。关于从这种过程中可以推断出多少自然语言语义的争论。我们证明,可以从理想的语言模型中提取句子之间的判断,该模型可以完美地了解其目标分布,假设训练句子是由Gricean Agents产生的,即遵循实用学语言学理论的基本交流原理的代理人。我们还表明,可以从对这种Gricean数据训练的语言模型的预测中解码需要判断。我们的结果揭示了一种理解未标记的语言数据中编码的语义信息的途径,以及从语言模型中提取语义的潜在框架。
translated by 谷歌翻译
社区检测是网络科学中最重要的方法领域之一,在过去的几十年里引起了大量关注的方法之一。该区域处理网络的自动部门到基础构建块中,目的是提供其大规模结构的概要。尽管它的重要性和广泛的采用普及,所谓的最先进和实际在各种领域实际使用的方法之间存在明显的差距。在这里,我们试图通过根据是否具有“描述性”或“推论”目标来划分现有方法来解决这种差异。虽然描述性方法在基于社区结构的直观概念的网络中找到模式的模式,但是推理方法阐述了精确的生成模型,并尝试将其符合数据。通过这种方式,他们能够为网络形成机制提供见解,并以统计证据支持的方式与随机性的单独结构。我们审查如何使用推论目标采用描述性方法被陷入困境和误导性答案,因此应该一般而言。我们认为推理方法更通常与更清晰的科学问题一致,产生更强大的结果,并且应该是一般的首选。我们试图消除一些神话和半真半假在实践中使用社区检测时,努力改善这些方法的使用以及对结果的解释。
translated by 谷歌翻译
我们建立了量子算法设计与电路下限之间的第一一般连接。具体来说,让$ \ mathfrak {c} $是一类多项式大小概念,假设$ \ mathfrak {c} $可以在统一分布下的成员查询,错误$ 1/2 - \ gamma $通过时间$ t $量子算法。我们证明如果$ \ gamma ^ 2 \ cdot t \ ll 2 ^ n / n $,则$ \ mathsf {bqe} \ nsubseteq \ mathfrak {c} $,其中$ \ mathsf {bqe} = \ mathsf {bque} [2 ^ {o(n)}] $是$ \ mathsf {bqp} $的指数时间模拟。在$ \ gamma $和$ t $中,此结果是最佳的,因为它不难学习(经典)时间$ t = 2 ^ n $(没有错误) ,或在Quantum Time $ t = \ mathsf {poly}(n)$以傅立叶采样为单位为1/2美元(2 ^ { - n / 2})$。换句话说,即使对这些通用学习算法的边际改善也会导致复杂性理论的主要后果。我们的证明在学习理论,伪随机性和计算复杂性的几个作品上构建,并且至关重要地,在非凡的经典学习算法与由Oliveira和Santhanam建立的电路下限之间的联系(CCC 2017)。扩展他们对量子学习算法的方法,结果产生了重大挑战。为此,我们展示了伪随机发电机如何以通用方式意味着学习到较低的连接,构建针对均匀量子计算的第一个条件伪随机发生器,并扩展了Impagliazzo,JaiSwal的本地列表解码算法。 ,Kabanets和Wigderson(Sicomp 2010)通过微妙的分析到量子电路。我们认为,这些贡献是独立的兴趣,可能会发现其他申请。
translated by 谷歌翻译
复杂的事件识别(CER)系统在过去二十年中变得流行,因为它们能够“立即”检测在实时事件流上的模式。然而,缺乏预测模式可能发生在例如由Cer发动机实际检测到这种发生之前的模式。我们提出了一项正式的框架,试图解决复杂事件预测(CEF)的问题。我们的框架结合了两个形式主义:a)用于编码复杂事件模式的符号自动机; b)预测后缀树,可以提供自动机构的行为的简洁概率描述。我们比较我们提出的方法,以防止最先进的方法,并在准确性和效率方面展示其优势。特别地,预测后缀树是可变的马尔可夫模型,可以通过仅记住足够的信息的过去序列来捕获流中的长期依赖性。我们的实验结果表明了能够捕获这种长期依赖性的准确性的益处。这是通过增加我们模型的顺序来实现的,以满足需要执行给定顺序的所有可能的过去序列的所有可能的过去序列的详尽枚举的全阶马尔可夫模型。我们还广泛讨论CEF解决方案如何最佳地评估其预测的质量。
translated by 谷歌翻译
Methods of pattern recognition and machine learning are applied extensively in science, technology, and society. Hence, any advances in related theory may translate into large-scale impact. Here we explore how algorithmic information theory, especially algorithmic probability, may aid in a machine learning task. We study a multiclass supervised classification problem, namely learning the RNA molecule sequence-to-shape map, where the different possible shapes are taken to be the classes. The primary motivation for this work is a proof of concept example, where a concrete, well-motivated machine learning task can be aided by approximations to algorithmic probability. Our approach is based on directly estimating the class (i.e., shape) probabilities from shape complexities, and using the estimated probabilities as a prior in a Gaussian process learning problem. Naturally, with a large amount of training data, the prior has no significant influence on classification accuracy, but in the very small training data regime, we show that using the prior can substantially improve classification accuracy. To our knowledge, this work is one of the first to demonstrate how algorithmic probability can aid in a concrete, real-world, machine learning problem.
translated by 谷歌翻译
我们可以使用机器学习来压缩图形数据吗?在图中没有排序对传统压缩算法构成了重大挑战,限制了其可达到的收益以及他们发现相关模式的能力。另一方面,大多数图表压缩方法依赖于域依赖的手工制作表示,并且无法适应不同的底层图分布。这项工作旨在建立必要的原则,无损图形压缩方法应遵循以接近熵储存下限。我们不是对图形分布进行僵化的假设,我们将压缩机作为概率模型制定,可以从数据学习并概括到看不见的实例。我们的“分区和代码”框架需要三个步骤:首先,分区算法将图形分解为子图,然后映射到我们学习概率分布的小词典的元素,最后,熵编码器转换了表示进入比特。所有组件(分区,字典和分发)都是参数化的,可以用梯度下降训练。理论上,从温和条件下理论上比较了几个图形编码的压缩质量,并证明了PNC实现了线性或二次以顶点的数量而产生的压缩增益。经验上,PNC对不同的现实网络产生了显着的压缩改进。
translated by 谷歌翻译
本文在对数损耗保真度下调查了多终端源编码问题,这不一定导致添加性失真度量。该问题是通过信息瓶颈方法的扩展到多源场景的激励,其中多个编码器必须构建其来源的协同速率限制描述,以便最大化关于其他未观察的(隐藏的)源的信息。更确切地说,我们研究所谓的基本信息 - 理论极限:(i)双向协同信息瓶颈(TW-CIB)和(ii)协同分布式信息瓶颈(CDIB)问题。 TW-CIB问题由两个遥远的编码器分开观察边缘(依赖)组件$ X_1 $和$ X_2 $,并且可以通过有关隐藏变量的信息提取信息的目的进行有限信息的多个交换机(Y_1,Y_2)$ ,它可以任意依赖于$(X_1,X_2)$。另一方面,在CDIB中,有两个合作的编码器,分别观察$ x_1 $和$ x_2 $和第三个节点,它可以侦听两个编码器之间的交换,以便获取有关隐藏变量$ y $的信息。根据标准化(每个样本)多字母互信息度量(对数损耗保真度)来测量的相关性(图 - 优点),并且通过限制描述的复杂性来产生一个有趣的权衡,从而测量编码器和解码器之间的交换所需的费率。内部和外界与这些问题的复杂性相关区域的衍生自特征从哪个感兴趣的案例的特征在于。我们所产生的理论复杂性相关区域最终针对二进制对称和高斯统计模型进行评估。
translated by 谷歌翻译
我们介绍了Proteus,这是一种新型的自设计近似范围滤波器,它根据采样数据进行配置,以便针对给定的空间要求优化其误报率(FPR)。 Proteus统一了最先进的范围过滤器的概率和确定性设计空间,以在较大的用例中实现稳健的性能。 Proteus的核心是我们的上下文前缀FPR(CPFPR)模型 - 在其设计空间中基于前缀过滤器的FPR的正式框架。我们从经验上证明了模型和Proteus在合成工作负载和现实世界数据集上优化的能力的准确性。我们进一步评估了RockSDB中的Proteus,并表明它能够将端到端的性能提高到5.3倍,而不是更脆的先进方法,例如Surf和Rosetta。我们的实验还表明,与端到端的性能增长相比,建模的成本并不显着,并且Proteus对工作负载转移的稳定性。
translated by 谷歌翻译