人类语言中发现的最强大的模式之一是ZIPF的缩写定律,即更短的单词的趋势。自ZIPF开创性研究以来,该定律被视为压缩的体现,即形式的长度最小化 - 自然交流的普遍原则。尽管对语言进行优化的说法已经变得时尚,但衡量语言优化程度的尝试却相当稀缺。在这里,我们证明压缩在无例外的大量语言中表现出来,并且独立于测量单位。这两个单词长度都可以在书面语言的字符以及口语的持续时间中检测到。此外,为了衡量优化程度,我们得出了一个随机基线的简单公式,并提出了两个分数归一化的分数,即,它们相对于最小值和随机基线都进行了归一化。我们分析了这些和其他分数的理论和统计优势和缺点。利用最佳分数,我们首次量化了语言中单词长度的最佳程度。这表明当单词长度以字符测量时,语言平均被优化至62%或67%(取决于源),当单词长度及时测量时,平均而言,平均而言,平均而言,平均而言,平均而言,平均而言,平均至65%。通常,口语持续时间比字符中的书面单词长度更优化。除了这里报告的分析外,我们的工作还铺平了衡量其他物种发声或手势的最佳程度的方法,并将其与书面,口语或签名的人类语言进行比较。
translated by 谷歌翻译