齐夫定律是哈佛大学语言学家乔治·齐夫(George Zipf)1949年发现的一个实验定律,即在自然语言里,一个单词出现的频率与它在频率表里的排序成反比。
例如,在英语的 Brown 语料库中,“the”、“of”、“and”是出现频率最高,排序 1、2、3 的单词,分别占整个语料库100万个单词数的 7%、3.6%、2.9%[1]。可见排序第2位“of”的频率大约是第1“the”的1/2,第3的“and”是其 1/3。以此类推,排序第n单词的频率是最常见频率的1/n。最简单的齐夫定律排序遵从一次反比即 1/f 关系。由此可以得到它的等价描述:
在给定语料中,对于任意一个单词,其频率(Frequency)与频率排序(Rank)乘积大致是一个常数,即:Rank * Frequency ≈ Constant
图1:齐夫定律。排序和(绝对)频率呈反比,或者说乘积为一个常数。
对数学家和统计学家来说,齐夫定律是一种典型的幂律分布,更确切说是另一种统计分布帕累托分布(Pareto distribution)的特例。后者亦称帕累托定律,最形象的描述为“二八定律”:任何国家的20%的人口拥有80%的国民财富,完成80%的工作需要20%的工作量等。这些分布都反映了一种普遍的“穷者愈穷,富者愈富”的幂律现象。在齐夫定律中,则是第1富有的是第n富有的n倍。
齐夫定律是定量语言学研究中基于经验发现的第一个数学规律,却可以在很多非语言学领域的排序中被观察到。例如不同国家中城市的数量、公司的规模、网页访问频率、收入排序、地震震级、固体破碎时的碎片大小等等。
齐夫在自己一部著作《最省力原则——人类行为生态学导论》中给出了一个基于人类行为和经济学的解释。他认为,人本身作为一个“能量-物质”系统,为了解决某个问题,一定会遵循所做全部功(work)最小、或成本(cost)最小的路径移动,这既包括系统本身的物质-能量流动,也包括整体单位在环境中的移动,并称之为最省力原则(Principle of Least Effort)。
--
FROM 182.200.1.*