齐普夫-Zipf定律

python机器学习-乳腺癌细胞挖掘（博主亲自录制视频）https://study.163.com/course/introduction.htm?courseId=1005269003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share

http://www.360doc.com/content/10/0811/00/84590_45147637.shtml

英美在互联网具有绝对霸权

Zipf定律是美国学者G.K.齐普夫提出的。可以表述为：在自然语言的语料库里，一个单词出现的次数与它在频率表里的排名成反比。

Zipf定律描述

1935年,哈佛大学的语言学专家Zipf在研究英文单词出现的频率时,发现如果把单词出现的频率按由大到小的顺序排列,则每个单词出现的频率与它的名次的常数次幂存在简单的反比关系，这种分布就称为Zipf定律,它表明在英语单词中,只有极少数的词被经常使用,而绝大多数词很少被使用.实际上,包括汉语在内的许多国家的语言都有这种特点。这个定律后来在很多领域得到了同样的验证，包括网站的访问者数量、城镇的大小和每个国家公司的数量。

Zipf其人

编辑

George Kingsley Zipf 1902年1月出生于一个德裔家庭（其祖父十九世纪中叶移居美国）。1924年，他以优异成绩毕业于哈佛学院。1925年在德国波恩、柏林学习。1929年完成Relative Frequency as a Determinant of Phonetic Change，获得哈佛比较语文学博士学位。然后，他开始在哈佛教授德语。1931年与Joyce Waters Brown结婚。1932年出版Selected Studies of the Principle of Relative Frequency in Language。1935年出版The Psycho- Biology of Language：An Introduction to Dynamic Philology。1939年被聘为讲师。1949年出版Human Behavior and the Principle of Least Effort：An Introduction to Human Ecology。1950年9月因患癌症病逝。（Prün & Zipf 2002）

Zipf应用

编辑

相信你一定听过这样的说法：

80%的财富集中在20%的人手中……

80%的用户只使用20%的功能……

20%的用户贡献了80%的访问量……

…………

你知道我在说“二八原则”或“20/80原则”，是的，没错！

-----------

如果把所有的单词（字）放在一起看呢？会不会20%的词（字）占了80%的出现次数？答案是肯定的。

早在上个世纪30年代，就有人（Zipf）对此作出了研究，并给出了量化的表达——齐普夫定律（Zipf's Law）：一个词在一个有相当长度的语篇中的等级序号（该词在按出现次数排列的词表中的位置，他称之为rank，简称r）与该词的出现次数（他称为frequency，简称f）的乘积几乎是一个常数（constant，简称C）。用公式表示，就是 r × f = C 。（此处的C一般认为取0.1）

Zipf定律是文献计量学的重要定律之一，它和洛特卡定律、布拉德福定律一起被并称为文献计量学的三大定律。

Zipf的专业是比较语文学，但是，以其名字命名的定律却早已走出语言学，进入了信息学、计算机科学、经济学、社会学、生物学、地理学、物理学等众多研究领域，在学术界享有极高的声誉。

齐夫定律已经在语言学、情报学、地理学、经济学、信息科学等领域有了广泛的应用，而且取得了不少可喜成果。中国数学家和语言学家周海中曾经指出：齐夫定律是描述词频分布规律的强大数学工具;作为经验定律，它仍有不足之处，有待进一步完善。^[1]

https://study.163.com/provider/400000000398149/index.htm?share=2&shareId=400000000398149（博主视频教学主页）