有一种现象在我们的生活中随处可见:最富有的 1% 人群拥有 35% 的社会财富;60% 的 twitter 信息由 2% 的用户发送;在医疗系统中,治疗费用最贵的五位病人治疗花费总和占总体的 80%。这些数字让人吃惊,仿佛世界正常秩序崩塌,金钱、信息和资源的完全非线性分布才是世界的本质。
事实并非如此。或者更确切地说,它不应该如此。
一个世纪以前,意大利经济学家维弗雷多·帕累托(Vilfredo Pareto)对市场经济进行了研究。帕累托发现:无论在哪个国家,最富有的 1/5 人口控制了整个国家大多数的财富。帕累托分布(Pareto distribution)延伸出很多其他概念 —— 80/20 原则、齐夫定律、幕律分布以及「赢者通吃」效应。这些定律的数据曲线走向基本一致:系统中最富有、最活跃或链接数量最多的个体所拥有的财富、活跃度和联系的紧密程度远高于平均水平。
而且,这样的模式是递归的。帕累托分布的 20% 之中的 20% 也几乎解释了整体,首要因素的重要性会远超排名第二的因素。比如英语中最常见的「the」,它的出现频率两倍于排名第二的「of」。
这种模式非常常见,所以帕累托法则也常常被称为「可预测的不平衡」。然而,哪怕经历了一个世纪的发展,我们依然常常预测失败。
我们预测失败的一部分原因来自高斯分布(即正态分布)。在一个典型的钟形分布中(如身高),平均数与中位数相等。从美国女性中随机抽取 100 人,她们的平均身高是 164.4 厘米,而排在第 50 位的女性身高也同样是 164.4 厘米。
但是,帕累托分布却符合 80/20 原则,也就是平均数远大于中位数。这就意味着在这样一个整体中,无论如何测量,大多数人都低于平均数。就像以前经济学家讲过的一个笑话 —— 比尔·盖茨走进一家酒吧,瞬问将里面所有人都变成了百万富翁,当然这指的是平均值。
帕累托分布适用于各种复杂的系统中:比如在所有英语词汇中,「the」和「of」就占据了 10%;历史上股市波动最大的一天造成的动荡是排名第 10 的波动日的两倍;网络相册的标签频次也遵循帕累托分布;地震的震级、书籍的畅销度、小行星的大小以及朋友间的亲密程度都是如此。
当你按照帕累托法则去思考的时候,你会发现:我们不能再将家庭平均收入与收入中位数混为一谈,也不能认为忠实用户和一般用户在使用社交网络时做着同样的事,那些性格外向的人并非只比一般人活跃一点点……在发现帕累托分布 100 年后的今天,我们应该能对这种不平衡的模型进行预测,看到其真正的影响。■
联系客服