信息为什么还有单位，熵为什么用 log 来计算？

前言

学习观10 里大家一定会有不少疑惑，其中之一就是那些信息到底是怎么计算出来的。在该视频中得以解答。

不过最少还仍然有两个问题：

为什么网上有那么多说”熵是描述混乱或无序的？

为什么做题消耗了那么多能量，小明最后只获得了 2 bits 的信息?

第一个问题：牵扯到热力学熵的一种应用，然而不管考虑的是不是热力学熵，这种描述都是非常具有误导性的。因为热力学熵就是信息熵的特例，如果不能想明白二者的关系，意味着还没搞明白。接下来的视频会详细解释。

题外话，很多人会觉得这个概念非常难的原因是因为它们反常识，违背你日常生活经验所构建出的模型。多数人都会根据自己已有的经验进行判断，从而产生抵触。但是不要认为自己很笨，因为信息和热力学熵的关系困扰科学家们都足足一百年之久。

第二个问题：牵扯到信息与知识的关系。是最主要想讲的内容。

视频

正文

—

“不科学啊”

上个视频学习了如何定性的判断什么是熵和信息，其中有个例子：

当小明不知道选择题是 ABCD 哪个选项时：

小红告小明 “D 选项是错的”，提供了 0.415 bits 的信息
再告诉小明 “A选项是错的”，提供了 0.585 bits 的信息
再告诉小明 “B选项是错的”，提供了 1 bit 的信息

可明明每次都是告诉他一个错误选项，为什么三次提供给小明的信息量却都不相同？信息量到底是怎么计算的？信息为什么还有单位？

—

“以此类推”

回想一下，什么东西有单位？质量，温度等物理量。

没错，信息也是一个物理量。要测量这个物理量，不妨回想一下我们是怎么测量质量的，“千克”最初又是怎么被定义出来的？

其实最初我们并不知道千克的质量，而是选择了一个参照物，把这个物体的质量就称为千克。当想要测量其他物体的质量时，就看这个物体的质量相当于多少个参照物体的质量。这里的”多少个“便是千克。如果换另一个参照物体，那么单位就会变化，比如斤。

测量信息是也是一样，既然信息消除的是不确定性，那么就选择另一个事件的不确定性作为参照事件。当想要测量其他事件的信息时，就看看待测事件的不确定性相当于多少个参照事件的不确定性。这里的”多少个“便是信息量。

当选择的参照事物是像抛硬币这样，只有 2 种等概率情况的事件时，测得的信息量的单位就被称为比特。

有 e (自然底数) 种等概率情况的事件时，测得的信息量的单位就被称为 nat。

有 10 种等概率情况的事件时，测得的信息量的单位就被称为 ban。

—

“哪里不对”

然而测量质量时，我们是用待测物体的质量除以参照物体的质量。因为待测物体的质量 m 等于参照物体的质量 K 和乘以参照物体个数 n ，所以当知道 m 要求 n 时，我们用乘法的反函数，即除法来计算。

可是测量信息时，却不能用除法，因为抛掷 3 个硬币能够产生的等可能结果并非 3*2=6，而是 2^3=8 种。也就是说待测不确定情况的个数 m 是由参照不确定情况的个数 K 的参照物个数 n 是指数关系进行累积的。

所以当知道可能情况的个数 m，想求这些情况相当于多少个 n 参照事件所产生的时，我们用指数运算的反函数，即对数运算来计算。

这样 8 个不确定情况就相当于 3 个硬币抛出的结果， 4 个不确定情况就相当于抛 2 个硬币得出的，故小明对答案是ABCD里哪一选项的不确定性： log_2 4 = 2 bits。

—

“更普遍性”

但这里有个前提，那就是被测事件的所有可能情况都必须是等概率才行，因为参照事件本身的两种情况就是等概率。

可是当不知道答案的小明被告知 “有一半可能性是 C 选项” 时，各个情况的概率就不一样了，这时该如何计算熵呢？

答案是分别测量待测事件每种可能情况的信息量后，乘以它们各自的发生概率再相加即可。

不过，怎么测量每种情况的信息量呢？怎么知道概率为 1/6 的情况的不确定性相当于抛掷多少次硬币所产生的不确定性呢？

我们确实没法再用 log m 这个公式了，但我们知道 1% 会发生的情况，相当于从100个等概率情况中确定实际情况，概率的倒数等于等概率情况的个数，m = 1/p。

用 1/p 替换 m 后，我们就可以计算每种情况的信息量了，再用每个情况的信息量乘以对应发生的概率，再相加后，就能算总信息量了。

i: 用于指定第几个具体情况

p_i：第 i 个具体情况的概率

Σ：表示 i 个情况计算出的 p log p 累加起来

之所以前面有负号是因为

log 1/p = log p^-1 = -log p

概率的倒数变成了负号被拿到前面了

回到例子中，不知道任何答案的小明对答案的不确定性是：

log_2 1/p = log_2 1/4 = 2

当被告知 C 有 50%概率是正确答案时，小明对答案的不确定性是：

1/6 * log_2 6/1 +

1/2 * log_2 2/1 +

1/6 * log_2 1/6 = 1.79

2-1.79=0.21 bits，也就是小红告诉小明”C 的概率是 50%“时提供的信息。

可以思考一下：

为什么三次提供给小明的信息量却都不相同？
学习观10 里的那些信息量是怎么计算的，都正确吗？

再次描述一遍信息与熵的关系：

某人对某物的熵（不确定性）相当于水杯，信息相当于水，新填充的水（新信息）要看杯子原来有多少水（已有信息），但水无法溢过杯子（能接收到的最大信息就是该人目前的剩余不确定性）。

—

“我不相信天才，可我找不出其他词来形容他们”

作者有很多偶像，以往的视频里多次提到过理查德·费曼（Richard Phillips Feynman），而这几期信息的视频，希望大家记住这位伟大的数学家：克劳德·香农（Claude Elwood Shannon），信息公式的发明者。

投票

思维导图

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。