打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
信息为什么还有单位,熵为什么用 log 来计算?

前言

学习观10 里大家一定会有不少疑惑,其中之一就是那些信息到底是怎么计算出来的。在该视频中得以解答。

不过最少还仍然有两个问题:
  • 为什么网上有那么多说”熵是描述混乱或无序的?

  • 为什么做题消耗了那么多能量,小明最后只获得了 2 bits 的信息?

第一个问题牵扯到 热力学熵的一种应用,然而不管考虑的是不是热力学熵,这种描述都是非常具有误导性的。因为热力学熵就是信息熵的特例,如果不能想明白二者的关系,意味着还没搞明白。接下来的视频会详细解释。

题外话,很多人会觉得这个概念非常难的原因是因为它们反常识,违背你日常生活经验所构建出的模型。多数人都会根据自己已有的经验进行判断,从而产生抵触。但是不要认为自己很笨,因为信息和热力学熵的关系困扰科学家们都足足一百年之久。

第二个问题牵扯到 信息与知识的关系。是最主要想讲的内容

视频


正文

01

不科学啊

上个视频学习了如何定性的判断什么是熵和信息,其中有个例子:

当小明不知道选择题是 ABCD 哪个选项时:

  • 小红告小明 “D 选项是错的”,提供了 0.415 bits 的信息

  • 再告诉小明 “A选项是错的”,提供了 0.585 bits 的信息

  • 再告诉小明 “B选项是错的”,提供了 1 bit 的信息

可明明每次都是告诉他一个错误选项,为什么三次提供给小明的信息量却都不相同? 信息量到底是怎么计算的?信息为什么还有单位?

02

以此类推

回想一下,什么东西有单位?质量,温度等物理量。

没错,信息也是一个物理量。 要测量这个物理量,不妨回想一下我们是怎么测量质量的,“千克”最初又是怎么被定义出来的?

其实最初我们并不知道千克的质量,而是选择了一个参照物,把这个物体的质量就称为千克。当想要测量其他物体的质量时,就看这个物体的质量相当于多少个参照物体的质量。这里的”多少个“便是千克。如果换另一个参照物体,那么单位就会变化,比如斤。 

测量信息是也是一样,既然信息消除的是不确定性,那么就选择另一个事件的不确定性作为参照事件。 当想要测量其他事件的信息时,就看看待测事件的不确定性相当于 多少个 参照事件的不确定性。这里的”多少个“便是信息量。

当选择的参照事物是像抛硬币这样,只有 2 种等概率情况的事件时,测得的信息量的单位就被称为比特。

有 e (自然底数) 种等概率情况的事件时,测得的信息量的单位就被称为 nat。

有 10 种等概率情况的事件时,测得的信息量的单位就被称为 ban。

03

哪里不对

然而测量质量时,我们是用 待测物体的质量 除以 参照物体的质量。 因为 待测物体的质量 m 等于 参照物体的质量 K 和 乘以 参照物体个数 n ,所以当知道 m 要求 n 时,我们用乘法的反函数,即除法来计算。 

可是测量信息时,却不能用除法,因为 抛掷 3 个硬币能够产生的等可能结果并非 3*2=6,而是 2^3=8 种。也就是说 待测不确定情况的个数 m 是由 参照不确定情况的个数 K 的参照物个数 n 是指数关系进行累积的。

所以当知道可能情况的个数 m,想求这些情况相当于多少个 n 参照事件所产生的时,我们用指数运算的反函数,即对数运算来计算。

这样 8 个不确定情况就相当于 3 个硬币抛 出的结果, 4 个不确定情况就相当于 抛 2 个硬币得出的,故小明对答案是ABCD里哪一选项的不确定性: log_2 4 = 2 bits。

04

更普遍性

但这里有个前提,那就是被测事件的所有可能情况都必须是等概率才行,因为参照事件本身的两种情况就是等概率。 

可是当不知道答案的小明被告知 “有一半可能性是 C 选项” 时,各个情况的概率就不一样了,这时该如何计算熵呢?

答案是分别测量待测事件每种可能情况的信息量后,乘以它们各自的发生概率再相加即可。

不过,怎么测量每种情况的信息量呢? 怎么知道概率为 1/6 的情况的不确定性相当于抛掷多少次硬币所产生的不确定性呢? 

我们确实没法再用 log m 这个公式了,但我们知道 1% 会发生的情况,相当于从100个等概率情况中确定实际情况, 概率的倒数等于等概率情况的个数,m = 1/p。 

用 1/p 替换 m 后,我们就可以计算每种情况的信息量了, 再用每个情况的信息量乘以对应发生的概率,再相加后,就能算总信息量了。 

i: 用于指定第几个具体情况

p_i:第 i 个具体情况的概率

Σ:表示 i 个情况计算出的 p log p 累加起来

之所以前面有负号是因为 

log 1/p = log p^-1 = -log p

概率的倒数变成了负号被拿到前面了

回到例子中,不知道任何答案的小明对 答案的不确定性是:

log_2 1/p = log_2 1/4 = 2

当被告知 C 有 50%概率是正确答案时,小明对答案的不确定性是:

1/6 * log_2 6/1 + 

1/6 * log_2 6/1 + 

1/2 * log_2 2/1 + 

1/6 * log_2 1/6 = 1.79

2-1.79=0.21 bits, 也就是小红告诉小明”C 的概率是 50%“时提供的信息。

可以思考一下:

  • 为什么三次提供给小明的信息量却都不相同?

  • 学习观10 里的那些信息量是怎么计算的,都正确吗?

再次描述一遍信息与熵的关系:

某人对某物的熵(不确定性)相当于水杯,信息相当于水,新填充的水(新信息)要看杯子原来有多少水(已有信息),但水无法溢过杯子(能接收到的最大信息就是该人目前的剩余不确定性)。

05

我不相信天才,可我找不出其他词来形容他们

作者有很多偶像,以往的视频里多次提到过理查德·费曼(Richard Phillips Feynman),而这几期信息的视频,希望大家记住这位伟大的数学家:克劳德·香农Claude Elwood Shannon),信息公式的发明者。

投票


思维导图

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
数学之美系列 4 -- 怎样度量信息?
TF-TDF模型
十分钟搞懂决策树的数学原理
机器学习中各种熵的定义及理解
信息熵及其相关概念
坤鹏论:错了!信息熵≠信息量 轻松读懂什么是信息熵
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服