正文
回归我们的主题,“最大熵原理”指的是:
“当你要判断一件事情发生的概率时,要充分地利用所有已知的条件
但对于未知的条件,我们不该去做任何主观臆测,而应该让它的随机性最大 也就是熵值最大
这才是风险最小的 也是最合理的决定。”
有点抽象,但它实际上讲的就是这么一件事:
如果一个问题,它的初始混乱程度是100。
后来我们收集到了一些信息:
一部分能确定它们是真实有效的,这部分可宝贵了,我们要去好好地使用它,
利用它来增加确定性,并降低问题的模糊程度。
所以当我们使用了已知信息时,眼前的熵就被降低了,混乱程度就从100变成了70。
还有另一部分信息,我们并不能确定它们的可靠性,它们也是未知的一部分。
这时不去使用它们才是最明智的决定,因为一旦使用,看上去增加了信息,看上去熵值会从70降低到60,50,40,但因为可靠性不定,使用后得出的结论会有很大的风险出现扭曲和错误 - 从而得出错误的结论 拼出了错误的拼图。
于是,一旦决定不去使用,这时熵值还是70,是那个情况下的最大值。
这就是最大熵原理。
2
对待未知信息的最优处理
这个问题还是有些抽象,我再举几个例子。
比如,吴军老师提到的例子:
在我们掷骰子时,如果要猜“五点”朝上的概率,那最正确的肯定是猜1/6啊。
因为我们没有任何已知信息,而对于未知信息,不加主观臆断,让它随机性最大就好。
这里,平均分配恰好是随机性最大的一种方式,那么骰子上有六个点,我们假设每个面朝上的概率是1/6就好。
这符合最大熵原理。
但如果,我们已知,有一颗骰子被做了手脚 :
“五点”和“二点”那两个面的几个角被磨平了,导致五点朝上的概率是2/5,两点朝上的概率几乎为零,那剩下几个面朝上的概率是多少呢?
自然是3/20:因为除去五点朝上的2/5,还有3/5可以给四个面分,我们并不知道哪个面朝上的概率会多一些,那就假设它们都随机均等吧。
在这个Case中,我们充分地利用了“它“五点”和“二点”那两个面的几个角被磨平了,导致五点朝上的概率是2/5,两点朝上的概率几乎为零”这条已知信息,但对于剩下的几个未知的面没做主观臆测,而是保持它们的随机。
这也符合最大熵原理。