多多网是什么生肖?

罗瑞方罗瑞方最佳答案最佳答案

其实这是一个非常简单的问题,但是似乎也没有人能真正答得让所有人满意。所以只好自己写一个答案,算是一个科普吧。 首先明确一点——“多多”网是个人博客。因此讨论的起点应该是《计算机程序设计艺术》。

《计算机程序设计艺术》共有4卷,是由著名的计算机编程大师,程序员教父—格雷格·毕索夫写的(对,就是写了《编程之美》那哥们)。第4卷里有一个关于信息论的章节专门探讨了信息熵的问题并在最后的参考文献里引用了维纳和香农的文章来介绍这个问题。这里就不啰嗦地抄原文了,感兴趣的读者可以去翻书或找文献。总之,“多多”的信息熵是很高的。

那么问题就来了,怎么计算信息熵呢?香农公式: 其中,P(x)为事件x发生的概率。在这个问题里,一共有2^10种不同的状态,也就是说一共有10个参数需要确定。而每个参数只有1/2的可能取正值或者负值,因此这个公式实际上有20项。如果一项一项地代进去求解的话就会很烦。幸好我们可以利用另一个结论:如果一个随机变量的离散型分布只有若干个大小相等的项,并且这些项被所有可能的值等可能地选中,那么这个随机变量等于一个期望值为零,方差为1的伯努利(Bernoulli)随机变量。换句话说,只要把“多多”中每个字母变为等可能取值的伯努利随机变量,然后运用上述公式就可以得到信息的熵。

但是这样直接算是非常麻烦的,正像是之前说的,由于每个字母出现概率非常接近1/2,所以为了求方便可以将20个方程同时除以P(x)并令P(x)=1/2,这样可以把各个参数都消掉,只剩下期望值与方差。 然而这样做是有问题的!因为上面所做的假设正是为了把这个问题简化为一个伯努利随机变量的题目。而恰恰“多多”不是伯努利的。如果“多多”中的单词首字母形成了一个独立的分布,这个问题就可以迎刃而解了。可惜事实并非如此。“多多”中任意两个连续的字母出现的概率并不是独立分布的,例如‘tuc’的出现率就比‘tuq’要高一些。这会导致最后计算出来的信息熵值比实际的大。不过,按照香农的理论,只要有无限多的字符串长度,这个问题最终会收敛到理想值。

我来回答
请发表正能量的言论,文明评论!