# 熵 (信息论)

（重定向自資訊熵

2 bit的熵。

## 定义

${\displaystyle \mathrm {H} (X)=\mathrm {E} [\mathrm {I} (X)]=\mathrm {E} [-\ln(\mathrm {P} (X))]}$

${\displaystyle \mathrm {H} (X)=\sum _{i}{\mathrm {P} (x_{i})\,\mathrm {I} (x_{i})}=-\sum _{i}{\mathrm {P} (x_{i})\log _{b}\mathrm {P} (x_{i})},}$

pi = 0时，对於一些i值，对应的被加数0 logb 0的值将会是0，这与极限一致。

${\displaystyle \lim _{p\to 0+}p\log p=0}$

${\displaystyle \mathrm {H} (X|Y)=-\sum _{i,j}p(x_{i},y_{j})\log {\frac {p(x_{i},y_{j})}{p(y_{j})}}}$

## 範例

${\displaystyle I_{e}=-\log _{2}{p_{i}}}$ （对数以2为底，单位是位元（bit））
${\displaystyle I_{e}=-\ln {p_{i}}}$ （对数以${\displaystyle e}$ 为底，单位是纳特/nats）

${\displaystyle I_{e}=-\log _{2}{1 \over 26}=4.70}$

${\displaystyle I_{e}=-\log _{2}{1 \over 50}=5.64}$

${\displaystyle I_{e}=-\log _{2}{1 \over 4808}=12.23}$

${\displaystyle H_{s}=\sum _{i=1}^{n}p_{i}I_{e}=-\sum _{i=1}^{n}p_{i}\log _{2}p_{i}}$

## 熵的特性

${\displaystyle -K\sum _{i=1}^{n}p_{i}\log(p_{i})}$

### 对称性

${\displaystyle \mathrm {H} _{n}\left(p_{1},p_{2},\ldots \right)=\mathrm {H} _{n}\left(p_{2},p_{1},\ldots \right)}$ 等。

### 极值性

${\displaystyle \mathrm {H} _{n}(p_{1},\ldots ,p_{n})\leq \mathrm {H} _{n}\left({\frac {1}{n}},\ldots ,{\frac {1}{n}}\right)=\log _{b}(n)}$

${\displaystyle \mathrm {H} _{n}{\bigg (}\underbrace {{\frac {1}{n}},\ldots ,{\frac {1}{n}}} _{n}{\bigg )}=\log _{b}(n)<\log _{b}(n+1)=\mathrm {H} _{n+1}{\bigg (}\underbrace {{\frac {1}{n+1}},\ldots ,{\frac {1}{n+1}}} _{n+1}{\bigg )}.}$

### 可加性

${\displaystyle \mathrm {H} _{n}\left({\frac {1}{n}},\ldots ,{\frac {1}{n}}\right)=\mathrm {H} _{k}\left({\frac {b_{1}}{n}},\ldots ,{\frac {b_{k}}{n}}\right)+\sum _{i=1}^{k}{\frac {b_{i}}{n}}\,\mathrm {H} _{b_{i}}\left({\frac {1}{b_{i}}},\ldots ,{\frac {1}{b_{i}}}\right)}$

## 进一步性质

• 增減一概率为零的事件不改变熵：
${\displaystyle \mathrm {H} _{n+1}(p_{1},\ldots ,p_{n},0)=\mathrm {H} _{n}(p_{1},\ldots ,p_{n})}$
${\displaystyle \mathrm {H} (X)=\operatorname {E} \left[\log _{b}\left({\frac {1}{p(X)}}\right)\right]\leq \log _{b}\left(\operatorname {E} \left[{\frac {1}{p(X)}}\right]\right)=\log _{b}(n)}$

• 计算 (X,Y)得到的熵或信息量（即同时计算XY）等于通过进行两个连续实验得到的信息：先计算Y的值，然后在你知道Y的值条件下得出X的值。写作
${\displaystyle \mathrm {H} (X,Y)=\mathrm {H} (X|Y)+\mathrm {H} (Y)=\mathrm {H} (Y|X)+\mathrm {H} (X)}$
• 如果Y=f(X)，其中f是确定性的，那么Η(f(X)|X) = 0。应用前一公式Η(X, f(X))就会产生
${\displaystyle \mathrm {H} (X)+\mathrm {H} (f(X)|X)=\mathrm {H} (f(X))+\mathrm {H} (X|f(X)),}$

• 如果XY是两个独立实验，那么知道Y的值不影响我们对X值的认知（因为两者独立，所以互不影响）：
${\displaystyle \mathrm {H} (X|Y)=\mathrm {H} (X)}$
• 两个事件同时发生的熵不大于每个事件单独发生的熵的总和，且仅当两个事件是独立的情况下相等。更具体地说，如果XY是同一概率空间的两个随机变量，而 (X,Y)表示它们的笛卡尔积，则
${\displaystyle \mathrm {H} (X,Y)\leq \mathrm {H} (X)+\mathrm {H} (Y)}$

## 参考

1. ^ Douglas Robert Stinson; Maura Paterson. 第2.4节“熵”. Cryptography Theory and Practice [密码学理论与实践] 2.
2. ^ 詹姆斯·格雷克. 第9章“熵及其妖”. The Information: A History, a Theory, a Flood [信息简史]. 高博 (翻译), 楼伟珊 (审校), 高学栋 (审校), 李松峰 (审校) 1. 人民邮电出版社. 2013: 265. ISBN 978-7-115-33180-9 （中文（中国大陆）‎）. 根据在贝尔实验室里流传的一个说法，是约翰·冯·诺依曼建议香农使用这个词，因为没有人懂这个词的意思，所以他与人争论时可以无往而不利。这件事虽然子虚乌有，但听起来似乎有点道理。