mathematics - QLGQ/learning-python GitHub Wiki
Reference
http://blog.csdn.net/joycewyj/article/details/51684059
信息论的熵
熵(entropy)
熵,用来描述概率分布的混乱程度,描述包含的信息量。
越混乱的系统包含的信息量越大,反之确定的概率为1 的系统不包含任何信息量。
对于一个概率分布,其熵为:
- 离散型:
熵有以下特点:
- P = 1的系统熵最小,为0。
- 均匀分布的系统熵最大,为反之系统越偏斜熵越小。
- 对于自然界中的一个系统,熵只会增加不会减少,并且过程不可逆。
信息论的熵
熵的概念最早起源于物理学,用于度量一个热力学系统的无序程度。在信息论里则叫信息量,即熵是对不确定性的度量。从控制论的角度来看,应该叫不确定性。当我们不知道某事物具体状态,却知道它有几种可能性时,显然,可能性愈多,不确定性愈大。不确定性愈大的事物,我们最后确定了、知道了,这就是说我们从中得到了愈多的信息,也就是信息量大。所以,熵、不确定性、信息量,这三者是同一个数值。
- **两种可能性:**最简单的是只有两种可能性,非此即彼,我们就以这种事物的信息量为单位,叫1比特(bit)。
- **四种可能性:**用二分法,分为两组,我们要非此即彼地确定两次,才能确定其状态,所以含有2比特信息量。
- **如果可能性数目有2的n次方(N=2^n):**那就是n比特,即信息量等于可能性数目N的‘以2为底的对数’:H = log2(N) = lg(N)/lg(2)。后一个等号说明,以2为底的对数log2可用普通对数lg(以10为底)来计算,即用N的普通对数除2的普通对数。N = 3种可能性时,信息量H = lg3/lg2 = 1.585。
Reference
http://blog.csdn.net/joycewyj/article/details/51684059
信息论的熵
熵(entropy)
熵,用来描述概率分布的混乱程度,描述包含的信息量。
越混乱的系统包含的信息量越大,反之确定的概率为1 的系统不包含任何信息量。
对于一个概率分布,其熵为:
- 离散型:
熵有以下特点:
- P = 1的系统熵最小,为0。
- 均匀分布的系统熵最大,为反之系统越偏斜熵越小。
- 对于自然界中的一个系统,熵只会增加不会减少,并且过程不可逆。
信息论的熵
熵的概念最早起源于物理学,用于度量一个热力学系统的无序程度。在信息论里则叫信息量,即熵是对不确定性的度量。从控制论的角度来看,应该叫不确定性。当我们不知道某事物具体状态,却知道它有几种可能性时,显然,可能性愈多,不确定性愈大。不确定性愈大的事物,我们最后确定了、知道了,这就是说我们从中得到了愈多的信息,也就是信息量大。所以,熵、不确定性、信息量,这三者是同一个数值。
- **两种可能性:**最简单的是只有两种可能性,非此即彼,我们就以这种事物的信息量为单位,叫1比特(bit)。
- **四种可能性:**用二分法,分为两组,我们要非此即彼地确定两次,才能确定其状态,所以含有2比特信息量。
- **如果可能性数目有2的n次方(N=2^n):**那就是n比特,即信息量等于可能性数目N的‘以2为底的对数’:H = log2(N) = lg(N)/lg(2)。后一个等号说明,以2为底的对数log2可用普通对数lg(以10为底)来计算,即用N的普通对数除2的普通对数。N = 3种可能性时,信息量H = lg3/lg2 = 1.585。
熵的定义
信源的不确定性
信源发出的消息不肯定性越大,收信者获取的信息量就越大。如果信源发送的消息是确切的,则对收信者来说没有任何价值(没有信息量)。衡量不确定性的方法就是考察信源X的概率空间。X包含的状态越多,状态Xi的概率Pi越小,则不确定越大,所含有的信息量就越大。
不确定性程度用H(X)表示,简称不确定度,用概率的倒数的对数来度量不肯定程度。一般写成H(X) = log(1/p) = -log(p)。
自信息量
一个事件(消息)本身所包含的信息量,由事件的不确定性决定的。即随机事件Xi发生概率为P(Xi),则随机事件的自信息量定义为: I(Xi) = -logP(Xi)
。表示事件Xi发生后能提供的信息量。事件不同,则它的信息量也不同,所以自信息量是一个随机变量。不能用来表征整个信源的不肯定性。可以用平均自信息量来表征整个信源的不肯定性。
定义信息量为概率的负对数,是很合理的。试考虑一个两种可能性的事物,仅当可能性相等时,不确定性最大,最后我们知道了某一可能性确实发生了,也得到最大的信息量。如果其中某一个可能性很大(另一个必然很小),不确定性就很小。如果可能性大到1,也就必然要发生的,因为1的对数为0,我们知道它的发生这件事得到的信息也为0。
自信息量有以下性质:
- 非负性 是一个非负数
- 随机性 是随机变量
- 单调性 概率大自信息量小
- 数量 随机事件的不确定性在数量上等于它的自信息量
- 单位
以2为底,记作lb,单位比特(bit);
以e为底,记作ln,单位奈特(nat); 以10为底,记作lg,单位迪特(det)。
信息熵
随机变量自信息量I(Xi)的数学期望(平均自信息量),用H(X)表示,即为熵的定义:
即一个值域为{X1,...Xn}的随机变量X的熵值H定义为:
其中,E代表了期望函数,而I(X)是X的信息量(又称为信息本体)。I(X)本身是个随机变量。如果P代表了X的几率质量函数(probability mass function),则熵的公式可表示为:
在这里b是对数所使用的底,通常是2,自然常数e,或是10。当b=2,熵的单位是bit;当b=e,熵的单位是nat;而当b=10,熵的单位是hat。
Pi = 0时,对于一些i值,对应的被加数0logb(0)的值将会是0,这与极限一致。
信息增益
已经有了熵作为衡量训练样例集合纯度的标准,现在可以定义属于分类训练数据的效力的度量标准。这个标准被称为“信息增益(information gain)”。简单说,一个属性的信息增益就是由于使用这个属性分割样例而导致的期望熵降低(或者说,样本按照某属性划分时造成熵减少的期望)。在信息增益中,衡量标准是看特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要。对一个特征而言,系统有它和没它时信息量将发生变化,而前后信息量的差值就是这个特征给系统带来的信息量。
熵的特性
- 熵均大于等于零,即,Hs >= 0。
- 设N是系统S内的事件总数,则熵Hs <= log2(N)。当且仅当P1 = P2 = ... = Pn时等号成立,此时系统S的熵最大。
联合熵
:H(X,Y) <= H(X) + H(Y),当且仅当X,Y在统计学上相互独立时等号成立。条件熵
:H(X|Y) = H(X,Y) - H(Y) <= H(X),当且仅当X,Y在统计学上相互独立时等号成立。