熵、信息熵、决定筹划树_信息_属性 云服务

19世纪,工程师在关注蒸汽机效率这个问题的时候,水要达到多热,要加入什么样的沸腾的物质才能让蒸汽机效率更高档等,为解答这些问题,热力学出身了,并引入了热量、温度、能量等观点。
并涌现了热力学定律,这个时候的热力学定律是为理解释热量是如何流动。
随着科学家理解深入,以及为了更好的理解宇宙进化及时间流逝,热力学第二定律涌现了熵这个观点,熵的观点是由德国物理学家克劳修斯于1865年所提出。
熵最初是被用在热力学方面的,由热力学第二定律可以推出熵增的结论,然后熵是用来对一个别系可以达到的状态数的一个度量,能达到的状态数越多熵越大。

信息熵

信息熵也基本是很类似的,是喷鼻香农1948年的一篇论文《A Mathematical Theory of Communication》提出了信息熵的观点,并且往后信息论也被作为一门单独的学科。

信息熵是用来衡量一个随机变量涌现的期望值,一个变量的信息熵越大,那么他涌现的各种情形也就越多,也便是包含的内容多,我们要描述他就须要付出更多的表达才可以,也便是须要更多的信息才能确定这个变量。
在吴军的那篇《汉语信息熵和措辞模型的繁芜度》文章里说,只考虑字频的话英文是4.46比特/字符的信息熵,汉字是9.6比特/字符,直不雅观上很随意马虎理解,英笔墨母只有26个,以是描述一个字母所须要的信息表示不多,而中笔墨却很多,就须要更多的信息量才能表示。
用点普通的来讲,信息熵衡量了一个别系的繁芜度,比如当我们想要比较两门课哪个更繁芜的时候,信息熵就可以为我们作定量的比较,信息熵大的就解释那门课的信息量大,更加繁芜。

决策树

那么信息熵可以做什么呢,首先信息熵作为衡量一个别系繁芜度的表示,在压缩时就相称于一个压缩极限的下限,不同的内容,如果他的信息熵越小,解释信息量越小,也便是压缩后所占的体积能够更小,信息熵在人工智能方面也有很多的运用,个中最有名的便是最大熵事理,保留尽可能大的不愿定性而作出最佳的只管即便无偏差的决定。

接着谈我们正在做着并且火着的大数据吧。
数据挖掘中有一类很主要的运用是分类器是决策树,决策树最主要的点是一层层剥离根、页节点,而最大略的方法便是通过信息熵。

为了使决策树最优,哪一个属性将在树的根节点被测试?分类能力最好的属性当选作树的根结点的测试。
采取不同测试属性及其先后顺序将会天生不同的决策树。
信息熵在决策树中的打算过程起了非常大的浸染,它能够帮助我们从浩瀚潜在的决策树中找到最有效的那一个。

定义一个统计属性,称为“信息增益”(information gain),用来衡量给定的属性区分演习样例的能力。
度量信息增益的标准为“熵”(entropy)。
信息量便是不愿定性的多少,熵越大,信息的不愿定性越大。

自傲息量:log(1/P)

H(x)=−∑x∈XP(x)log2P(x) //P(x)表示x发生的概率。

信息增益:Gain(S,A)≡Entropy(S)−∑v∈Values(A) |Sv |/|S| Entropy(Sv)

Values(A)是属性A所有可能值得凑集,Sv是S中属性A的值为v的子集。
该等式的第一项便是原凑集S的熵,第二项是用A分类后S的熵的期望值。
第二项描述的期望熵便是每个子集的熵的加权和,权值为属于Sv的样例占原始样例S的比例|Sv |/|S|。

对付测试数据集而言,假天命据集S有14个样例,9个正例,5个负例,三类属性(A1,A2,A3):

则:Entropy(S)=-(9/14)log2(9/14)-(5/14)log2(5/14)=0.940。

每个属性的Entropy(S)=属性下凑集的Entropy(S)的概率乘积。

而每个属性信息增益则是:数据集Entropy(S)-每个属性的Entropy(S);然后选择最大的那个属性作为此轮迭代的根节点属性,接着依次类推我们就能布局出全体决策树。

-------------------------------------------------------------------------------------------------------------------

关于IDEADATA:IDEADATA专注于从数据到信息的有效管理与运用,是领先的商业信息做事技能供应商,是数据仓库及大数据技能和运用的先行实践者。

著作权归作者所有。
商业转载请联系作者得到授权,非商业转载请注明出处。