决策树是一种逻辑大略的机器学习算法,它是一种树形构造,以是叫决策树。

「AI 科普」一文看懂决定筹划树(3个步骤+3种范例算法+10个优缺点)_增益_算法 AI简讯

本文将先容决策树的基本观点、决策树学习的 3 个步骤、3 种范例的决策树算法、决策树的 10 个优缺陷。

什么是决策树?

决策树是一种办理分类问题的算法,决策树算法采取树形构造,利用层层推理来实现终极的分类。
决策树由下面几种元素构成:

根节点:包含样本的全集内部节点:对应特色属性测试叶节点:代表决策的结果

预测时,在树的内部节点处用某一属性值进行判断,根据判断结果决定进入哪个分支节点,直达到到叶节点处,得到分类结果。

这是一种基于 if-then-else 规则的有监督学习算法,决策树的这些规则通过演习得到,而不是人工制订的。

决策树是最大略的机器学习算法,它易于实现,可阐明性强,完备符合人类的直不雅观思维,有着广泛的运用。

举个栗子:

上面的说法过于抽象,下面来看一个实际的例子。
银行要用机器学习算法来确定是否给客户发放贷款,为此须要稽核客户的年收入,是否有房产这两个指标。
领导安排你实现这个算法,你想到了最大略的线性模型,很快就完成了这个任务。

首先判断客户的年收入指标。
如果大于20万,可以贷款;否则连续判断。
然后判断客户是否有房产。
如果有房产,可以贷款;否则不能贷款。

这个例子的决策树如下图所示:

决策树学习的 3 个步骤

特色选择

特色选择决定了利用哪些特色来做判断。
在演习数据集中,每个样本的属性可能有很多个,不同属性的浸染有大有小。
因而特色选择的浸染便是筛选出跟分类结果干系性较高的特色,也便是分类能力较强的特色。

在特色选择中常日利用的准则是:信息增益。

决策树天生

选择好特色后,就从根节点触发,对节点打算所有特色的信息增益,选择信息增益最大的特色作为节点特色,根据该特色的不同取值建立子节点;对每个子节点利用相同的办法天生新的子节点,直到信息增益很小或者没有特色可以选择为止。

决策树剪枝

剪枝的紧张目的是对抗「过拟合」,通过主动去掉部分分支来降落过拟合的风险。

3 种范例的决策树算法

ID3 算法

ID3 是最早提出的决策树算法,他便是利用信息增益来选择特色的。

C4.5 算法

他是 ID3 的改进版,他不是直策应用信息增益,而是引入“信息增益比”指标作为特色的选择依据。

CART(Classification and Regression Tree)

这种算法即可以用于分类,也可以用于回归问题。
CART 算法利用了基尼系数取代了信息熵模型。

决策树的优缺陷

优点

决策树易于理解和解释,可以可视化剖析,随意马虎提取出规则;可以同时处理标称型和数值型数据;比较适宜处理有缺失落属性的样本;能够处理不干系的特色;测试数据集时,运行速率比较快;在相对短的韶光内能够对大型数据源做出可行且效果良好的结果。

缺陷

随意马虎发生过拟合(随机森林可以很大程度上减少过拟合);随意马虎忽略数据集中属性的相互关联;对付那些各种别样本数量不一致的数据,在决策树中,进行属性划分时,不同的剖断准则会带来不同的属性选择方向;信息增益准则对可取数目较多的属性有所偏好(范例代表ID3算法),而增益率准则(CART)则对可取数目较少的属性有所偏好,但CART进行属性划分时候不再大略地直策应用增益率尽心划分,而是采取一种启示式规则)(只假如利用了信息增益,都有这个缺陷,如RF)。
ID3算法打算信息增益时结果倾向数值比较多的特色。