「AI 科普」一文看懂决定筹划树（3个步骤+3种范例算法+10个优缺点）_增益_算法

2024-11-20 17:13:40 AI简讯

决策树是一种逻辑大略的机器学习算法，它是一种树形构造，以是叫决策树。

「AI 科普」一文看懂决定筹划树（3个步骤+3种范例算法+10个优缺点）_增益_算法 AI简讯

本文将先容决策树的基本观点、决策树学习的 3 个步骤、3 种范例的决策树算法、决策树的 10 个优缺陷。

什么是决策树？

决策树是一种办理分类问题的算法，决策树算法采取树形构造，利用层层推理来实现终极的分类。
决策树由下面几种元素构成：

根节点：包含样本的全集内部节点：对应特色属性测试叶节点：代表决策的结果

预测时，在树的内部节点处用某一属性值进行判断，根据判断结果决定进入哪个分支节点，直达到到叶节点处，得到分类结果。

这是一种基于 if-then-else 规则的有监督学习算法，决策树的这些规则通过演习得到，而不是人工制订的。

决策树是最大略的机器学习算法，它易于实现，可阐明性强，完备符合人类的直不雅观思维，有着广泛的运用。

举个栗子：

上面的说法过于抽象，下面来看一个实际的例子。
银行要用机器学习算法来确定是否给客户发放贷款，为此须要稽核客户的年收入，是否有房产这两个指标。
领导安排你实现这个算法，你想到了最大略的线性模型，很快就完成了这个任务。

首先判断客户的年收入指标。
如果大于20万，可以贷款；否则连续判断。
然后判断客户是否有房产。
如果有房产，可以贷款；否则不能贷款。

这个例子的决策树如下图所示：

决策树学习的 3 个步骤

特色选择

特色选择决定了利用哪些特色来做判断。
在演习数据集中，每个样本的属性可能有很多个，不同属性的浸染有大有小。
因而特色选择的浸染便是筛选出跟分类结果干系性较高的特色，也便是分类能力较强的特色。

在特色选择中常日利用的准则是：信息增益。

决策树天生

选择好特色后，就从根节点触发，对节点打算所有特色的信息增益，选择信息增益最大的特色作为节点特色，根据该特色的不同取值建立子节点；对每个子节点利用相同的办法天生新的子节点，直到信息增益很小或者没有特色可以选择为止。

决策树剪枝

剪枝的紧张目的是对抗「过拟合」，通过主动去掉部分分支来降落过拟合的风险。

3 种范例的决策树算法

ID3 算法

ID3 是最早提出的决策树算法，他便是利用信息增益来选择特色的。

C4.5 算法

他是 ID3 的改进版，他不是直策应用信息增益，而是引入“信息增益比”指标作为特色的选择依据。

CART（Classification and Regression Tree）

这种算法即可以用于分类，也可以用于回归问题。
CART 算法利用了基尼系数取代了信息熵模型。

决策树的优缺陷

优点

决策树易于理解和解释，可以可视化剖析，随意马虎提取出规则；可以同时处理标称型和数值型数据；比较适宜处理有缺失落属性的样本；能够处理不干系的特色；测试数据集时，运行速率比较快；在相对短的韶光内能够对大型数据源做出可行且效果良好的结果。

缺陷

随意马虎发生过拟合（随机森林可以很大程度上减少过拟合）；随意马虎忽略数据集中属性的相互关联；对付那些各种别样本数量不一致的数据，在决策树中，进行属性划分时，不同的剖断准则会带来不同的属性选择方向；信息增益准则对可取数目较多的属性有所偏好（范例代表ID3算法），而增益率准则（CART）则对可取数目较少的属性有所偏好，但CART进行属性划分时候不再大略地直策应用增益率尽心划分，而是采取一种启示式规则）（只假如利用了信息增益，都有这个缺陷，如RF）。
ID3算法打算信息增益时结果倾向数值比较多的特色。