案例:该数据集的是一个关于每个学生成绩的数据集,接下来我们对该数据集进行分析,判断学生是否适合继续深造 数据集特征展示 GRE 成绩 (290 to 340) TOEFL 成绩(92 to 120) 学校等级 (1 to 5) 自身的意愿 (1 to 5) 推荐信的力度 (1 to 5) CGPA成绩 (6.8 to 9.92) 是否有研习经验 (0 or 1) 读硕士的意向 (0.34 to 0.97) 1.导入包 import numpy as np import pandas as pd
决策树算法 决策树算法主要有ID3, C4.5, CART这三种. ID3算法从树的根节点开始,总是选择信息增益最大的特征,对此特征施加判断条件建立子节点,递归进行,直到信息增益很小或者没有特征时结束. 信息增益:特征 A 对于某一训练集 D 的信息增益 \(g(D, A)\) 定义为集合 D 的熵 \(H(D)\) 与特征 A 在给定条件下 D 的熵 \(H(D/A)\) 之差. 熵(Entropy)是表示随机变量不确定性的度量. \[ g(D, A) = H(D) - H(D \mid A)