使用信息增益构造决策树，完成后剪枝

使用信息增益构造决策树，完成后剪枝
1 构造决策树
2 决策树后剪枝

1 构造决策树

1 根结点的选择

色泽信息增益

根据色泽划分为青绿，乌黑，浅白三个子集

计算信息熵

\[\begin{aligned}
Ent(D^1) &= -(\frac{2}{4} log_2 \frac{2}{4}+\frac{2}{4} log_2 \frac{2}{4})=1 \\
Ent(D^2) &= -(\frac{1}{4} log_2 \frac{1}{4}+\frac{3}{4} log_2 \frac{3}{4})=0.811 \\
Ent(D^3)&= -(\frac{2}{2} log_2 \frac{2}{2}+\frac{0}{2} log_2 \frac{0}{2})=0 \\
Ent(D)&= -(\frac{5}{10} log_2 \frac{5}{10}+\frac{5}{10} log_2 \frac{5}{10})=1 \\
Gani(D,色泽)&=Ent(D)-\sum_{v=1}^3 \frac{|D^v|}{|D|}Ent(D^v) \\
&= 1 - (\frac{4}{10}\times 1+\frac{4}{10} \times 0.811+\frac{2}{10}\times0) \\
&= 0.2756

\end{aligned}
\]

根蒂信息增益

根据根蒂划分为蜷缩稍蜷硬挺三个子集

计算信息熵

\[\begin{aligned}
Ent(D^1) &= -(\frac{2}{5} log_2 \frac{2}{5}+\frac{3}{5} log_2 \frac{3}{5})=0.971 \\
Ent(D^2) &= -(\frac{2}{4} log_2 \frac{2}{4}+\frac{2}{4} log_2 \frac{2}{4})=1 \\
Ent(D^3)&= -(\frac{1}{1} log_2 \frac{1}{1}+\frac{0}{1} log_2 \frac{0}{1})=0 \\
Ent(D)&= -(\frac{5}{10} log_2 \frac{5}{10}+\frac{5}{10} log_2 \frac{5}{10})=1 \\
Gani(D,根蒂)&=Ent(D)-\sum_{v=1}^3 \frac{|D^v|}{|D|}Ent(D^v) \\
&= 1 - (\frac{5}{10}\times 0.971+\frac{4}{10} \times 1+\frac{1}{10}\times0) \\
&= 0.1145

\end{aligned}
\]

敲声信息增益

根据色泽划分为浊响，沉闷，清脆三个子集

计算信息熵

\[\begin{aligned}
Ent(D^1) &= -(\frac{2}{6} log_2 \frac{2}{6}+\frac{4}{6} log_2 \frac{4}{6})=0.918 \\
Ent(D^2) &= -(\frac{2}{3} log_2 \frac{2}{3}+\frac{1}{3} log_2 \frac{1}{3})=0.918 \\
Ent(D^3)&= -(\frac{1}{1} log_2 \frac{1}{1}+\frac{0}{1} log_2 \frac{0}{1})=0 \\
Ent(D)&= -(\frac{5}{10} log_2 \frac{5}{10}+\frac{5}{10} log_2 \frac{5}{10})=1 \\
Gani(D,敲声)&=Ent(D)-\sum_{v=1}^3 \frac{|D^v|}{|D|}Ent(D^v) \\
&= 1 - (\frac{6}{10}\times 0.918+\frac{3}{10} \times 0.918+\frac{1}{10}\times0) \\
&=0.2346

\end{aligned}
\]

纹理信息增益

根据纹理划分为清晰稍糊模糊三个子集

计算信息熵

\[\begin{aligned}
Ent(D^1) &= -(\frac{2}{6} log_2 \frac{2}{6}+\frac{4}{6} log_2 \frac{4}{6})=0.918 \\
Ent(D^2) &= -(\frac{2}{3} log_2 \frac{2}{3}+\frac{1}{3} log_2 \frac{1}{3})=0.918 \\
Ent(D^3)&= -(\frac{1}{1} log_2 \frac{1}{1}+\frac{0}{1} log_2 \frac{0}{1})=0 \\
Ent(D)&= -(\frac{5}{10} log_2 \frac{5}{10}+\frac{5}{10} log_2 \frac{5}{10})=1 \\
Gani(D,纹理)&=Ent(D)-\sum_{v=1}^3 \frac{|D^v|}{|D|}Ent(D^v) \\
&= 1 - (\frac{6}{10}\times 0.918+\frac{3}{10} \times 0.918+\frac{1}{10}\times0) \\
&= 0.2346

\end{aligned}
\]

脐部信息增益

根据色泽划分为凹陷，稍凹，平坦三个子集

计算信息熵

\[\begin{aligned}
Ent(D^1) &= -(\frac{1}{4} log_2 \frac{1}{4}+\frac{3}{4} log_2 \frac{3}{4})=0.811 \\
Ent(D^2) &= -(\frac{2}{4} log_2 \frac{2}{4}+\frac{2}{4} log_2 \frac{2}{4})=1 \\
Ent(D^3)&= -(\frac{2}{2} log_2 \frac{2}{2}+\frac{0}{2} log_2 \frac{0}{2})=0 \\
Ent(D)&= -(\frac{5}{10} log_2 \frac{5}{10}+\frac{5}{10} log_2 \frac{5}{10})=1 \\
Gani(D,脐部)&=Ent(D)-\sum_{v=1}^3 \frac{|D^v|}{|D|}Ent(D^v) \\
&= 1 - (\frac{4}{10}\times 0.811+\frac{4}{10} \times 1+\frac{2}{10}\times0) \\
&= 0.2756

\end{aligned}
\]

触感信息增益

根据色泽划分为硬滑，软粘两个子集

计算信息熵

\[\begin{aligned}
Ent(D^1) &= -(\frac{3}{6} log_2 \frac{3}{6}+\frac{3}{6} log_2 \frac{3}{6})=1 \\
Ent(D^2) &= -(\frac{2}{4} log_2 \frac{2}{4}+\frac{2}{4} log_2 \frac{2}{4})=1 \\
Ent(D)&= -(\frac{5}{10} log_2 \frac{5}{10}+\frac{5}{10} log_2 \frac{5}{10})=1 \\
Gani(D,触感)&=Ent(D)-\sum_{v=1}^2 \frac{|D^v|}{|D|}Ent(D^v) \\
&= 1 - (\frac{6}{10}\times 1 +\frac{4}{10} \times 1 \\
&= 0

\end{aligned}
\]

选择根结点构建决策树

\[\begin{aligned}
Gain(D,色泽)=0.2756 \ Gain(D,根蒂)=0.1145 \ Gain(D,敲声)=0.2346 \\
Gain(D,纹理)=0.2346 \ Gain(D,脐部)=0.2756 \ Gain(D,触感)=0

\end{aligned}
\]

比较六个属性的信息增益大小，选择脐部作为根结点

则数据集被划分为

2 对分支结点\({1,2,3,14}\)进行划分

色泽信息增益

根据色泽划分为青绿，乌黑，浅白三个子集

计算信息熵

\[\begin{aligned}
Ent(D^1) &= -(\frac{0}{1} log_2 \frac{0}{1}+\frac{1}{1} log_2 \frac{1}{1})=0 \\
Ent(D^2) &= -(\frac{0}{2} log_2 \frac{0}{2}+\frac{2}{2} log_2 \frac{2}{2})=0 \\
Ent(D^3)&= -(\frac{1}{1} log_2 \frac{1}{1}+\frac{0}{1} log_2 \frac{0}{1})=0 \\
Ent(D)&= -(\frac{1}{4} log_2 \frac{1}{4}+\frac{3}{4} log_2 \frac{3}{4})=0.811 \\
Gani(D,色泽)&=Ent(D)-\sum_{v=1}^3 \frac{|D^v|}{|D|}Ent(D^v) \\
&= 0.811 - (\frac{1}{4}\times 0+\frac{2}{4} \times 0 +\frac{1}{4}\times 0) \\
&= 0.811

\end{aligned}
\]

根蒂信息增益

根据根蒂划分为蜷缩稍蜷两个子集

计算信息熵

\[\begin{aligned}
Ent(D^1) &= -(\frac{0}{3} log_2 \frac{0}{3}+\frac{3}{3} log_2 \frac{3}{3})=0 \\
Ent(D^2) &= -(\frac{1}{1} log_2 \frac{1}{1}+\frac{0}{1} log_2 \frac{0}{1})=0 \\
Ent(D)&= -(\frac{1}{4} log_2 \frac{1}{4}+\frac{3}{4} log_2 \frac{3}{4})= 0.811\\
Gani(D,根蒂)&=Ent(D)-\sum_{v=1}^2 \frac{|D^v|}{|D|}Ent(D^v) \\
&= 0.811 - (\frac{3}{4}\times 0 +\frac{1}{4} \times 0) \\
&= 0.811

\end{aligned}
\]

敲声信息增益

根据色泽划分为浊响，沉闷两个子集

计算信息熵

\[\begin{aligned}
Ent(D^1) &= -(\frac{0}{2} log_2 \frac{0}{2}+\frac{2}{2} log_2 \frac{2}{2})=0 \\
Ent(D^2) &= -(\frac{1}{2} log_2 \frac{1}{2}+\frac{1}{2} log_2 \frac{1}{2})=1 \\

Ent(D)&= -(\frac{1}{4} log_2 \frac{1}{4}+\frac{3}{4} log_2 \frac{3}{4})=0.811 \\
Gani(D,敲声)&=Ent(D)-\sum_{v=1}^2 \frac{|D^v|}{|D|}Ent(D^v) \\
&= 0.811 - (\frac{2}{4}\times 0 +\frac{2}{4} \times 1 ) \\
&=0.311

\end{aligned}
\]

纹理信息增益

根据纹理划分为清晰稍糊两个子集

计算信息熵

\[\begin{aligned}
Ent(D^1) &= -(\frac{0}{3} log_2 \frac{0}{3}+\frac{3}{3} log_2 \frac{3}{3})=0 \\
Ent(D^2) &= -(\frac{1}{1} log_2 \frac{1}{1}+\frac{0}{1} log_2 \frac{0}{1})=0 \\

Ent(D)&= -(\frac{1}{4} log_2 \frac{1}{4}+\frac{3}{4} log_2 \frac{3}{4})=0.811 \\
Gani(D,纹理)&=Ent(D)-\sum_{v=1}^2 \frac{|D^v|}{|D|}Ent(D^v) \\
&= 0.811 - (\frac{3}{4}\times 0+\frac{1}{4} \times 0 ) \\
&= 0.811

\end{aligned}
\]

触感信息增益

根据触感划分为硬滑一个子集

计算信息熵

\[\begin{aligned}
Ent(D^1) &= -(\frac{1}{4} log_2 \frac{1}{4}+\frac{3}{4} log_2 \frac{3}{4})=0.811 \\
Ent(D)&= -(\frac{1}{4} log_2 \frac{1}{4}+\frac{3}{4} log_2 \frac{3}{4})= 0.811 \\
Gani(D,触感)&=Ent(D)-\sum_{v=1}^1 \frac{|D^v|}{|D|}Ent(D^v) \\
&= 0.811 - (\frac{4}{4}\times 0.811 ) \\
&= 0

\end{aligned}
\]

选择分类结点构建决策树

\[\begin{aligned}
Gain(D,色泽)=0.811 \ Gain(D,根蒂)=0.811 \ Gain(D,敲声)=0.311 \\
Gain(D,纹理)=0.811 \ \ \ Gain(D,触感)=0

\end{aligned}
\]

不妨选择色泽作为分类依据

形成的决策树

3 对分支 \({6,7,15,17}\)进行划分

色泽信息增益

根据色泽划分为青绿，乌黑两个子集

计算信息熵

\[\begin{aligned}
Ent(D^1) &= -(\frac{1}{2} log_2 \frac{1}{2}+\frac{1}{2} log_2 \frac{1}{2})=1 \\
Ent(D^2) &= -(\frac{1}{2} log_2 \frac{0}{2}+\frac{1}{2} log_2 \frac{1}{2})=1 \\

Ent(D)&= -(\frac{2}{4} log_2 \frac{2}{4}+\frac{2}{4} log_2 \frac{2}{4})= 1 \\
Gani(D,色泽)&=Ent(D)-\sum_{v=1}^2 \frac{|D^v|}{|D|}Ent(D^v) \\
&= 1 - (\frac{2}{4}\times 1+\frac{2}{4} \times 1 ) \\
&= 0

\end{aligned}
\]

根蒂信息增益

根据根蒂划分为蜷缩稍蜷两个子集

计算信息熵

\[\begin{aligned}
Ent(D^1) &= -(\frac{1}{3} log_2 \frac{1}{3}+\frac{2}{3} log_2 \frac{2}{3})=0。918\\
Ent(D^2) &= -(\frac{1}{1} log_2 \frac{1}{1}+\frac{0}{1} log_2 \frac{0}{1})=0 \\
Ent(D)&= -(\frac{2}{4} log_2 \frac{2}{4}+\frac{2}{4} log_2 \frac{2}{4})= 1\\
Gani(D,根蒂)&=Ent(D)-\sum_{v=1}^2 \frac{|D^v|}{|D|}Ent(D^v) \\
&= 1 - (\frac{3}{4}\times 0.918 +\frac{1}{4} \times 0) \\
&= 0.3115

\end{aligned}
\]

敲声信息增益

根据色泽划分为浊响，沉闷两个子集

计算信息熵

\[\begin{aligned}
Ent(D^1) &= -(\frac{1}{3} log_2 \frac{1}{3}+\frac{2}{3} log_2 \frac{2}{3})=0.918 \\
Ent(D^2) &= -(\frac{1}{1} log_2 \frac{1}{1}+\frac{0}{1} log_2 \frac{0}{1})= 0 \\

Ent(D)&= -(\frac{2}{4} log_2 \frac{2}{4}+\frac{2}{4} log_2 \frac{2}{4})=1 \\
Gani(D,敲声)&=Ent(D)-\sum_{v=1}^2 \frac{|D^v|}{|D|}Ent(D^v) \\
&= 1 - (\frac{3}{4}\times 0.918 +\frac{1}{4} \times 0 ) \\
&=0.3115

\end{aligned}
\]

纹理信息增益

根据纹理划分为清晰稍糊两个子集

计算信息熵

\[\begin{aligned}
Ent(D^1) &= -(\frac{1}{2} log_2 \frac{1}{2}+\frac{1}{2} log_2 \frac{1}{2})=1 \\
Ent(D^2) &= -(\frac{1}{2} log_2 \frac{1}{2}+\frac{1}{2} log_2 \frac{1}{2})=1 \\

Ent(D)&= -(\frac{2}{4} log_2 \frac{2}{4}+\frac{2}{4} log_2 \frac{2}{4})=1 \\
Gani(D,纹理)&=Ent(D)-\sum_{v=1}^2 \frac{|D^v|}{|D|}Ent(D^v) \\
&= 1 - (\frac{2}{4}\times 1+\frac{2}{4} \times 1 ) \\
&= 0

\end{aligned}
\]

触感信息增益

根据触感划分为硬滑，软粘两个子集

计算信息熵

\[\begin{aligned}
Ent(D^1) &= -(\frac{1}{3} log_2 \frac{1}{3}+\frac{2}{3} log_2 \frac{2}{3})=0.918 \\
Ent(D^2) &= -(\frac{1}{1} log_2 \frac{1}{1}+\frac{0}{1} log_2 \frac{0}{1})=0 \\

Ent(D)&= -(\frac{2}{4} log_2 \frac{2}{4}+\frac{2}{4} log_2 \frac{2}{4})=1 \\
Gani(D,触感)&=Ent(D)-\sum_{v=1}^2 \frac{|D^v|}{|D|}Ent(D^v) \\
&= 1 - (\frac{3}{4}\times 0.918+\frac{1}{4} \times 0 ) \\
&= 0.2295

\end{aligned}
\]

选择分类结点构建决策树

\[\begin{aligned}
Gain(D,色泽)=0 \ Gain(D,根蒂)=0.3115 \ Gain(D,敲声)=0.3115 \\
Gain(D,纹理)=0 \ \ \ Gain(D,触感)=0.2295

\end{aligned}
\]

不妨选择根蒂作为分类依据

此时决策树为

4 对分支\({6,7,15}\)进行划分

色泽信息增益

根据色泽划分为青绿，乌黑两个子集

计算信息熵

\[\begin{aligned}
Ent(D^1) &= -(\frac{0}{1} log_2 \frac{0}{1}+\frac{1}{1} log_2 \frac{1}{1})=0 \\
Ent(D^2) &= -(\frac{1}{2} log_2 \frac{1}{2}+\frac{1}{2} log_2 \frac{1}{2})=1 \\

Ent(D)&= -(\frac{1}{3} log_2 \frac{1}{3}+\frac{2}{3} log_2 \frac{2}{3})= 0.918 \\
Gani(D,色泽)&=Ent(D)-\sum_{v=1}^2 \frac{|D^v|}{|D|}Ent(D^v) \\
&= 0.918 - (\frac{1}{3}\times 0+\frac{2}{3} \times 1 ) \\
&= 0.252

\end{aligned}
\]

敲声信息增益

根据色泽划分为浊响一个子集

计算信息熵

\[\begin{aligned}
Ent(D^1) &= -(\frac{1}{3} log_2 \frac{1}{3}+\frac{2}{3} log_2 \frac{2}{3})=0.918 \\

Ent(D)&= -(\frac{2}{3} log_2 \frac{2}{3}+\frac{2}{3} log_2 \frac{2}{3})=0.918 \\
Gani(D,敲声)&=Ent(D)-\sum_{v=1}^1 \frac{|D^v|}{|D|}Ent(D^v) \\
&= 0.918 - (\frac{3}{3}\times 0.918 ) \\
&=0

\end{aligned}
\]

纹理信息增益

根据纹理划分为清晰稍糊两个子集

计算信息熵

\[\begin{aligned}
Ent(D^1) &= -(\frac{1}{2} log_2 \frac{1}{2}+\frac{1}{2} log_2 \frac{1}{2})=1 \\
Ent(D^2) &= -(\frac{0}{1} log_2 \frac{0}{1}+\frac{1}{1} log_2 \frac{1}{1})=0\\

Ent(D)&= -(\frac{1}{3} log_2 \frac{1}{3}+\frac{2}{3} log_2 \frac{2}{3})=0.918 \\
Gani(D,纹理)&=Ent(D)-\sum_{v=1}^2 \frac{|D^v|}{|D|}Ent(D^v) \\
&= 0.918 - (\frac{2}{3}\times 1+\frac{1}{3} \times 0 ) \\
&= 0.252

\end{aligned}
\]

触感信息增益

根据触感划分为软粘一个子集

计算信息熵

\[\begin{aligned}
Ent(D^1) &= -(\frac{1}{3} log_2 \frac{1}{3}+\frac{2}{3} log_2 \frac{2}{3})=0.918 \\

Ent(D)&= -(\frac{1}{3} log_2 \frac{1}{3}+\frac{2}{3} log_2 \frac{2}{3})=0.918\\
Gani(D,触感)&=Ent(D)-\sum_{v=1}^1 \frac{|D^v|}{|D|}Ent(D^v) \\
&= 0.918 - (\frac{3}{3}\times 0.918 ) \\
&= 0

\end{aligned}
\]

选择分类结点构建决策树

\[\begin{aligned}
Gain(D,色泽)=0 .252 \ \ Gain(D,敲声)=0 \\
Gain(D,纹理)=0.252 \ \ \ Gain(D,触感)=0

\end{aligned}
\]

不妨选择色泽作为分类依据

此时决策树为

5 对分支\({7,15}\)进行划分

敲声信息增益

根据色泽划分为浊响一个子集

计算信息熵

\[\begin{aligned}
Ent(D^1) &= -(\frac{1}{2} log_2 \frac{1}{2}+\frac{1}{2} log_2 \frac{1}{2})=1 \\

Ent(D) &= -(\frac{1}{2} log_2 \frac{1}{2}+\frac{1}{2} log_2 \frac{1}{2})=1\\
Gani(D,敲声)&=Ent(D)-\sum_{v=1}^1 \frac{|D^v|}{|D|}Ent(D^v) \\
&= 1 - (\frac{2}{2}\times 0.918 ) \\
&= 0

\end{aligned}
\]

纹理信息增益

根据纹理划分为清晰稍糊两个子集

计算信息熵

\[\begin{aligned}
Ent(D^1) &= -(\frac{0}{1} log_2 \frac{0}{1}+\frac{1}{1} log_2 \frac{1}{1})=0 \\
Ent(D^2) &= -(\frac{1}{1} log_2 \frac{1}{1}+\frac{0}{1} log_2 \frac{0}{1})=0\\

Ent(D)&= -(\frac{1}{2} log_2 \frac{1}{2}+\frac{1}{2} log_2 \frac{1}{2})=1 \\
Gani(D,纹理)&=Ent(D)-\sum_{v=1}^2 \frac{|D^v|}{|D|}Ent(D^v) \\
&= 1 - (\frac{1}{2}\times 0+\frac{1}{2} \times 0 ) \\
&= 1

\end{aligned}
\]

触感信息增益

根据触感划分为软粘一个子集

计算信息熵

\[\begin{aligned}
Ent(D^1) &= -(\frac{1}{2} log_2 \frac{1}{2}+\frac{1}{2} log_2 \frac{1}{2})=1 \\

Ent(D) &= -(\frac{1}{2} log_2 \frac{1}{2}+\frac{1}{2} log_2 \frac{1}{2})=1\\
Gani(D,触感)&=Ent(D)-\sum_{v=1}^1 \frac{|D^v|}{|D|}Ent(D^v) \\
&= 1 - (\frac{2}{2}\times 0.918 ) \\
&= 0

\end{aligned}
\]

选择分类结点构建决策树

\[\begin{aligned}
\ \ Gain(D,敲声)=0 \ Gain(D,纹理)=1 \ \ \ Gain(D,触感)=0

\end{aligned}
\]

选择纹理作为分类依据

此时决策树为

2 决策树后剪枝

1 考虑结点\(7,15\)

原分支（剪枝前），有三个样本被正确分类验证集精度为 42.8%

剪枝后的决策树

此时验证集有四个样本被正确分类，精度为57.1%

于是后剪枝策略决定剪枝，得到上图的决策树

2 考虑结点\(6,715\)色泽=？

由上图，决策树精度为57.1%

剪去结点后的决策树为

此时验证集有四个样本被正确分类，精度为57.1%

与未剪枝时的精度相同，西瓜书中采用了不剪枝的策略。在这里我们不妨采用剪枝的策略，于是得到上图的决策树

3 考虑结点\(1,2,3,14\)色泽=？

在上图基础上来考虑剪去结点\(1,2,3,14\)色泽=？，剪枝后的决策树为

此时的决策树正确分类的样本5个，精度为71.4%

根据后剪枝策略，进行剪枝，得到上图的决策树

4考虑 \(6,7，15,17\)根蒂=？

剪枝后的决策树为

此时的决策树的精度仍然为71.4%

与未剪枝时的精度相同，西瓜书中采用了不剪枝的策略。在这里我们不妨采用剪枝的策略，于是得到上图的决策树

最终得到上图的决策树

决策树机器学习，西瓜书p80 表4.2 使用信息增益生成决策树及后剪枝的更多相关文章

周志华-机器学习西瓜书-第三章习题3.5 LDA
本文为周志华机器学习西瓜书第三章课后习题3.5答案,编程实现线性判别分析LDA,数据集为书本第89页的数据首先介绍LDA算法流程: LDA的一个手工计算数学实例: 课后习题的代码: # coding ...
python实现简单决策树（信息增益）——基于周志华的西瓜书数据
数据集如下: 色泽根蒂敲声纹理脐部触感好瓜青绿蜷缩浊响清晰凹陷硬滑是乌黑蜷缩沉闷清晰凹陷硬滑是乌黑蜷缩浊响清晰凹陷硬滑是青绿蜷缩沉闷清晰 ...
决策树ID3原理及R语言python代码实现（西瓜书）
决策树ID3原理及R语言python代码实现(西瓜书) 摘要: 决策树是机器学习中一种非常常见的分类与回归方法,可以认为是if-else结构的规则.分类决策树是由节点和有向边组成的树形结构,节点表示特 ...
（二）《机器学习》（周志华）第4章决策树笔记理论及实现——“西瓜树”——CART决策树
CART决策树 (一)<机器学习>(周志华)第4章决策树笔记理论及实现——“西瓜树” 参照上一篇ID3算法实现的决策树(点击上面链接直达),进一步实现CART决策树. 其实只需要改动 ...
LASSO回归与L1正则化西瓜书
LASSO回归与L1正则化西瓜书 2018年04月23日 19:29:57 BIT_666 阅读数 2968更多分类专栏: 机器学习机器学习数学原理西瓜书版权声明:本文为博主原创文章,遵 ...
朴素贝叶斯python代码实现（西瓜书）
朴素贝叶斯python代码实现(西瓜书) 摘要: 朴素贝叶斯也是机器学习中一种非常常见的分类方法,对于二分类问题,并且数据集特征为离散型属性的时候, 使用起来非常的方便.原理简单,训练效率高,拟合效果 ...
手把手生成决策树(dicision tree)
手把手生成决策树(dicision tree) 标签: Python 机器学习主要參考资料: Peter HARRINGTON.机器学习实战[M].李锐,李鹏,曲亚东,王斌译.北京:人民邮电出版社, ...
GZFramwork数据库层《二》单据表增删改查(自动生成单据号码)
运行效果: 使用代码生成器(GZCodeGenerate)生成tb_EmpLeave的Model 生成器源代码下载地址: https://github.com/GarsonZhang/GZCodeGe ...
Javascript_06_表单验证（离开单项，输入框后提示信息）
Javascript_06_ 表单验证(离开单项,输入框后提示信息) 说明:对于必须输入的入力框,光标离开(使用 onblur方法)时进行检查.假如有错,红色的提示信息直接在该画面的这个输入框的后面显 ...

随机推荐

记录不存在则插入，存在则更新 → MySQL 的实现方式有哪些？
开心一刻今天我爸.我.我女儿一起吃饭,我们每人一个鸡腿女儿问道:爸爸,你吃鸡腿吗我以为她要把她的鸡腿给我吃,倍感欣慰地说道:我不吃,宝贝女儿一把抓起我的鸡腿放进了她爷爷的碗里,说道:不吃给爷爷 ...
Linux系列（21） - 光盘、U盘挂载
挂载光盘 mount命令.umount命令 step-1 建立挂载点原理:相当于建立盘符,建个目录读取光盘内容命令:[root@localhost ~]# mkdir /mnt/cdrom/ 备注 ...
linux 服务器资源监控工具
工具一:vmstat(服务端) 一.vmstat选项参数解释 -V:显示vmstat版本信息 -n:只在开始时显示一次各字段名称 -a:显示活跃和非活跃内存 -d:显示各个磁盘相关统计信息 -D:显示 ...
启动jemeter 报错相关解决方案
1:当启动jemeter时报错"页面文件太小,无法完成操作" 如图: 是说明分配的内容不足,即可调整内存重启即可解决 1):打开:控制面板>系统和安全>系统 2):点击 ...
1.3redis小结--配置php reids拓展
1.执行php文件输出phpinfo(); <?php phpinfo(); 2.根据PHPinfo的信息确定需要下载的 php_redis.dll , php_igbinary.dll 版 ...
shell脚本在CentOS7自动更包
手动更包有些繁琐,就想着用脚本自动更包,后来试了下,最后成功啦! 以下是根据实际项目编写的: 操作环境:centos7.0 tomcat版本:7.0.78 以下为项目存放目录如下: updatefil ...
[转载]CentOS 7 用户怎样安装 LNMP（Nginx+PHP+MySQL）
关于 Nginx (发音 "engine x")这是一款免费.开源.高效的 HTTP 服务器,Nginx是以稳定著称,丰富的功能,结构简单,低资源消耗.本教程演示如何在CentOS ...
【Vue】淘气三千问之 data为什么是函数而不是对象？这河狸吗
朋友,当你提出以上问题的时候建议你先去复习下原型链的知识但是我好人做到底直接就讲了吧,我们先看一下下面的这段代码: function Component () { this.data = this. ...
鸿蒙内核源码分析(源码注释篇) | 鸿蒙必定成功，也必然成功 | 百篇博客分析OpenHarmony源码 | v13.02
百篇博客系列篇.本篇为: v13.xx 鸿蒙内核源码分析(源码注释篇) | 鸿蒙必定成功,也必然成功 | 51.c.h .o 几点说明 kernel_liteos_a_note | 中文注解鸿蒙内核 ...
你说要你想玩爬虫，但你说你不懂Python正则表达式，我信你个鬼，那你还不来看看？
前言正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配. re 模块也提供了与这些方法功能完全一致的函数,这些函数使用一个模式字符串做为它们的第一个参数. re.mat ...

决策树 机器学习，西瓜书p80 表4.2 使用信息增益生成决策树及后剪枝

使用信息增益构造决策树，完成后剪枝

1 构造决策树

1 根结点的选择

色泽 信息增益

根蒂 信息增益

敲声 信息增益

纹理 信息增益

脐部 信息增益

触感 信息增益

选择根结点构建决策树

2 对分支结点\({1,2,3,14}\)进行划分

色泽 信息增益

根蒂 信息增益

敲声 信息增益

纹理 信息增益

触感 信息增益

选择分类结点构建决策树

3 对分支 \({6,7,15,17}\)进行划分

色泽 信息增益

根蒂 信息增益

敲声 信息增益

纹理 信息增益

触感 信息增益

选择分类结点构建决策树

4 对分支\({6,7,15}\)进行划分

色泽 信息增益

敲声 信息增益

纹理 信息增益

触感 信息增益

选择分类结点构建决策树

5 对分支\({7,15}\)​进行划分

敲声 信息增益

纹理 信息增益

触感 信息增益

选择分类结点构建决策树

2 决策树后剪枝

1 考虑结点\(7,15\)

2 考虑结点\(6,715\)色泽=？

3 考虑结点\(1,2,3,14\)​​色泽=？

4考虑 \(6,7，15,17\)根蒂=？

决策树 机器学习，西瓜书p80 表4.2 使用信息增益生成决策树及后剪枝的更多相关文章

随机推荐

热门专题

决策树机器学习，西瓜书p80 表4.2 使用信息增益生成决策树及后剪枝

色泽信息增益

根蒂信息增益

敲声信息增益

纹理信息增益

脐部信息增益

触感信息增益

色泽信息增益

根蒂信息增益

敲声信息增益

纹理信息增益

触感信息增益

色泽信息增益

根蒂信息增益

敲声信息增益

纹理信息增益

触感信息增益

色泽信息增益

敲声信息增益

纹理信息增益

触感信息增益

5 对分支\({7,15}\)进行划分

敲声信息增益

纹理信息增益

触感信息增益

3 考虑结点\(1,2,3,14\)色泽=？

决策树机器学习，西瓜书p80 表4.2 使用信息增益生成决策树及后剪枝的更多相关文章