首先说一下什么是离散化以及连续变量离散化的必要性. 离散化是把无限空间中无限的个体映射到有限的空间中去,通俗点讲就是把连续型数据切分为若干“段”,也称bin,离散化在数据分析中特别是数据挖掘中被普遍采用,主要原因有: 1.算法需要.有些数据挖掘算法不能直接使用连续变量,必须要离散化之后才能纳入计算,在数据挖掘软件中,表面上看可以直接使用连续变量进行计算,实际上在软件后台已经对其进行了离散化预处理. 2.降低异常数据的敏感度,使模型更加稳定.我们知道极端值和异常值会使模型参数拟合的不准确,误差过大