前言 在对数据进行了初步探索后,想必读者对MovieLens数据集有了感性认识.而在数据挖掘/推荐引擎运行前,往往需要对数据预处理.预处理的重要性不言而喻,甚至比数据挖掘/推荐系统本身还重要. 然而完整的数据预处理工作会涉及到:缺失值,异常值,口径统一,去重,特征提取等等等等,可以单写一本书了,本文无法一一介绍. 本文仅就特征提取这一话题进行粗略讨论并展示. 类别特征提取 在很多场景下,数据集的很多特征是类型变量,比如MovieLens里面的职业类型.这样的变量无法作为很多算法的输入,因为这类变…