内容概要 怎样使用pandas读入数据 怎样使用seaborn进行数据的可视化 scikit-learn的线性回归模型和用法 线性回归模型的评估測度 特征选择的方法 作为有监督学习,分类问题是预測类别结果,而回归问题是预測一个连续的结果. 1. 使用pandas来读取数据 Pandas是一个用于数据探索.数据处理.数据分析的Python库 In [1]: import pandas as pd In [2]: # read csv file directly from a URL and
成本函数(cost function)也叫损失函数(loss function),用来定义模型与观测值的误差.模型预测的价格与训练集数据的差异称为残差(residuals)或训练误差(test errors). 我们可以通过残差之和最小化实现最佳拟合,也就是说模型预测的值与训练集的数据最接近就是最佳拟合.对模型的拟合度进行评估的函数称为残差平方和(residual sum of squares)成本函数.就是让所有训练数据与模型的残差的平方之和最小. 我们用R方(r-squared)评估预测的效