本系列博文是根据SKlearn的一个学习小结,并非原创!

                     1.直接学习TensorFlow有点不知所措,感觉需要一些基础知识做铺垫。

                     2.之前机器学习都是理论《Ng机器学习基础》+底层编写《机器学习实战》,现实生活基本用不到。

                     3.会增加一些个人总结,也会删除一些以前学过的知识。


广义线性模型

1.1 普通最小二乘法

  然而,对于普通最小二乘的系数估计问题,其依赖于模型各项的相互独立性。当各项是相关的,且设计矩阵  的各列近似线性相关,那么,设计矩阵会趋向于奇异矩阵,这会导致最小二乘估计对于随机误差非常敏感,产生很大的方差。例如,在没有实验设计的情况下收集到的数据,这种多重共线性(multicollinearity)的情况可能真的会出现。

Example:

  SK的数据集介绍:https://blog.csdn.net/sa14023053/article/details/52086695,暂时用不到那么多,用到什么看什么吧!

 import matplotlib.pyplot as plt
 import numpy as np
 from sklearn import datasets, linear_model
 from sklearn.metrics import mean_squared_error, r2_score
 '''
     这是一个糖尿病的数据集,
     主要包括442行数据,10个属性值
     分别是:Age(年龄)、
     性别(Sex)、
     Body mass index(体质指数)、
     Average Blood Pressure(平均血压)、
     S1~S6一年后疾病级数指标。
     Target为一年后患疾病的定量指标。
 '''
 diabetes = datasets.load_diabetes()

 # 取其中的一个数据进行试验
 # https://blog.csdn.net/lanchunhui/article/details/49725065,
 #    np.newaxis的含义和分析,其中也可以写作下面的形式:
 # diabetes.data[:,2][:,np.newaxis] 或者 diabetes.data[:,2][:,None]
 # 目的为了增加一个轴
 diabetes_X = diabetes.data[:, np.newaxis, 2] #(442,10)

 # Split the data into training/testing sets
 diabetes_X_train = diabetes_X[:-20]
 diabetes_X_test = diabetes_X[-20:]

 # Split the targets into training/testing sets
 diabetes_y_train = diabetes.target[:-20]
 diabetes_y_test = diabetes.target[-20:]

 # Create linear regression object
 regr = linear_model.LinearRegression()

 # Train the model using the training sets
 regr.fit(diabetes_X_train, diabetes_y_train)

 # Make predictions using the testing set
 diabetes_y_pred = regr.predict(diabetes_X_test)

 # The coefficients,打印权重
 print('Coefficients: \n', regr.coef_)
 # The mean squared error,损失函数
 print("Mean squared error: %.2f"
       % mean_squared_error(diabetes_y_test, diabetes_y_pred))
 # Explained variance score: 1 is perfect prediction
 print('Variance score: %.2f' % r2_score(diabetes_y_test, diabetes_y_pred))

 # Plot outputs
 plt.scatter(diabetes_X_test, diabetes_y_test,  color='black')
 plt.plot(diabetes_X_test, diabetes_y_pred, color='blue', linewidth=3)

 #plt.xticks()/plt.yticks()设置轴记号
 #现在是明白干嘛用的了,就是人为设置坐标轴的刻度显示的值
 '''
 plt.xticks([-np.pi, -np.pi/2, 0, np.pi/2, np.pi],
 [r'$-\pi$', r'$-\pi/2$', r'$0$', r'$+\pi/2$', r'$+\pi$'])
 plt.yticks([-1, 0, +1],
 [r'$-1$', r'$0$', r'$+1$'])
 '''
 #plt.xticks(())
 #plt.yticks(())

 plt.show()

1.2 岭回归

  注释:就是加了一个惩罚项,防止过拟合~~

  Exanple和简单线性回归一样的表达~~

 >>> from sklearn import linear_model
 >>> reg = linear_model.Ridge (alpha = .5)
 >>> reg.fit ([[0, 0], [0, 0], [1, 1]], [0, .1, 1])
 Ridge(alpha=0.5, copy_X=True, fit_intercept=True, max_iter=None,
       normalize=False, random_state=None, solver='auto', tol=0.001)
 >>> reg.coef_
 array([ 0.34545455,  0.34545455])
 >>> reg.intercept_
 0.13636...

1.3 贝叶斯岭回归

训练数据:

 >>> from sklearn import linear_model
 >>> X = [[0., 0.], [1., 1.], [2., 2.], [3., 3.]]
 >>> Y = [0., 1., 2., 3.]
 >>> reg = linear_model.BayesianRidge()
 >>> reg.fit(X, Y)
 BayesianRidge(alpha_1=1e-06, alpha_2=1e-06, compute_score=False, copy_X=True,
        fit_intercept=True, lambda_1=1e-06, lambda_2=1e-06, n_iter=300,
        normalize=False, tol=0.001, verbose=False)

预测数据:

>>> reg.predict ([[1, 0.]])
array([ 0.50000013])  

查看权重:

>>> reg.coef_
array([ 0.49999993,  0.49999993])

  

参考:

  http://sklearn.apachecn.org/cn/0.19.0/modules/linear_model.html

  https://blog.csdn.net/eastmount/article/details/52929765

  http://cwiki.apachecn.org/pages/viewpage.action?pageId=10814293

  http://sklearn.apachecn.org/cn/0.19.0/modules/generated/sklearn.linear_model.Ridge.html#sklearn.linear_model.Ridge

Sklearn (一) 监督学习的更多相关文章

  1. sklearn半监督学习

    标签: 半监督学习 作者:炼己者 欢迎大家访问 我的简书 以及 我的博客 本博客所有内容以学习.研究和分享为主,如需转载,请联系本人,标明作者和出处,并且是非商业用途,谢谢! --- 摘要:半监督学习 ...

  2. 关于sklearn,监督学习几种模型的对比

    # K近邻,适用于小型数据集,是很好的基准模型,容易解释 from sklearn.neighbors import KNeighborsClassifier # 线性模型,非常可靠的首选算法,适用于 ...

  3. sklearn算法库的顶层设计

    sklearn监督学习的各个模块 neighbors近邻算法,svm支持向量机,kernal_ridge核岭回归,discriminant_analysis判别分析,linear_model广义线性模 ...

  4. sklearn算法中的顶层设计

    sklearn监督学习的各个模块 neighbors近邻算法,svm支持向量机,kernal_ridge核岭回归,discriminant_analysis判别分析,linear_model广义线性模 ...

  5. Python 机器学习实战 —— 监督学习(上)

    前言 近年来AI人工智能成为社会发展趋势,在IT行业引起一波热潮,有关机器学习.深度学习.神经网络等文章多不胜数.从智能家居.自动驾驶.无人机.智能机器人到人造卫星.安防军备,无论是国家级军事设备还是 ...

  6. skearn自学路径

    sklearn学习总结(超全面) 关于sklearn,监督学习几种模型的对比 sklearn之样本生成make_classification,make_circles和make_moons pytho ...

  7. sklearn小知识

    特征缩放:# 为了追求机器学习和最优化算法的最佳性能,我们将特征缩放 from sklearn.preprocessing import StandardScaler sc = StandardSca ...

  8. 机器学习笔记2 – sklearn之iris数据集

    前言 本篇我会使用scikit-learn这个开源机器学习库来对iris数据集进行分类练习. 我将分别使用两种不同的scikit-learn内置算法--Decision Tree(决策树)和kNN(邻 ...

  9. 【机器学习学习】SKlearn + XGBoost 预测 Titanic 乘客幸存

    Titanic 数据集是从 kaggle下载的,下载地址:https://www.kaggle.com/c/titanic/data 数据一共又3个文件,分别是:train.csv,test.csv, ...

随机推荐

  1. [Linux]Redhat7配置CentOS7 YUM源

    一.简介 安装Redhat7并配置了网卡之后,虽然可以直接ping www.baidu.com,但是执行yum install的命令时提示如下信息: [root@ansible ~]# yum ins ...

  2. C语言一维数组定义及引用时括号[]内容

    一维数组定义:数组名[常量表达式] 一维数组引用:数组名[整型常量或整型表达式] *说明:常量表达式 > 整型表达式 > 整型常量 #define N 100 宏定义没有具体的数据类型, ...

  3. 定义一个Collection接口类型的变量,引用一个Set集合的实现类,实现添加单个元素, 添加另一个集合,删除元素,判断集合中是否包含一个元素, 判断是否为空,清除集合, 返回集合里元素的个数等常用操作。

    package com.lanxi.demo2; import java.util.HashSet; import java.util.Iterator; import java.util.Set; ...

  4. 使用map()的小陷阱:parseInt

    假设我们想要把一个字符串数组的每一项转换成整数,我们很自然就想到了把parseInt作为回调函数传给map()函数,但这样做可能会出现意想不到的结果: var strArr = ["1&qu ...

  5. less 查看日志

    上下键,空格下一页,字母B上一页  ,字母Q退出,n(小写字母n)上一个关键字位置N(大写字母N)下一个关键词位置] 二.查找某个时间段的日志:比如查询2018-08-15 10:37:32到2018 ...

  6. 【转】FMX 动态创建及销毁(释放free)对象

    http://www.2pascal.com/thread-3037-1-1.html这是原文地址. (* ********************************************** ...

  7. wpf UI 布局

    1.Grid *号代表百分比,也可以使用固定值,需要预先设置 有几行几列 以及宽度和高度 ,在表格中的控件需要 表明自己所在第几行 第几列 2.StackPanel 重点需要设置 排列方向 水平还是垂 ...

  8. 剑指Offer 2. 替换空格 (字符串)

    题目描述 请实现一个函数,将一个字符串中的每个空格替换成“%20”.例如,当字符串为We Are Happy.则经过替换之后的字符串为We%20Are%20Happy. 题目地址 https://ww ...

  9. Java图片验证码学习

  10. 计算apk包的安装之后占用空间以及运行时占用内存

    1.统计结果如下 计算apk安装占用空间大小方式 为了方式apk包运行时出现缓存数据等对空间计算造成影响.应该先进行安装,然后分别计算空间变化 所有apk包安装完毕后再运行 开启两个cmd窗口 第一个 ...