一,介绍

Python 中的机器学习库

  • 简单高效的数据挖掘和数据分析工具
  • 可供大家使用,可在各种环境中重复使用
  • 建立在 NumPy,SciPy 和 matplotlib 上
  • 开放源码,可商业使用 - BSD license

二,线性回归算法模型

2个概念

样本集:用于对机器学习算法模型对象进行训练。样本集通常为一个DataFrame。

  1. - 特征数据:特征数据的变化会影响目标数据的变化。必须为多列。
  2. - 目标数据:结果。通常为一列

1,建立线性回归算法模型对象

  1. from sklearn.linear_model import LinearRegression
  2. linear = LinearRegression() # 实例化 线性回归算法模型对象

2,使用样本数据对模型进行训练

  1. 数据:
  2. near_citys_dist array([47, 8, 71, 14, 37], dtype=int64) # 城市距离海边的最远距离
  3. near_citys_max_temp array([32.75, 32.79, 33.85, 32.81, 32.74]) # 城市的最高温度
  4. # 使用这两组数据预测 城市温度与距离海边距离的关系
  5. linear.fit(near_citys_dist.reshape(-1,1),near_citys_max_temp) # 注意特征数据必须时多列,所以把array转化为多列的

返回值:  LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)

3,对模型进行精准度的评分

  1. linear.score(near_citys_dist.reshape(-1,1),near_citys_max_temp)
  2.  
  3. # 0.5549063263099332

4,使用模型进行预测

  1. x = np.array([65,44,12,99]).reshape(-1,1) # 给定一组特征数据
  2. y = linear.predict(x) # 预测其值
  3. # array([ 33.40442982, 33.10898974, 32.65879535, 33.88276137])
  4.  
  5. #绘制回归曲线
  6. x = np.linspace(0,100,num=100) # 给定一组特征数据
  7. y = linear.predict(x.reshape(-1,1)) # 预测其值
  8.  
  9. plt.figure(figsize=(7,7))
  10. plt.scatter(citys_dist,citys_max_temp)
  11. plt.scatter(x,y)
  12. plt.title('温度和距海洋距离关系')
  13. plt.xlabel('距离')
  14. plt.ylabel('温度')

数据分析之sklearn的更多相关文章

  1. python实现线性回归

    参考:<机器学习实战>- Machine Learning in Action 一. 必备的包 一般而言,这几个包是比较常见的: • matplotlib,用于绘图 • numpy,数组处 ...

  2. Python数据挖掘之随机森林

    主要是使用随机森林将four列缺失的数据补齐. # fit到RandomForestRegressor之中,n_estimators代表随机森林中的决策树数量 #n_jobs这个参数告诉引擎有多少处理 ...

  3. 数组与pandas模块

    '''数组与pandas模块''' # numpy模块:用来做数据分析,对numpy数组(既有行又有列)--矩阵进行科学运算 # tensorflow/pytorch(数学专业/物理专业/计科专业硕士 ...

  4. 文本分类:Keras+RNN vs传统机器学习

    摘要:本文通过Keras实现了一个RNN文本分类学习的案例,并详细介绍了循环神经网络原理知识及与机器学习对比. 本文分享自华为云社区<基于Keras+RNN的文本分类vs基于传统机器学习的文本分 ...

  5. 以KNN为例用sklearn进行数据分析和预测

    准备 相关的库 相关的库包括: numpy pandas sklearn 带入代码如下: import pandas as pd import numpy as np from sklearn.nei ...

  6. 大数据分析——sklearn模块安装

    前提条件:numpy.scipy以及matplotlib库的安装 (注:所有操作都在pycharm命令终端进行) ①numpy安装 pip install numpy ②scipy安装 pip ins ...

  7. 使用sklearn优雅地进行数据挖掘【转】

    目录 1 使用sklearn进行数据挖掘 1.1 数据挖掘的步骤 1.2 数据初貌 1.3 关键技术2 并行处理 2.1 整体并行处理 2.2 部分并行处理3 流水线处理4 自动化调参5 持久化6 回 ...

  8. kaggle数据挖掘竞赛初步--Titanic<原始数据分析&缺失值处理>

    Titanic是kaggle上的一道just for fun的题,没有奖金,但是数据整洁,拿来练手最好不过啦. 这道题给的数据是泰坦尼克号上的乘客的信息,预测乘客是否幸存.这是个二元分类的机器学习问题 ...

  9. 使用sklearn优雅地进行数据挖掘

    目录 1 使用sklearn进行数据挖掘 1.1 数据挖掘的步骤 1.2 数据初貌 1.3 关键技术2 并行处理 2.1 整体并行处理 2.2 部分并行处理3 流水线处理4 自动化调参5 持久化6 回 ...

随机推荐

  1. Nginx 配置 HTTP

    配置如下 #user nobody; worker_processes 1; #error_log logs/error.log; #error_log logs/error.log notice; ...

  2. 转 Oracle 同一个字段的两值进行加减计算

    https://www.cnblogs.com/hjianguo/p/6041617.html 如 病人ID      入院日期                出院日期 00001      2016 ...

  3. reentrant,thread-safe 和 async-signal-safe

    可重入,线程安全和异步信号安全POSIX定义: Reentrant Function A function whose effect, when called by two or more threa ...

  4. CSS选择子简明参考

    Type Selector Example h1 { } Description Selects an HTML tag/element. Universal selector Example * { ...

  5. LODOP常见问题连接(含常见小问答博文)

    问答大全 纸张打印机 注册 table表格 clodop测试地址 字体 超文本 行间距.字间距 clodop回调函数 条码 页眉页脚 SET……STYLEA 水平居中 简短排查 提示报错 慢进度条 套 ...

  6. ABP .NETCore更新数据库时一直连接的之前数据库

    使用Update-Database -Verbose更新数据库时,在appsettings.json配置文件中已修改为新的连接字符串,但是使用命令更新数据库时仍然连接的是之前的数据库. 后来把代码移至 ...

  7. c# .net framework 4.5.2 , Quartz.NET 3.0.7

    参考了:https://www.cnblogs.com/personblog/p/11277527.html, https://www.jianshu.com/p/b8e7e4deb60a .NET ...

  8. 【视频开发】用GStreamer实现摄像头的采集和保存

    GStreamer是流媒体软件的开发框架.可以这样说,在该框架的支持下,你可以非常简单地为很多格式的流媒体写出自已需要的程序. 现在,GStreamer已经内置对MP3.Ogg/Vorbis.MPEG ...

  9. 后端&前端零碎知识点和注意问题

    后端 1. Spring自带的MD5加密工具类 import org.springframework.util.DigestUtils; String md5Password = DigestUtil ...

  10. 卓金武《MATLAB在数学建模中的应用》 第2版

    内容介绍 本书的作者都具有实际的数学建模参赛经历和竞赛指导经验.书中内容完全是根据数学建模竞赛的需要而编排的,涵盖了绝大部分数学建模问题的matlab求解方法.本书内容分上下两篇.上篇介绍数学建模中常 ...