1. QQplot

横坐标表示的是属性的其中一个测量值1,纵坐标表示另一个测量值2。散点是分位点。点的横纵坐标是这个测量值1和测量值2的分位点的取值。

  1. from scipy import stats
  2. from matplotlib import pyplot as plt
  3. import statsmodels.api as sm
  4. import numpy as np
  5.  
  6. # example with the new ProbPlot class
  7. #对比两个不同测试值的分布,而不是看测试值满足什么既定分布
  8. import numpy as np
  9. X = [5.89,49.59,59.98,159,17.99,56.99,82.75,142.19
  10. ,31,125.5,4.5,22,52.9,61,33.5,328,128,142.19,229,189.4]
  11. Y= [1.4,1.5,2.2,2.7,3.2,3.9,4.1,4.1,4.6,4.8
  12. ,4.9,5.3,5.5,5.8,6.2,8.9,11.6,18,22.9,38.2]
  13. x=np.array(X)
  14. y=np.array(Y)
  15. pp_x = sm.ProbPlot(x, fit=True)
  16. pp_y = sm.ProbPlot(y, fit=True)
  17. fig3 = pp_x.qqplot(other=pp_y, line='45')
  18. plt.show()

2 normalization

  梯度下降的过程曲折,复杂的问题是因为没有同等程度的看待各个特征,即我们没有将各个特征量化到统一的区间。

所以数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。

Min-Max Scaling和Z-score normalization是常用的标准化处理方法。

  • 指定空间的min-max scaling(1,10)

price

5.89

49.59

59.98

159

17.99

56.99

82.75

142.19

31

125.5

weight

1.4

1.5

2.2

2.7

3.2

3.9

4.1

4.1

4.6

4.8

price

4.5

22

52.9

61

33.5

328

128

142.19

229

189.4

weight

4.9

5.3

5.5

5.8

6.2

8.9

11.6

18

22.9

38.2

标准化空间为(1,10):原理公式:

将数据归一化到[a,b]区间范围的方法:

(1)首先找到样本数据Y的最小值Min及最大值Max
(2)计算系数为:k=(b-a)/(Max-Min)
(3)得到归一化到[a,b]区间的数据:norY=a+k(Y-Min)

  1. """normolization 1-10
  2. """
  3. import numpy as np
  4.  
  5. def MaxMinNormalization(x):
  6. min_x=np.min(x)
  7. max_x=np.max(x)
  8. k=(10-1)/(max_x-min_x)
  9. norx=(x-min_x)*k+1
  10. return norx
  11. nums = [5.89,49.59,59.98,159,17.99,56.99,82.75,142.19
  12. ,31,125.5,4.5,22,52.9,61,33.5,328,128,142.19,229,189.4]
  13. print(MaxMinNormalization(nums))

 3.评估方法

https://blog.csdn.net/hlang8160/article/details/78040311

 

2.2 数据的图形描绘以及处理(QQplot,归一化)的更多相关文章

  1. highCharts怎样实现json数组数据的图形展示

    昨天花了一天的时间学习了一下highcharts.主要的内容差点儿相同都看了一遍,然后试着写了一个完整的demo,期间可谓百转千回.费了不少功夫.终于还是实现了我所想要的效果图,接下来我将怎样实现统计 ...

  2. 【数据分析 R语言实战】学习笔记 第四章 数据的图形描述

    4.1 R绘图概述 以下两个函数,可以分别展示二维,三维图形的示例: >demo(graphics) >demo(persp) R提供了多种绘图相关的命令,可分成三类: 高级绘图命令:在图 ...

  3. 利用请求的JSON数据创建图形图层

    先看效果图: 包含三个部分:信息窗口(标题是要素的某个属性信息,其余是感兴趣的属性信息).图上图形按照某一属性大小不一显示,图例 1.创建底图用于存放以上三部分: "esri/Map&quo ...

  4. 使用PyQtGraph绘制数据滚动图形(4)

    app = pg.QtGui.QApplication([]) win = pg.GraphicsWindow(title="数据滚动") win.resize(600,300) ...

  5. 使用PyQtGraph绘制数据滚动图形(3)

    import pyqtgraph as pg import numpy as np from pyqtgraph.Qt import QtGui, QtCore app = pg.QtGui.QApp ...

  6. 简谈python从Oracle读取数据生成图形

    初次学习python,连接Oracle数据库,导出数据到Excel,再从Excel里面读取数据进行绘图,生成png保存出来. 1.涉及到的python模块(模块安装就不进行解释了): 1 import ...

  7. echarts呈现数据表图形

    讲一下echarts的用法,列举了两个图表,一个是单柱图,一个是多柱图,至于饼状图,只许更改echarts的类型就好了 一.首先是要两个div,用来存放两个图表 <div class=" ...

  8. 使用echarts去对数据进行图形分析

    首先导入js包:echarts.min.js <script type="text/javascript" src="js/echarts.min.js" ...

  9. java nio 缓冲区读写数据(图形详解)

    Position 您可以回想一下,缓冲区实际上就是美化了的数组.在从通道读取时,您将所读取的数据放到底层的数组中. position 变量跟踪已经写了多少数据.更准确地说,它指定了下一个字节将放到数组 ...

随机推荐

  1. Django的rest_framework的序列化组件之序列化多表字段的方法

    首先,因为我们安装了restframework,所以我们需要在django的settings中引入restframework INSTALLED_APPS = [ 'django.contrib.ad ...

  2. SpringBoot使用@Value从yml文件取值为空--注入静态变量

    SpringBoot使用@Value从yml文件取值为空--注入静态变量     1.application.yml中配置内容如下:   pcacmgr:   publicCertFilePath: ...

  3. Windows系统制作Ubuntu启动U盘(命令行)

    背景 现今Ubuntu系统的使用越来越多,考虑到日常办公还是用Windows系统,但开发的需求常常要有Linux系统.因此将Linux系统安装到U盘不失为一种好的选择.在Windows系统上制作Ubu ...

  4. cocoapods 更新本地仓库 pod setup/update 无限远程中断

    升级 cocoapods 无限远程中断:网络不好 试了很多解决方法: 1.替换源,2.设置下载速度,3.清空本地master仓库,4.删了本地的pod库,5.半夜3-5点更新,6.按照失败提示的 (p ...

  5. Wechat微信公众平台开发

    一.微信概述 1.历史背景 1)2011年1月21日,腾讯推出微信应用程序.(张小龙) 2)2012年8月20日,腾讯推出微信公众平台功能,同年11月开放第三方接口 3)2013年11月注册用户量突破 ...

  6. sqlserver中为节约存储空间的收缩数据库机制

    1.收缩数据库: 删除数据库的每个文件中已经分配单还没有使用的页,首座后数据库空间自动减少 2.收缩方式: (1)自动收缩数据库 选中数据库--->右击--->属性 在常规这里我们可以看到 ...

  7. 15.Mysql中的安全问题

    15.SQL中的安全问题15.1 SQL注入简介SQL是用来和数据库交互的文本语言.SQL注入(SQL Injection)是利用数据库的外部接口将用户数据插入到实际的SQL中,以达到入侵数据库乃至操 ...

  8. C++中stl的map

    总结: 在map中插入数据有三种方法: 1.用insert插入pair数据: mapstudent.insert(pair<int,string>(1,"studentone&q ...

  9. PAT 1038 统计同成绩学生(20)(代码)

    1038 统计同成绩学生(20)(20 分) 本题要求读入N名学生的成绩,将获得某一给定分数的学生人数输出. 输入格式: 输入在第1行给出不超过10^5^的正整数N,即学生总人数.随后1行给出N名学生 ...

  10. spring boot (二):使用fastJson解析json数据

    如果我们想在spring boot中使用第三方的json解析框架: 1)我们需要在pom.xml文件中引入第三方包的依赖; 2)实现方法: 方法1 需要在启动类中继承WebMvcConfigurerA ...