python-计算数据的相关性

先解释下什么叫数据的相关性:

计算两个数组的平均值,如果两个数组中的两个值都大于平均值或者都小于平均值,则得到true. 如果一个大于平均值一个小于平均值,则得到false.最后计算true和false的个数.

比如,两个数组[1, 2, 3, 4] and [4, 5, 6, 7] , 得到 (4, 0). 因为 1 和 4 都低于他们所在数组的平均值, 2 和 5 也都低于他们所在数组的平均值, 3 和 6 都高于他们所在数组的平均值, 4 和 7 也都高于他们所在数组的平均值.所以计算结果为true的有4个,false的为0.

如果数组是[1, 2, 3, 4] and [7, 6, 5, 4], 那结果就是 (0, 4). 因为 1 低于他所在数组的平均值而 7 高于们所在数组的平均值, 其它几项也类似...

一个栗子:

比如有如下数据,20个城市的人均寿命和城市的gdp,计算寿命和gdp的相关性就是,计算是否寿命较高的城市,gdp也会较高,寿命较低,gdp也较低...就是说,gdp和寿命,是否相关...如果计算得到的true比较多,那就是表示是相关的,如果得到的false比较多,那就表示不相关.

countries = ['Albania', 'Algeria', 'Andorra', 'Angola', 'Antigua and Barbuda',

             'Argentina', 'Armenia', 'Australia', 'Austria', 'Azerbaijan',

             'Bahamas', 'Bahrain', 'Bangladesh', 'Barbados', 'Belarus',

             'Belgium', 'Belize', 'Benin', 'Bhutan', 'Bolivia']

life_expectancy_values = [74.7,  75. ,  83.4,  57.6,  74.6,  75.4,  72.3,  81.5,  80.2,

                          70.3,  72.1,  76.4,  68.1,  75.2,  69.8,  79.4,  70.8,  62.7,

                          67.3,  70.6]

gdp_values = [ 1681.61390973,   2155.48523109,  21495.80508273,    562.98768478,

              13495.1274663 ,   9388.68852258,   1424.19056199,  24765.54890176,

              27036.48733192,   1945.63754911,  21721.61840978,  13373.21993972,

                483.97086804,   9783.98417323,   2253.46411147,  25034.66692293,

               3680.91642923,    366.04496652,   1175.92638695,   1132.21387981]

life_expectancy = pd.Series(life_expectancy_values)

gdp = pd.Series(gdp_values)

# 计算相关性的函数
def variable_correlation(pd_1, pd_2):

    pd_1_mean = pd_1.mean()

    pd_2_mean = pd_2.mean()

    
    # 都高于平均值或都低于平均值的,得到true,一个高一个低的,得到false 
　　 result_series = ((pd_1 > pd_1_mean) & \

                    (pd_2 > pd_2_mean)) | \

                    ((pd_1 < pd_1_mean) & \

                    (pd_2 < pd_2_mean))

    
    # 计算true的个数

    num_same_direction = result_series.sum()

    # 计算false的个数
　　 num_different_direction = len(result_series) - num_same_direction   

    return (num_same_direction,num_different_direction)

print(variable_correlation(life_expectancy,gdp))   

# 结果
(17,3)

说明寿命和gdp是相关的.

python-计算数据的相关性的更多相关文章

Python文章相关性分析---金庸武侠小说分析
百度到<金庸小说全集 14部>全(TXT)作者:金庸下载下来,然后读取内容with open('names.txt') as f: data = [line.strip() for li ...
python数据相关性分析（计算相关系数）
#-*- coding: utf-8 -*- #餐饮销量数据相关性分析计算相关系数 from __future__ import print_function import pandas as pd ...
相关性系数及其python实现
参考文献: 1.python 皮尔森相关系数 https://www.cnblogs.com/lxnz/p/7098954.html 2.统计学之三大相关性系数(pearson.spearman.ke ...
python相关性算法解决方案（rest/数据库/json/下载）
1. 场景描述一直做java,因项目原因,需要封装一些经典的算法到平台上去,就一边学习python,一边网上寻找经典算法代码,今天介绍下经典的相关性算法,算法原理就不介绍了,只从代码层面进行介绍,包 ...
Python文章相关性分析---金庸武侠小说分析-2018.1.16
最近常听同事提及相关性分析,正巧看到这个google的开源库,并把相关操作与调试结果记录下来. 输出结果: 比较有意思的巧合是黄蓉使出打狗棒,郭靖就用了降龙十八掌,再后测试了名词的解析. 小说集可以百 ...
Python统计分析可视化库seaborn(相关性图，变量分布图，箱线图等等)
Visualization of seaborn seaborn[1]是一个建立在matplot之上,可用于制作丰富和非常具有吸引力统计图形的Python库.Seaborn库旨在将可视化作为探索和理 ...
pandas通过皮尔逊积矩线性相关系数（Pearson's r）计算数据相关性
皮尔逊积矩线性相关系数(Pearson's r)用于计算两组数组之间是否有线性关联,举个例子: a = pd.Series([1,2,3,4,5,6,7,8,9,10]) b = pd.Series( ...
python相关性分析与p值检验
## 最近两天的成果 ''' ########################################## # # # 不忘初心砥砺前行. # # 418__yj # ########### ...
利用python的matplotlib处理计算数据
#!/usr/bin/python # -*- coding: UTF-8 -*- import numpy as np import matplotlib.pyplot as plt import ...
python之数据序列转换并同时计算数据
问题你需要在数据序列上执行聚集函数(比如 sum() , min() , max() ), 但是首先你需要先转换或者过滤数据解决方案一个非常优雅的方式去结合数据计算与转换就是使用一个生成器表达式 ...

随机推荐

Windows开机BIOS启动快捷按键
Window装系统,开机需要调整启动选项...不同的机型,进入BIOS按键不同按键列表
使用nmap查看web服务支持的http methods
安装nmap yum install nmap 查看web server支持的http methods u02 ~]$ nmap -p --script http-methods www.somewh ...
Struts1与Struts2的那些事
一.概述 Struts1以ActionServlet作为核心控制器,由ActionServlet负责拦截用户的全部请求.Struts1框架有3个重要组成部分:Action.ActionForm和Act ...
Swift3 颜色转换成图片Image
Swift3下的转换写法: /// 将颜色转换为图片 /// /// - Parameter color: <#color description#> /// - Returns: < ...
【MAVEN】如何在Eclipse中创建MAVEN项目
目录结构: contents structure [+] 1,Maven简介 2,Maven安装 2.1,下载Maven 2.2,配置环境变量 2.3,测试 3,Maven仓库 3.1,Maven仓库 ...
【Oracle】Oracle约束的总结
你对ORACLE约束的了解如何?比较模糊还是相当透彻?如果你对下面几个问题了如指掌的话,恭喜你,你已经对约束掌握得比较好了,不用看这篇文章了.ORACLE的约束有啥功能作用? 有哪些类型约束(不同版本 ...
在debug模式下引入一些性能检测工具
我们经常在debug模式下使用一些性能检测工具,例如blockCannary,leakCannary.Stetho等,但是我们release的时候又不需要这些检测工具,通常情况下我们的做法是在buil ...
【Linux】数据流重导向（后篇）
1)/dev/null 垃圾桶黑洞装置与特殊写法想象一下,如果我知道错误信息会发生,所以要将错误信息忽略掉而不显示或储存呢? 这个时候黑洞装置 /dev/null 就很重要了!这个 /dev/nul ...
itunes Connect 未能创建 App 图标
之前用的是chrome浏览器提交了app和app图标都是没问题的,可今天一直提交一直没成功,也是符合apple要求格式和大小的,郁闷.后来想了想换个浏览器试试,用了mac自带的safari浏览器后居然 ...
Linux导出/导入逻辑卷组信息
源主机上操作: 将文件系统umount # umount /u01 再将LV和VG inactive: # lvchange -an /dev/vg_u01/lv_u01 # vgchange -an ...

python-计算数据的相关性

python-计算数据的相关性的更多相关文章

随机推荐

热门专题