《BI那点儿事》三国人物智力分布状态分析
献给广大的三国爱好者们,希望喜欢三国的朋友一起讨论,加深对传奇三国时代的了解
数据分析基础概念:
数据分为“不可测量”的数据和“可测量”的数据。
不可测量的数据称为“分类数据”(Category Data或Categorical Data。),而可测量的数据称为“数值数据”(Numerical Data)。
组中值:Class Midpoint
次数:Frequency
相对次数:Relative Frequency
相对次数=所属各组的数据个数÷数据总数
次数分布表和直方图
组距分组掩盖了各组内间的数据分布状况,为反映各组数据的一般水平,我们通常用组中值来作为该组数据的一个代表值(class midpoint)。上限与下限之间的中点数值称为组中值,它是各组上下限数值的简单平均,即组中值=(下限+上限)/2。
若遇到开口组,则上开口组组中值=下限+邻组组距/2; 下开口组组中值=上限-邻组组距/2。
使用组中值代表一组数据时有一个必要的假定条件,即各组数据在本组内呈现均匀分布或在组中值两侧呈对称分布。如果实际数据的分布不符合这一假定,用组中值作为一组数据的代表就会有一定的误差。
建立数据分析环境:
SELECT CASE WHEN 智力 > 0
AND 智力 < 10 THEN '0-9'
WHEN 智力 >= 10
AND 智力 < 20 THEN '10-19'
WHEN 智力 >= 20
AND 智力 < 30 THEN '20-29'
WHEN 智力 >= 30
AND 智力 < 40 THEN '30-39'
WHEN 智力 >= 40
AND 智力 < 50 THEN '40-49'
WHEN 智力 >= 50
AND 智力 < 60 THEN '50-59'
WHEN 智力 >= 60
AND 智力 < 70 THEN '60-69'
WHEN 智力 >= 70
AND 智力 < 80 THEN '70-79'
WHEN 智力 >= 80
AND 智力 < 90 THEN '80-89'
WHEN 智力 >= 90
AND 智力 <= 100 THEN '90-100'
END 分组 ,
COUNT(*) 人数
FROM FactSanguo11
GROUP BY CASE WHEN 智力 > 0
AND 智力 < 10 THEN '0-9'
WHEN 智力 >= 10
AND 智力 < 20 THEN '10-19'
WHEN 智力 >= 20
AND 智力 < 30 THEN '20-29'
WHEN 智力 >= 30
AND 智力 < 40 THEN '30-39'
WHEN 智力 >= 40
AND 智力 < 50 THEN '40-49'
WHEN 智力 >= 50
AND 智力 < 60 THEN '50-59'
WHEN 智力 >= 60
AND 智力 < 70 THEN '60-69'
WHEN 智力 >= 70
AND 智力 < 80 THEN '70-79'
WHEN 智力 >= 80
AND 智力 < 90 THEN '80-89'
WHEN 智力 >= 90
AND 智力 <= 100 THEN '90-100'
END
ORDER BY 分组 SELECT *
FROM FactSanguo11
WHERE 智力 >= 90
AND 智力 <= 100
ORDER BY 智力 DESC
三国人物智力分布表
智力分组 |
组中值 |
人数 |
相对次数 |
0-9 |
5 |
12 |
0.02 |
10-19 |
14.5 |
19 |
0.03 |
20-29 |
25 |
33 |
0.05 |
30-39 |
34.5 |
70 |
0.10 |
40-49 |
44.5 |
72 |
0.11 |
50-59 |
54.5 |
76 |
0.11 |
60-69 |
64.5 |
129 |
0.19 |
70-79 |
74.5 |
173 |
0.26 |
80-89 |
84.5 |
65 |
0.10 |
90-100 |
95 |
21 |
0.03 |
合计 |
670 |
1.00 |
直方图:
如各位所见,上表中的组距是9。之所以选择9,并没有什么数学上的规定,而是全由本人主观决定的。没错,组距该设多少,完全依照分析者本身的判断。
以主观设定的组距而做成的人数分布表没有说服力,无法在他人面前公开,难道就没有按数学原理制定组距的方法吗?也许有人会产生这样的疑问。事实上,方法是有的。
以步骤2求出的组距为基础,做出如下的人数分布表:
智力分组 |
组中值 |
人数 |
相对次数 |
0-10 |
5 |
13 |
0.02 |
11-20 |
15 |
18 |
0.03 |
21-30 |
25 |
39 |
0.06 |
31-40 |
35 |
71 |
0.11 |
41-50 |
45 |
70 |
0.10 |
51-60 |
55 |
78 |
0.12 |
61-70 |
65 |
146 |
0.22 |
71-80 |
75 |
160 |
0.24 |
81-90 |
85 |
58 |
0.09 |
91-100 |
95 |
17 |
0.03 |
合计 |
670 |
1.02 |
直方图:
《BI那点儿事》三国人物智力分布状态分析的更多相关文章
- 《BI那点儿事—数据的艺术》目录索引
原创·<BI那点儿事—数据的艺术>教程免费发布 各位园友,大家好,我是Bobby,在学习BI和开发的项目的过程中有一些感悟和想法,整理和编写了一些学习资料,本来只是内部学习使用,但为了方便 ...
- 《BI那点儿事》Microsoft 聚类分析算法——三国人物身份划分
什么是聚类分析? 聚类分析属于探索性的数据分析方法.通常,我们利用聚类分析将看似无序的对象进行分组.归类,以达到更好地理解研究对象的目的.聚类结果要求组内对象相似性较高,组间对象相似性较低.在三国数据 ...
- 《BI那点儿事》Microsoft 决策树算法——找出三国武将特性分布,献给广大的三国爱好者们
根据游戏<三国志11>武将数据,利用决策树分析,找出三国武将特性分布.其中变量包括统率.武力.智力.政治.魅力.身分.变量说明:统率:武将带兵出征时的部队防御力.统帅越高受到普通攻击与兵法 ...
- 《BI那点儿事》双变量的相关分析——相关系数
例如,“三国人物是否智力越高,政治就越高”,或是“是否武力越高,统率也越高:准备数据分析环境: SELECT * FROM FactSanguo11 WHERE 姓名 IN ( N'荀彧', N'荀攸 ...
- Characters_of_the_Three_Kingdoms - 三国人物结构化数据
Characters_of_the_Three_Kingdoms - 三国人物结构化数据 三国人物结构化数据 为什么会有这个项目 需求1:摆脱网上那些长篇累牍的文章: 需求2:只是想简单查看下人物姓甚 ...
- 《BI那点儿事》运用标准计分和离差——分析三国超一流统帅综合实力排名 绝对客观,数据说话
数据分析基础概念:标准计分: 1.无论作为变量的满分为几分,其标准计分的平均数势必为0,而其标准差势必为1.2.无论作为变量的单位是什么,其标准计分的平均数势必为0,而其标准差势必为1.公式为: 离差 ...
- 《BI那点儿事》SSRS图表和仪表——雷达图分析三国超一流谋士、统帅数据(图文并茂)
雷达图分析三国超一流谋士.统帅数据,献给广大的三国爱好者们,希望喜欢三国的朋友一起讨论,加深对传奇三国时代的了解 建立数据环境: -- 抽取三国超一流谋士TOP 10数据 DECLARE @t1 TA ...
- 《BI那点儿事》三国数据分析系列——蜀汉五虎上将与魏五子良将武力分析,绝对的经典分析
献给广大的三国爱好者们,希望喜欢三国的朋友一起讨论,加深对传奇三国时代的了解 数据分析基础概念:集中趋势分析是指在大量测评数据分布中,测评数据向某点集中的情况.总体(population)是指客观存在 ...
- Microsoft Naive Bayes 算法——三国人物身份划分
Microsoft朴素贝叶斯是SSAS中最简单的算法,通常用作理解数据基本分组的起点.这类处理的一般特征就是分类.这个算法之所以称为“朴素”,是因为所有属性的重要性是一样的,没有谁比谁更高.贝叶斯之名 ...
随机推荐
- pomotime_v1.7.2 番茄软件完全教程
资源下载:http://download.csdn.net/detail/xz_legendx/8546211 番茄规则和技巧 一个番茄时间共30分钟,包括25分钟的工作时间和5分钟的休息时间. ...
- c#组元(Tuple)的使用
组元(Tuple)是C# 4.0引入的一个新特性,可以在.NET Framework 4.0或更高版本中使用.组元使用泛型来简化类的定义,多用于方法的返回值.在函数需要返回多个类型的时候,就不必使用o ...
- Android 网络通信框架Volley简介
1.1. Volley引入的背景在以前,我们可能面临如下很多麻烦的问题. 比如以前从网上下载图片的步骤可能是这样的流程: 在ListAdapter#getView()里开始图像的读取. 通过Async ...
- linq小笔记;
1.比较LINQ to Entities的AsQueryable和AsEnumerable方法 C#程序: 复制内容到剪贴板程序代码 using (testContext context = new ...
- SynchronousQueue应用
SynchronousQueue是无界的,是一种无缓冲的等待队列,但是由于该Queue本身的特性,在某次添加元素后必须等待其他线程取走后才能继续添加:可以认为SynchronousQueue是一个缓存 ...
- Python基础、文件处理
一.概述 Python中操作文件是通过file对象来处理的,步骤: 指定文件的路径.操作的模式 对文件进行操作,读或写操作 关闭文件对象 f = open( '文件路径','访问模式') # 打开文件 ...
- SQLServer2005+附加数据库时出错提示操作系统错误5(拒绝访问)错误5120的解决办法
SQLServer2005+ 附加数据库时出错提示操作系统错误5(拒绝访问)错误5120的解决办法 我们在用Sql SQLServer2005+附加数据库文件时弹出错误信息如下图的处理办法: 方案一: ...
- math方法
1.丢弃小数部分,保留整数部分parseInt(5/2) 2.向上取整,有小数就整数部分加1 Math.ceil(5/2) 3,四舍五入. Math.round(5/2) 4,向下取整 Math.fl ...
- paper 109 :图像处理中的拉普拉斯算子
1.基本理论 拉普拉斯算子是最简单的各向同性微分算子,具有旋转不变性.一个二维图像函数 的拉普拉斯变换是各向同性的二阶导数,定义为: 为了更适合于数字图像处理,将该方程表示为离散形式: 另外 ...
- PoE以太网远程供电
每个以太网口向下挂设备提供的最大功率为 15.4W 通过3/5 类双绞线的信号线(1.3.2.6)同时传递数据和电流