献给广大的三国爱好者们,希望喜欢三国的朋友一起讨论,加深对传奇三国时代的了解数据分析基础概念:数据分为“不可测量”的数据和“可测量”的数据.不可测量的数据称为“分类数据”(Category Data或Categorical Data.),而可测量的数据称为“数值数据”(Numerical Data).组中值:Class Midpoint次数:Frequency相对次数:Relative Frequency相对次数=所属各组的数据个数÷数据总数次数分布表和直方图 组距分组掩盖了各组内间的数据分布状…
原创·<BI那点儿事—数据的艺术>教程免费发布 各位园友,大家好,我是Bobby,在学习BI和开发的项目的过程中有一些感悟和想法,整理和编写了一些学习资料,本来只是内部学习使用,但为了方便更多的BI开发者,推动BI企业级应用开发,决定整理成一部教程,并在网络上免费发布该教程,希望为BI时代贡献绵薄之力! 本教程是由Bobby参考官方文档,综合市面相关书籍,经过充分的吸收消化,结合开发实践的而创作的一部原创作品,为了本教程及早与广大读者同仁见面.分享,特采用定稿一部分就发布一部分的连载方式发布.…
什么是聚类分析? 聚类分析属于探索性的数据分析方法.通常,我们利用聚类分析将看似无序的对象进行分组.归类,以达到更好地理解研究对象的目的.聚类结果要求组内对象相似性较高,组间对象相似性较低.在三国数据分析中,很多问题可以借助聚类分析来解决,比如三国人物身份划分.聚类分析的基本过程是怎样的?  选择聚类变量 在分析三国人物身份的时候,我们会根据一定的假设,尽可能选取对角色身份有影响的变量,这些变量一般包含与身份密切相关的统率.武力.智力.政治.魅力.特技.枪兵.戟兵.弩兵.骑兵.兵器.水军等.但是…
根据游戏<三国志11>武将数据,利用决策树分析,找出三国武将特性分布.其中变量包括统率.武力.智力.政治.魅力.身分.变量说明:统率:武将带兵出征时的部队防御力.统帅越高受到普通攻击与兵法攻击越少.武力:武将带兵出征时的部队攻击力,武力越高发动兵法或者普通攻击时对地方部队的伤害就越高:并且当发动单挑时双方武将武力值相差越少则成功率越高,同时武力也代表单挑时的武将攻击力.智力:武将发动部队计略时的效果与成功率,当武将智力高时则可以降低中计的几率:同时智力代表军师能力.政治:武将发展内政时的能力,…
例如,“三国人物是否智力越高,政治就越高”,或是“是否武力越高,统率也越高:准备数据分析环境: SELECT * FROM FactSanguo11 WHERE 姓名 IN ( N'荀彧', N'荀攸', N'贾诩', N'程昱', N'郭嘉' ) 曹魏五谋臣,指荀彧.荀攸.贾诩.程昱.郭嘉五人.因为这五个人对曹魏势力的成立与巩固有巨大贡献,所以,把他们叫做曹魏五谋臣.“智力”和“政治”的散布图 做成图表后,我们就可以知道它们是否与双变量相关联.但是!关联性究竟有多高呢?很可惜!我们无法确切得知…
Characters_of_the_Three_Kingdoms - 三国人物结构化数据 三国人物结构化数据 为什么会有这个项目 需求1:摆脱网上那些长篇累牍的文章: 需求2:只是想简单查看下人物姓甚名谁.生辰八字.家住何地.三姑六婆: 需求3:只是想简单查看下人物的历史简介.演义简介: 需求4:只是想简单查看下人物的历史评价: 需求5:只是想简单查看下人物的... 需求6:想集中查看多个人物的资料: 需求7:想获取完整而不累赘的结构化数据,自己开发应用尽情发挥: ... 需求N:... 有了数…
数据分析基础概念:标准计分: 1.无论作为变量的满分为几分,其标准计分的平均数势必为0,而其标准差势必为1.2.无论作为变量的单位是什么,其标准计分的平均数势必为0,而其标准差势必为1.公式为: 离差:离差就是应用标准计分所得的数值.1.无论作为变量的满分为几分,其离差的平均数势必为50,而其标准差势必为10.2.无论作为变量的单位是什么,其标准计分的平均数势必为50,而其标准差势必为10.公式为:离差=标准计分*10+50建立数据分析环境: * FROM FactSanguo11 ORDER…
雷达图分析三国超一流谋士.统帅数据,献给广大的三国爱好者们,希望喜欢三国的朋友一起讨论,加深对传奇三国时代的了解 建立数据环境: -- 抽取三国超一流谋士TOP 10数据 DECLARE @t1 TABLE ( ) , [统率] FLOAT , [武力] FLOAT , [智力] FLOAT , [政治] FLOAT , [魅力] FLOAT ) INSERT INTO @t1 [姓名] , [统率] , [武力] , [智力] , [政治] , [魅力] FROM FactSanguo11 )…
献给广大的三国爱好者们,希望喜欢三国的朋友一起讨论,加深对传奇三国时代的了解 数据分析基础概念:集中趋势分析是指在大量测评数据分布中,测评数据向某点集中的情况.总体(population)是指客观存在的,并在同一性质的基础上结合起来的许多个别单位的整体,即具有某一特性的一类事物的全体,又叫母体或全域.简单地说,总体也就是我们所研究的性质相同个体的总和,用符号N表示.样本(sample),是指从总体中抽出的一部分个体.样本中所包含个体数目称样本容量或含量,用符号n表示.标准差与方差的区别:从公式上…
Microsoft朴素贝叶斯是SSAS中最简单的算法,通常用作理解数据基本分组的起点.这类处理的一般特征就是分类.这个算法之所以称为“朴素”,是因为所有属性的重要性是一样的,没有谁比谁更高.贝叶斯之名则源于Thomas Bayes,他想出了一种运用算术(可能性)原则来理解数据的方法.对此算法的另一个理解就是:所有属性都是独立的,互不相关.从字面来看,该算法只是计算所有属性之间的关联.虽然该算法既可用于预测也可用于分组,但最常用于模型构建的早期阶段,更常用于分组而不是预测某个具体的值.通过要将所有…