献给广大的三国爱好者们,希望喜欢三国的朋友一起讨论,加深对传奇三国时代的了解 数据分析基础概念:集中趋势分析是指在大量测评数据分布中,测评数据向某点集中的情况.总体(population)是指客观存在的,并在同一性质的基础上结合起来的许多个别单位的整体,即具有某一特性的一类事物的全体,又叫母体或全域.简单地说,总体也就是我们所研究的性质相同个体的总和,用符号N表示.样本(sample),是指从总体中抽出的一部分个体.样本中所包含个体数目称样本容量或含量,用符号n表示.标准差与方差的区别:从公式上…
原创·<BI那点儿事—数据的艺术>教程免费发布 各位园友,大家好,我是Bobby,在学习BI和开发的项目的过程中有一些感悟和想法,整理和编写了一些学习资料,本来只是内部学习使用,但为了方便更多的BI开发者,推动BI企业级应用开发,决定整理成一部教程,并在网络上免费发布该教程,希望为BI时代贡献绵薄之力! 本教程是由Bobby参考官方文档,综合市面相关书籍,经过充分的吸收消化,结合开发实践的而创作的一部原创作品,为了本教程及早与广大读者同仁见面.分享,特采用定稿一部分就发布一部分的连载方式发布.…
什么是聚类分析? 聚类分析属于探索性的数据分析方法.通常,我们利用聚类分析将看似无序的对象进行分组.归类,以达到更好地理解研究对象的目的.聚类结果要求组内对象相似性较高,组间对象相似性较低.在三国数据分析中,很多问题可以借助聚类分析来解决,比如三国人物身份划分.聚类分析的基本过程是怎样的?  选择聚类变量 在分析三国人物身份的时候,我们会根据一定的假设,尽可能选取对角色身份有影响的变量,这些变量一般包含与身份密切相关的统率.武力.智力.政治.魅力.特技.枪兵.戟兵.弩兵.骑兵.兵器.水军等.但是…
例如,“三国人物是否智力越高,政治就越高”,或是“是否武力越高,统率也越高:准备数据分析环境: SELECT * FROM FactSanguo11 WHERE 姓名 IN ( N'荀彧', N'荀攸', N'贾诩', N'程昱', N'郭嘉' ) 曹魏五谋臣,指荀彧.荀攸.贾诩.程昱.郭嘉五人.因为这五个人对曹魏势力的成立与巩固有巨大贡献,所以,把他们叫做曹魏五谋臣.“智力”和“政治”的散布图 做成图表后,我们就可以知道它们是否与双变量相关联.但是!关联性究竟有多高呢?很可惜!我们无法确切得知…
R语言数据分析系列六 -- by comaple.zhang 上一节讲了R语言作图,本节来讲讲当你拿到一个数据集的时候怎样下手分析,数据分析的第一步.探索性数据分析. 统计量,即统计学里面关注的数据集的几个指标.经常使用的例如以下:最小值,最大值,四分位数,均值,中位数,众数,方差,标准差.极差,偏度,峰度 先来解释一下各个量得含义,浅显就不说了,这里主要说一下不常见的 众数:出现次数最多的 方差:每一个样本值与均值的差得平方和的平均数 标准差:又称均方差,是方差的二次方根.用来衡量一个数据集的…
自助式BI或者自助式数据分析是最近几年兴起的一个概念.根据Gartner发布的信息,Self Service Business Intelligence(SSBI)被定义为“终端用户在被批准和支持的平台或工具组合中设计和部署自己的报告和分析. 很多业内人士都表示未来的BI或者数据分析的趋势就是要实现去中心化.以前有三类人需要牵涉到整个BI系统的环境或者是业务的搭建过程中(ETL, 数据分析及可视化,业务人员).去中心化就是企业不再需要有一个专门的BI部门去完成整个业务的需求,而是业务部门的人员需…
在3月29日深圳云栖大会的数据分析与可视化专场中,阿里云产品专家陌停对大数据智能分析产品 Quick BI 进行了深入的剖析.大会现场的精彩分享也赢得观众们的一直认可和热烈的反响. 大数据分析之路的挑战与期望 阿里巴巴作为一家大数据公司,整个集团,从上到下都在践行数字化运营.传统的大数据分析之路,正面临着临时需求多.需求响应时间长.本地化现象严重.专业人才紧缺等挑战,急需构建一个面向业务人员的自助式大数据分析工具,让业务人员自助式实现在线数据分析,助力企业业务的数据化. Quick BI核心能力…
R语言数据分析系列之四 -- by comaple.zhang 说到统计分析我们就离不开随机变量,所谓随机变量就是数学家们为了更好的拟合现实世界的数据而建立的数学模型.有了她我们甚至能够来预測一个站点未来几天的日訪问用户,股票的未来走势等等. 那么本节我们来一起探讨下面经常使用的函数分布.以及流程控制语句. 常见分布有:正态分布(高斯分布),指数分布,beta分布,gamma分布等. 正态分布 若随机变量X服从一个数学期望为μ.方差为σ^2的正态分布.记为N(μ.σ^2).其概率密度函数曲线,由…
R语言数据分析系列之五 -- by comaple.zhang 本节来讨论一下R语言的基本图形展示,先来看一张效果图吧. watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvY29tYXBsZQ==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt=""> 这是一张用R语言生成的,虚拟的wordcloud云图,详细实现细节请參见我…
数据分析系列篇:玩转excel 不知道现在怎么也变得这么鸡婆,连excel都要准备写一篇.没办法,还有很多不是做数据的小伙伴们不会excel啊,抱着不抛弃.不放弃的态度,就讲下excel如何玩转.其实excel不难,掌握几块就能轻松驾驭:1)函数 2)图表 3)数据处理 写excel相关的书也不少,讲excel的讲解也很多,所以今天要写的不是也来个洋洋洒洒大而全的东西,尽量精简点,反正我是没怎么花时间在看书上.建议把我下面的这些函数和图表都动手操作一遍,花不了你多少时间. 一.excel模块 e…