一、数据分析相关概念

数据:是指对事物或对象各方面进行描述的符号,包括事物的基本属性、特征、性质、状态、相互关系等;比如描述人的数据有:身高、年龄、性别、兴趣、性格、婚姻状态等等。

分析:是指把事物或现象的各方面数据组合在一起,从这些事物的基本属性、特征、性质、状态等中找出其中彼此关系,寻找解决问题的方法,从而得出结论或指导决策。

数据分析:是指用一定的方法(包括数学、统计学等方法)对收集的数据,提取数据中有用的信息(属性、特征、性质、状态)详细研究,找出其中规律,概括总结分析结果,提供决策依据。

二、数据分析过程

   数据分析过程包括数据采集、数据存储、数据分析、数据挖掘、数据可视化、指导决策;

数据采集:是指对某些事物基本属性、特征、性质、状态、相互关系等信息进行采集;比如网站、系统、手机APP等会采集用户的行为数据,填写调查问卷等等;数据采集一般是对特定的目标去采集数据,并且盲目收集所有数据;

数据存储:是指把采集的数据存储起来,包括存储到数据库(sql server、oracle、mysql)、文件(txt、csv、excel等)、数据仓库等,以便用于数据分析;

数据分析:是指使用数据分析的方法对存储的数据进行分析处理,并概括总结分析结果的过程;

数据挖掘:Data Mining,是指从海量数据(大数据)中通过算法、机器学习、模式识别、建立模型等方法,找出数据中有用的信息的过程;

数据可视化: 是指用图型的方法直观展示数据分析或数据挖掘的结果,数据走势比较等等,并提供给管理者用于指导决策,单纯的数据不能直观看出其中的规律,故要借助可视化的手段来展现;

指导决策: 是将数据分析或数据挖掘结果与数据可视化结果形成相应的报告文档,呈给管理者参考或指导决策。

三、R语言介绍

概念:R语言是自由、免费、开源的,用于统计分析,绘图和报告的编程语言和软件环境,面向对象编程的统计语言。

IDE环境:R语言常用IDE开发工具:RGui、Rstudio;

R学习建议:上官网、多动手,对数学、统计分析有兴趣或基础;

R语言入门一的更多相关文章

  1. 用几分钟了解R语言入门知识

    第一篇——用几分钟了解R语言入门知识 第二篇——用几分钟了解R语言入门知识(续) 关于数据分析学习笔记的计划(以及目录)

  2. R语言入门1:安装R和RStudio

    R语言入门1:安装R和RStudio 曹务强 中科院遗传学博士研究生 9 人赞同了该文章 1. Windows安装R 在Windows系统上,安装R语言比较简单,直接从R的官方网站下载,按照正常的软件 ...

  3. 【Introduction】R语言入门关键小结

    写在前面:本博客为本人原创,严禁任何形式的转载!本博客只允许放在博客园(.cnblogs.com),如果您在其他网站看到这篇博文,请通过下面这个唯一的合法链接转到原文! 本博客全网唯一合法URL:ht ...

  4. r语言入门资料

    最近有好多r语言的爱好者问我r语言的事情,在百度上简单的收一收,感觉都在扯淡,真正适合初学者入门的资料几乎没有,比如最开始用什么编辑器比较好,在哪下载,最开始学习的例子有什么?  在日本网站上反倒是找 ...

  5. [原创]零基础R语言教程---第二课---R语言入门

    这节教程简单描述了R语言中常用的数据类型, 向量,字符串,矩阵,列表,数据框,以及附带了一个小例子 对于这节课所附带的例子需要做下列补充: 1.这个例子面向于对整列的数据进行预测 2.如果你需要求单行 ...

  6. R语言入门(二)基础语法

    1.help可以提供帮助,如help(nchar), help("[["),或者用?nchar也能获取帮助.example(nchar)可以获取到某个主题的使用方法. 2.ncha ...

  7. R语言入门(一)简介安装

    数据挖掘常用的语言有R语言,python,SQL等,其中R语言最受欢迎.(注:SQL Server包含微软研究院开发的两种数据挖掘算法:Microsoft决策树和Microsoft聚集,此外还支持第三 ...

  8. R语言入门(2)-数据对象

    数据对象 创建向量相关的方法 R语言的向量用法非常像python, 就比如这个seq(0,10,2), 从0到10, 步长为2, 涉及到的元素作为向量里的内容进行创建. 这里的用法非常像Matlab, ...

  9. R语言入门(1)-初识R语言

    设置R语言环境为英文环境 其实不设置也行...就是报错提示的内容是中文的话, 会不太好理解.. 1. 首先在用户根目录下cat查看一下, 发现没有.Renviron文件, 这个是R语言的环境配置文件. ...

  10. 《R语言入门与实践》第一章:R基础

    前言 本章介绍了 R 语言的基础知识 界面: 使用命令 “ R “进行命令行的实时编译 对象 定义: 用于储存数据的,设定一个名称 格式: a <- 1:6 命名规则: 规则1:不能以数字开头规 ...

随机推荐

  1. flush方法和close方法的区别

    package com.yhqtv.demo05.Writer; import java.io.FileWriter; /* * @author XMKJ yhqtv.com Email:yhqtv@ ...

  2. GIT代码版本管理

    一.实验目的 1.了解分布式版本控制系统的核心机理: 2.熟练掌握git的基本指令和分支管理指令: 二.实验内容 1.安装git: 2.初始配置git,git init git status指令: 3 ...

  3. mybatis collection的使用

    Mybatis collection的使用 今天学习了mybatis中的collection使用,作为记录以后使用.首先看一下javabean的结构! public class Article {   ...

  4. 关于tez-ui的"All DAGs"和"Hive Queries"页面信息为空的问题解决过程

    近段时间发现公司的HDP大数据平台的tez-ui页面不能用了,页面显示为空,导致通过hive提交的sql不能方便地查找到Yarn上对应的applicationId,只能通过beeline的屏幕输出信息 ...

  5. SpringBoot切面Aop的demo简单讲解

    前言 本篇文章主要介绍的是SpringBoot切面Aop的demo简单讲解. SpringBoot Aop 说明:如果想直接获取工程那么可以直接跳到底部,通过链接下载工程代码. 切面(Aop) 一.概 ...

  6. linux常用命令---centOS7的管理服务(针对yum安装的)

    centOS7的管理服务(针对yum安装的)

  7. 树状数组区间更新区间查询以及gcd的logn性质

    题目描述 给你一个长为n的序列a m次查询 每次查询一个区间的所有子区间的gcd的和mod1e9+7的结果 输入描述: 第一行两个数n,m之后一行n个数表示a之后m行每行两个数l,r表示查询的区间 输 ...

  8. poj1486二分匹配 待填坑

    Sorting Slides Time Limit: 1000MS   Memory Limit: 10000K Total Submissions: 4777   Accepted: 1867 De ...

  9. 设计模式:Filter+Servlet+反射

    传统设计 分类管理需要:增加,删除,编辑,修改,查询5个服务端功能. 一个路径对应一个Servlet的思路,就需要设计5个Servlet类,并且在web.xml中配置5个路径. CategoryAdd ...

  10. 25-12 空值处理(null值)

    --------------------空值处理--------------------- select * from TblStudent --查询所有年龄是null的同学学习信息 --null值无 ...