大数据Hadoop入门教程 | (一)概论
数据是什么
- 数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合,它是可识别的、抽象的符号。
- 它不仅指狭义上的数字,还可以是具有一定意义的文字、字母、数字符号的组合、图形、图像、视频、音频等,也是客观事物的属性、数量、位置及其相互关系的抽象表示。例如,"0、1、2”、“阴、雨、下降”、"学生的档案记录、货物的运输情况”等都是数据。
数据如何产生
对客观事物的计量和记录产生数据
企业数据分析方向
- 现状分析(分析当下的数据):现阶段的整体情况,各个部分的构成占比、发展、变动;
- 原因分析(分析过去的数据):某一现状为什么发生,确定原因,做出调整优化;
- 离线分析(Batch Processing):面向过去,面向历史,分析已有的数据;
在时间维度明显成批次性变化。一周一分析(T+7),一天一分析(T+1),所以也叫做批处理。 - 实时分析(Real Time Processing | Streaming):面向当下,分析实时产生的数据;所谓的实时是指从数据产生到数据分析到数据应用的时间间隔很短,可细分秒级、毫秒级。
- 离线分析(Batch Processing):面向过去,面向历史,分析已有的数据;
- 预测分析(结合数据预测未来):结合已有数据预测未来发展趋势。
- 机器学习(Machine Learning):基于历史数据和当下产生的实时数据预测未来发生的事情;侧重于数学算法的运用,如分类、聚类、关联、预测。
数据分析六步曲
数据分析步骤(流程)的重要性体现在:对如何开展数据分析提供了强有力的逻辑支撑
张文霖在《数据分析六步曲》说,典型的数据分析应该包含以下几个步骤:
Step1:明确分析目的和思路
目的是整个分析流程的起点,为数据的收集、处理及分析提供清晰的指引方向;
思路是使分析框架体系化,比如先分析什么,后分析什么,使各分析点之间具有逻辑联系,保证分析维度的完整性,分析结果的有效性以及正确性,需要数据分析方法论进行支撑;
数据分析方法论是一些营销管理类相关理论,比如用户行为理论、PEST分析法、5W2H分析法等。
Step2:数据收集
- 数据从无到有的过程:比如传感器收集气象数据、埋点收集用户行为数据
- 数据传输搬运的过程:比如采集数据库数据到数据分析平台
Step3:数据处理
- 准确来说,应该称之为数据预处理。
- 数据预处理需要对收集到的数据进行加工整理,形成适合数据分析的样式,主要包括数据清洗、数据转化、数据提取、数据计算;
- 数据预处理可以保证数据的一致性和有效性,让数据变成干净规整的结构化数据。
Step4:数据分析
- 用适当的分析方法及分析工具,对处理过的数据进行分析,提取有价值的信息,形成有效结论的过程;
- 需要掌握各种数据分析方法,还要熟悉数据分析软件的操作;
Step5:数据展现
- 数据展现又称之为数据可视化,指的是分析结果图表展示,因为人类是视觉动物;
- 数据可视化(Data Visualization)属于数据应用的一种;
- 注意,数据分析的结果不是只有可视化展示,还可以继续数据挖掘(Data Mining)、即席查询(Ad Hoc)等。
step6:报告撰写
- 数据分析报告是对整个数据分析过程的一个总结与呈现
- 把数据分析的起因、过程、结果及建议完整地呈现出来,供决策者参考
- 需要有明确的结论,最好有建议或解决方案
总结
一切围绕着数据
通俗描述:数据从哪里来、数据到哪里去
核心步骤:采集、处理、分析、应用
大数据概念
大数据定义
- 大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合;
- 是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据5V特征
- Volume:数据体量大
- Variety:种类、来源多样化
- Value:低价值密度
- Velocity:速度快
- Veracity:数据的质量
应用场景
- 电商领域:精准广告位、个性化推荐、大数据杀熟
- 传媒领域:精准营销、猜你喜欢、交互推荐
- 金融方面:理财投资,通过对个人的信用评估,风险承担能力评估,集合众多理财产品、推荐响应的投资理财产品。
- 安防领域:犯罪预防、天网监控
- 医疗领域:智慧医疗、疾病预防、病源追踪
分布式与集群
概念
分布式、集群是两个不同的概念,但口语中经常混淆二者。
- 分布式:多台机器每台机器上部署不同组件
- 集群:多台机器每台机器上部署相同组件
混淆点
- 分布式、集群的共同点是:都是多台机器(服务器)组成的;
- 因此口语中混淆两者概念的
- 时候都是:相对于单机来说的。
应用
数据大爆炸,海量数据处理场景面临问题
如何存储?
- 单机存储有瓶颈多台机器分布式存储
如何计算?
- 单机计算能力有限多台机器分布式计算
操作系统
概念
- 操作系统(operating system,简称OS)是管理计算机硬件与软件资源的程序,需要处理如:管理与配置内存、决定系统资源供需的优先次序、控制输入设备与输出设备、操作网络与管理文件系统等基本事务;
- 没有操作系统的机器称之为裸机,不管是开发还是使用都十分不便。
- 操作系统也提供一个让用户与系统交互的操作界面。
操作系统分类
操作系统发展至今,种类繁多,可以根据应用的不同领域进行划分:
- 桌面操作系统:所谓的桌面指的是图形化操作页面。
- Mac os(Apple)、Windows(Microsoft)、Linux:三足鼎立
- 服务器操作系统:般指的是安装在大型计算机上的操作系统。比如Wb服务器、应用服务器和数据库服务器等,是企业IT系统的基础架构平台。
- 主要分为四大流派:Unix、Linux、Windows Server和Netware。
- 系统嵌入式操作系统:是一种完全嵌入受控器件内部,为特定应用而设计的专用计算机系统。
- 如μClinux(嵌入式Linux)、WinCE(微软嵌入式、移动计算平台)、RTOS(嵌入式实时操作系统,军事航空领域)等。
- 在工业、军事、航空等领域使用较多。(车机系统)
- 移动设备操作系统:主要应用在智能手机、平板等智能设备上。
- 主要有Android(谷歌)、iOS(苹果)、Symbian(诺基亚)、BlackBerry 0S(黑莓)、windows mobile(微软)、Harmony(华为鸿蒙)等。
Linux起源与发展
- Unix系统是较早被广泛使用的计算机操作系统之一,由Ken Thompson在AT&T贝尔实验室实现,后续发展中,因开源、版权等问题陷入不断纠纷,延伸出不同Unix版本;
- 1991年芬兰学生Linus Torvalds发布Linux:系统第一个版本,遵循GPL协议(通用公共许可证),开源免费;
- Linux是一个类似Unix的操作系统,Linux的初衷就是要替代Unix,并在功能和用户体验上进行优化,所以Linux模仿了Unix(但并没有抄袭Unix的源码),使得Linux在外观和交互上与Unix非常类似。
Linux内核(Kernel)
- 操作系统的核心部分简称内核,Linux?第一版本独立内核由Linus Torvalds开发实现,约10000行代码;
- 后续Linus Torvalds公开了Linux内核代码,并邀请他人一起完善Linux;现在只有2%的Linux核心代码是由Linus Torvalds自己编写,但是仍然拥有Linux内核且保留了选择新代码和需要合并的新方法的最终裁定权;
- Linux操作系统=1 inux Kerne1+GNU软件及系统软件+必要的应用程序
- Linuxi选择企鹅图案作为Logo,其含义是:开放源代码的Linux像企鹅一样为全人类共同所有。
Linux发行版本
- Linux发行版就是由Linux内核与各种常用软件的集合产品,如今全球大约有数百款的Linux发行版本。
- 从大的方面来说,Linux2发行版可大致分为个人桌面版和企业服务器版。
- 个人桌面版中,
Ubuntu
成熟度颇高较受欢迎,而Redhat
(红帽系列)及其延伸版本(Centos
)凭借稳定的性能在企业服务器中占比很大。
视频链接:https://www.bilibili.com/video/BV1CU4y1N7Sh?p=7&share_source=copy_pc
原创作者:孤飞-博客园
大数据Hadoop入门教程 | (一)概论的更多相关文章
- 大数据Hadoop入门教程 | (二)Linux
使用finalShell可以提供文件目录图形化 完整Linux命令整理参考大佬博客:Linux常见文件管理命令 - Mr_Walker - 博客园 Linux文件系统基础知识 Linux文件系统概念 ...
- 大数据Hadoop入门视频教程:Hadoop的快如入门
最新在学习hadoop .storm大数据相关技术,发现网上hadoop .storm 相关学习视频少之又少,这里整理了传智播客段海涛老师的hadoop学习视频,出来给大家学习交流. 视频下载地址:h ...
- 大数据hadoop入门学习之集群环境搭建集合
目录: 1.基本工作准备 1.虚拟机准备 2.java 虚拟机-jdk环境配置 3.ssh无密码登录 2.hadoop的安装与配置 3.hbase安装与配置(集成安装zookeeper) 4.zook ...
- [大数据从入门到放弃系列教程]第一个spark分析程序
[大数据从入门到放弃系列教程]第一个spark分析程序 原文链接:http://www.cnblogs.com/blog5277/p/8580007.html 原文作者:博客园--曲高终和寡 **** ...
- [大数据从入门到放弃系列教程]在IDEA的Java项目里,配置并加入Scala,写出并运行scala的hello world
[大数据从入门到放弃系列教程]在IDEA的Java项目里,配置并加入Scala,写出并运行scala的hello world 原文链接:http://www.cnblogs.com/blog5277/ ...
- 大数据-03-Spark入门
Spark 简介 行业广泛使用Hadoop来分析他们的数据集.原因是Hadoop框架基于一个简单的编程模型(MapReduce).这里,主要关注的是在处理大型数据集时在查询之间的等待时间和运行程序的等 ...
- 14周事情总结-机器人-大数据hadoop
14周随着考试的进行,其他该准备的事情也在并行的处理着,考试内容这里不赘述了 首先说下,关于机器人大赛的事情,受益颇多,机器人的制作需要机械和电控两方面 昨天参与舵机的测试,遇到的问题:舵机不动 排查 ...
- 成都大数据Hadoop与Spark技术培训班
成都大数据Hadoop与Spark技术培训班 中国信息化培训中心特推出了大数据技术架构及应用实战课程培训班,通过专业的大数据Hadoop与Spark技术架构体系与业界真实案例来全面提升大数据工程师 ...
- 王家林的“云计算分布式大数据Hadoop实战高手之路---从零开始”的第十一讲Hadoop图文训练课程:MapReduce的原理机制和流程图剖析
这一讲我们主要剖析MapReduce的原理机制和流程. “云计算分布式大数据Hadoop实战高手之路”之完整发布目录 云计算分布式大数据实战技术Hadoop交流群:312494188,每天都会在群中发 ...
随机推荐
- 怎样生成分布式的流水ID
流水编号 日常在我们开发的过程中可能会用到编号的功能,如销售订单号,采购订单号,日志编号,凭证号...等等,为了保证唯一有些表的主键要么用自增长,要么用GUID值,或通过雪花ID算法生成.这此方式基本 ...
- JS基础6--逻辑运算符
&&与 ||或 !非 如果对一个值进行两次取反,它不会变化 如果对一个非布尔值进行取反,则会将其转换为布尔值,再取反 所以我们可以利用该特点.来将 ...
- .net core 抛异常对性能影响的求证之路
一.前言 在.net 社区中曾经听到过很多关于大量抛异常会影响性能这样的结论,心中一直就存在各种疑问.项目中使用自定义异常来处理业务很爽,但是又担心大量抛业务异常存在性能问题. 查阅了各种文档,微软官 ...
- 新上线!3D单模型轻量化硬核升级,G级数据轻松拿捏!
"3D模型体量过大.面数过多.传输展示困难",用户面对这样的3D数据,一定不由得皱起眉头.更便捷.快速处理三维数据,是每个3D用户对高效工作的向往. 在老子云最新上线的单模型轻量化 ...
- React技巧之发出http请求
原文链接:https://bobbyhadz.com/blog/react-send-request-on-click 作者:Borislav Hadzhiev 正文从这开始~ 总览 在React中, ...
- IDEA Unicode码转中文
1.打开设置 2.打开文件编码设置,按如图设置
- MySQL case when then 用法
下面演示一下MYSQL中的CASE WHEN THEN的用法. 一. SELECT MENU_NAME, YXBZ, case YXBZ when 'Y' then '开放' when 'N' the ...
- 岭回归和LASSO
0.对于正则罚项的理解 1.岭回归(L2 ridge regression ) 是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信 ...
- springboot java -jar指定启动的jar外部配置文件
Limited Setting Effect 中文描述 Java 8 -Xbootclasspath:<path> Sets the search path for bootstrap c ...
- wcf连接数据库用sqlhelper,连接数一直没有释放反而增加
找了一天,发现原因是配置的连接字符串没有加上最大连接数,所以每次请求都是一直增加,而MariaDB默认的连接数是151,为了本地多项目测试已改成以前. 下面是配置的连接字符串: <add na ...