1 hadoop-最全最完整的保姆级的java大数据学习资料

大数据技术解决的是什么问题?

大数据技术解决的主要是海量数据的存储和计算。

Hadoop的广义和狭义之分

狭义的Hadoop:指的是一个框架,Hadoop是由三部分组成:HDFS:分布式文件系统--> 存储; MapReduce:分布式离线计算框架-->计算;Yarn:资源调度框架

广义的Hadoop:广义Hadoop是不仅仅包含Hadoop框架,除了Hadoop框架之外还有一些辅助框 架。Flume:日志数据采集,Sqoop:关系型数据库数据的采集;

Hive:深度依赖Hadoop框架完成计算(sql),Hbase:大数据领域的数据库(mysql)

Sqoop:数据的导出

广义Hadoop指的是一个生态圈。

主要学习内容

第一部分:大数据简介(定义,特点,应用场景,发展趋势,职业发展路线)

第二部分:Hadoop简介(历史,发展路线-版本变更,发行版(CDH))

第三部分:Hadoop的重要组成(hdfs,mapreduce,yarn)

第四部分:Apache Hadoop 完全分布式集群搭建

第五部分:HDFS 分布式文件系统(架构,原理,常用api, 元数据管理,权限,日志采集的综合案例)

第六部分:MapReduce分布式计算框架 (原理,常用的编程规范等,大量案例练习-分区,排序-快 排-归并排序,压缩,自定义组件,综合案例)

第七部分:Yarn 资源调度框架(架构,原理,三种资源调度策略)

第八部分:Apche Hadoop核心源码剖析(nn,dn启动流程源码分析,nn高并发的支撑原理, hadoop3.0新特性)

第九部分: 调优及二次开发示例(hdfs,mr,yarn调优,nn常见GC问题,完成二次开发编译源码)

1.1 大数据简介

1.1.1 大数据的定义

​ 大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处 理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

1.1.2 大数据的特点

大数据的特点可以用 IBM 曾经提出的 “5V” 来描述,如下:

  • 大量

    采集、存储和计算的数据量都非常大。

    计算机存储单位一般用B,KB,MB,GB,TB,PB,EB,ZB,YB,BB、NB、DB来表示, 它们之间的关系是

    1GB = 1024 MB

    1TB = 1024 GB

    1PB = 1024 TB

    1EB = 1024 PB

    1ZB = 1024 EB

    1YB = 1024 ZB

    1BB = 1024 YB

    1NB = 1024 BB

    1DB = 1024 NB

    以PB为例,PB级数据量有多大?是怎样的一个概念?

    假如手机播放MP3的速度为平均每分钟1MB,而1首歌曲的平均时长为4分钟,那么1PB存量的歌曲可以连续播放2000年。

    1PB 也相当于50%的全美学术研究图书馆藏书咨询内容。

    (1)1986年,全球只有0.02EB也就是约21000TB的数据量

    (2)2007年,全球就是280EB也就是约300000000TB的数据量,翻了14000倍

    (3)近些年,由于移动互联网及物联网的出现,各种终端设备的接入,各种业务形式的普 及,平均每40个月,全球的数据量就会翻倍!2012年,每天会产生2.5EB的数据量

    (4)基于IDC的报告预测,从2013年到2020年,全球数据量会从4.4ZB猛增到44ZB!而到了 2025年,全球会有163ZB的数据量!

    全球的数据量已经大到爆了!而传统的关系型数据库根本处理不了如此海量的数据!

  • 高速

    在大数据时代,数据的创建、存储、分析都要求被高速处理,比如电商网站的个性化推荐尽可能要求实时完成推荐,这也是大数据区别于传统数据挖掘的显著特征。

  • 多样

    数据形式和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为网络日志、音 频、视频、图片、地理位置信息等等,多类型的数据对数据的处 理能力提出了更高的要求。

  • 真实

    确保数据的真实性,才能保证数据分析的正确性

  • 低价值

    数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵。互联网发展催生了大量数据,信息海量,但价值密度较低,如何结合业务逻辑并通过强大的机器算法来挖掘数据价值,是大数据时代最需要解决的问题,也是一个有难度的课题。

1.1.3 大数据的应用场景

随着大数据的发展,大数据技术已经广泛应用在众多行业,比如仓储物流、电商零售、汽车、电信、生物医学、人工智能、智慧城市等等领域,包括在疫情防控战中,大数据技术也发挥了重要的作用。

  • 仓储物流

    大数据技术驱动了仓储物流领域的智能化发展,以苏宁为例,苏宁物流可在全国的各级仓库间实现 智能分仓、就近备货和预测式调拨,实现”客户需要的商品就在离客户最近的配送中心“。

  • 电商零售

    • 零售业 ” 啤酒+纸尿裤 “ 案例

  • 个性推荐

  • ” 双11购物节 “ 实时销售额大屏

  • 汽车

    利用了大数据和物联网技术的无人驾驶汽车,在不远的未来将走入我们的日常生活

  • 电信

    移动联通根据用户年龄、职业、消费情况,分析统计哪种套餐适合哪类人群,对市场人群精准定制。

  • 生物医学

    大数据可以帮助我们实现流行病预测、智慧医疗、健康管理,同时还可以帮助我们解读DNA,了解更多的生命奥秘。比如影像大数据支撑下的早期肺癌支撑平台,基于大量病例数据样本,制定早期肺癌高危人群预警指标。

  • 人工智能

  • 智慧城市

    大数据有效支撑智慧城市发展,成为城市的”数据大脑“。比如,在智慧城市建设上,杭州始终走在全国前列。如覆盖面广的移动支付、新颖的在线医疗模式、创新的物流运输模式,都受到较大关注。2016年,杭州被《中国新型智慧城市》白皮书评为“中国最智慧的城市”。

大数据的价值,远远不止于此,大数据对各行各业的渗透,大大推动了社会生产和生活,未来必将产生重大而深远的影响。

1.1.4 大数据的发展趋势及职业路线

1.4.4.1 大数据发展趋势

  1. 2015年党的十八届五中全会提出“实施国家大数据战略”,国务院印发《促进大数据发展行动纲要》,大数据技术和应用处于创新突破期,国内市场需求处于爆发期,我国大数据产业面临重要的发展机遇

  2. 2017年十九大报告明确 "推动互联网、大数据、人工智能和实体经济深度融合"

  3. 2020年全国政协十三届三次会议新闻发布会上,更进一步强调:大数据、人工智能、5G是引领 未来发展的战略性技术

    显然,发展大数据是我国的战略性决策,前景自然不言而喻

  4. 2017年北京大学、中国人民大学、北京邮电大学等25所高校成功申请开设大数据课程

  5. 大数据属于高新技术,大牛少,升职竞争小

  6. 2020年5月6日,人力资源和社会保障部发布《新职业—大数据工程技术人员就业景气现状分析报告》,报告显示:预计2020年中国大数据行业人才需求规模将达210万,2025年前大数据人才需求仍将保持30%~40%的增速,需求总量在2000万人左右

  7. 在北京大数据开发工程师的平均薪水已经超越 1.5w 直逼2w,而且目前还保持强劲的发展势头

1.4.4.2 大数据职业发展路线

​ 目前大数据高、中、低三个档次的人才都很缺。现在我们谈大数据,就像当年谈电商一样,未来前景已经很明确,接下来就是优胜劣汰,竞争上岗。不想当架构师的程序员不是好架构师!但是,大数据发展到现阶段,涉及大数据相关的职业岗位也越来越精细。

​ 从职业发展来看,由大数据开发、挖掘、算法、到架构。从级别来看,从工程师、高级工程师,再到架构师,甚至到科学家。而且,契合不同的行业领域,又有专属于这些行业的岗位衍生,如涉及金融领域的数据分析师等。大数据的相关工作岗位有很多,有数据分析师、数据挖掘工程师、大数据开发工程师、大数据产品经理、可视化工程师、爬虫工程师、大数据运营经理、大数据架构师、数据科学家等等。

​ 从事岗位:ETL工程师,数据仓库工程师,实时流处理工程师,用户画像工程师,数据挖掘,算法工程师,推荐系统工程。

1.1 大数据简介-hadoop-最全最完整的保姆级的java大数据学习资料的更多相关文章

  1. 保姆级教程,带你认识大数据,从0到1搭建 Hadoop 集群

    大数据简介,概念部分 概念部分,建议之前没有任何大数据相关知识的朋友阅读 大数据概论 什么是大数据 大数据(Big Data)是指无法在一定时间范围内用常规软件工具进行捕捉.管理和处理的数据集合,是需 ...

  2. [Hadoop 周边] 浅谈大数据(hadoop)和移动开发(Android、IOS)开发前景【转】

    原文链接:http://www.d1net.com/bigdata/news/345893.html 先简单的做个自我介绍,我是云6期的,黑马相比其它培训机构的好偶就不在这里说,想比大家都比我清楚: ...

  3. mysql数据与Hadoop之间导入导出之Sqoop实例

    前面介绍了sqoop1.4.6的 如何将mysql数据导入Hadoop之Sqoop安装,下面就介绍两者间的数据互通的简单使用命令. 显示mysql数据库的信息,一般sqoop安装测试用 sqoop l ...

  4. 如何学好Java大数据并快速提升

    Java作为一种最流行的,最热门的编程语言,可以说它无处不在,目前全球有着数十亿的设备正在运行着Java,很多服务器程序都是用Java编写,用以处理每天超过数以千万的数据.无论是手机软件.手机Java ...

  5. Java EE数据持久化框架笔记 • 【目录】

    章节 内容 实践练习 Java EE数据持久化框架作业目录(作业笔记) 第1章 Java EE数据持久化框架笔记 • [第1章 MyBatis入门] 第2章 Java EE数据持久化框架笔记 • [第 ...

  6. java大数据最全课程学习笔记(1)--Hadoop简介和安装及伪分布式

    Hadoop简介和安装及伪分布式 大数据概念 大数据概论 大数据(Big Data): 指无法在一定时间范围内用常规软件工具进行捕捉,管理和处理的数据集合,是需要新处理模式才能具有更强的决策力,洞察发 ...

  7. 大数据技术hadoop入门理论系列之二—HDFS架构简介

    HDFS简单介绍 HDFS全称是Hadoop Distribute File System,是一个能运行在普通商用硬件上的分布式文件系统. 与其他分布式文件系统显著不同的特点是: HDFS是一个高容错 ...

  8. 大数据技术Hadoop入门理论系列之一----hadoop生态圈介绍

    Technorati 标记: hadoop,生态圈,ecosystem,yarn,spark,入门 1. hadoop 生态概况 Hadoop是一个由Apache基金会所开发的分布式系统基础架构. 用 ...

  9. 【转】大数据以及Hadoop相关概念介绍

    原博文出自于: http://www.cnblogs.com/xdp-gacl/p/4230220.html 感谢! 一.大数据的基本概念 1.1.什么是大数据 大数据指的就是要处理的数据是TB级别以 ...

  10. 大数据和Hadoop时代的维度建模和Kimball数据集市

    小结: 1. Hadoop 文件系统中的存储是不可变的,换句话说,只能插入和追加记录,不能修改数据.如果你熟悉的是关系型数据仓库,这看起来可能有点奇怪.但是从内部机制看,数据库是以类似的机制工作,在一 ...

随机推荐

  1. 对于Java中权限修饰符的理解

    老是把Java中权限修饰符给忘记,写一个博客加深印象吧 权限分为四个作用域:当前类,同一个包,其他包的子类,其他包的类. 首先要知道包的概念,Java中一个包是指一个package下的所有文件. pr ...

  2. 通过helm搭建Harbor

    文章转载自:http://www.mydlq.club/article/66/ 系统环境: kubernetes 版本:1.20.1 Traefik Ingress 版本:2.4.3 Harbor C ...

  3. centos系统安装MySQL8

    使用yum仓库安装MySQL8 1.查看centos系统版本 # cat /etc/redhat-release CentOS Linux release 7.9.2009 (Core) 2.下载并安 ...

  4. Python离线安装Flask

    受限于内网,无法使用pip install Flask直接安装. 以Flask-0.12.2为例 安装Flask需要以下的依赖性,在安装Flask离线版时可以看到依赖性要求. 离线安装文件地址: ht ...

  5. 整理一些Windows桌面运维常用的命令,并且整合成脚本

    github地址:alittlemc/toy: 编写些脚本将运维经常所用到小玩意所集成在一起 (github.com) 持续更新! 前言 做过桌面运维的大佬们应该可以很明显感受到这份工作所需要的技能不 ...

  6. AcWing 最短Hamilton距离 (状压DP)

    题目描述 给定一张 n 个点的带权无向图,点从 0∼n−1 标号,求起点 0 到终点 n−1 的最短 Hamilton 路径. Hamilton 路径的定义是从 0 到 n−1 不重不漏地经过每个点恰 ...

  7. 洛谷P5788 单调栈(模板)

    1 #include<bits/stdc++.h> 2 using namespace std; 3 const int N=3e6+10; 4 int n,a[N],s[N],ans[N ...

  8. SpringSecurity 在 SSM架构中的使用

    SpringSecurity - SSM SpringSecurity 对比 Shiro SpringSecurity的特点: 能和 Spring无缝贴合 能实现全面的权限控制 专门为 Web开发而设 ...

  9. Python编程之定时任务(crontab)详解

    引言 python-crontab是python模块,提供了对cron任务的访问,并使得我们可以通过python对crontab文件进行修改. 安装 pip install python-cronta ...

  10. hyperf-搭建初始化

    官方文档* https://hyperf.wiki/2.0/#/README 初步搭建1. 安装项目 composer create-project hyperf/hyperf-skeleton 2. ...