第1章 初探大数据 本章将介绍为什么要学习大数据.如何学好大数据.如何快速转型大数据岗位.本项目实战课程的内容安排.本项目实战课程的前置内容介绍.开发环境介绍.同时为大家介绍项目中涉及的Hadoop.Hive相关的知识 第2章 Spark及其生态圈概述 Spark作为近几年最火爆的大数据处理技术,是成为大数据工程师必备的技能之一.本章将从如下几个方面对Spark进行一个宏观上的介绍:Spark产生背景.特点.发展史.Databricks官方调查结果.Spark与Hadoop的对比.Spark开发…
下载地址.请联系群主 第1章 初探大数据 本章将介绍为什么要学习大数据.如何学好大数据.如何快速转型大数据岗位.本项目实战课程的内容安排.本项目实战课程的前置内容介绍.开发环境介绍.同时为大家介绍项目中涉及的Hadoop.Hive相关的知识 第2章 Spark及其生态圈概述 Spark作为近几年最火爆的大数据处理技术,是成为大数据工程师必备的技能之一.本章将从如下几个方面对Spark进行一个宏观上的介绍:Spark产生背景.特点.发展史.Databricks官方调查结果.Spark与Hadoop…
用户行为日志:用户每次访问网站时所有的行为数据(访问.浏览.搜索.点击...)     用户行为轨迹.流量日志   日志数据内容: 1)访问的系统属性: 操作系统.浏览器等等 2)访问特征:点击的url.从哪个url跳转过来的(referer).页面上的停留时间等 3)访问信息:session_id.访问ip(访问城市)等   2013-05-19 13:00:00     http://www.taobao.com/17/?tracker_u=1624169&type=1      B58W4…
即席查询普通查询 Load Data1) RDD DataFrame/Dataset2) Local Cloud(HDFS/S3) 将数据加载成RDDval masterLog = sc.textFile("file:///home/hadoop/app/spark-2.1.0-bin-2.6.0-cdh5.7.0/logs/spark-hadoop-org.apache.spark.deploy.master.Master-1-hadoop001.out")val workerLog…
用户:     方便快速从不同的数据源(json.parquet.rdbms),经过混合处理(json join parquet),     再将处理结果以特定的格式(json.parquet)写回到指定的系统(HDFS.S3)上去   Spark SQL 1.2 ==> 外部数据源API   外部数据源的目的 1)开发人员:是否需要把代码合并到spark中????     weibo     --jars   2)用户     读:spark.read.format(format)      …
DataFrame它不是Spark SQL提出的,而是早起在R.Pandas语言就已经有了的.   A Dataset is a distributed collection of data:分布式的数据集 A DataFrame is a Dataset organized into named columns. 以列(列名.列的类型.列值)的形式构成的分布式数据集,按照列赋予不同的名称   student id:int name:string city:string   It is conc…
提交Spark Application到环境中运行spark-submit \--name SQLContextApp \--class com.imooc.spark.SQLContextApp \--master local[2] \/home/hadoop/lib/sql-1.0.jar \/home/hadoop/app/spark-2.1.0-bin-2.6.0-cdh5.7.0/examples/src/main/resources/people.json 注意:1)To use a…
文本文件进行统计分析:id, name, age, city1001,zhangsan,45,beijing1002,lisi,35,shanghai1003,wangwu,29,tianjin....... table定义:personcolumn定义: id:int name:string age: int city:stringhive:load data sql: query.... Hive: 类似于sql的Hive QL语言, sql==>mapreduce 特点:mapreduce…
前置要求: 1)Building Spark using Maven requires Maven 3.3.9 or newer and Java 7+ 2)export MAVEN_OPTS="-Xmx2g -XX:ReservedCodeCacheSize=512m"   mvn编译命令: ./build/mvn -Pyarn -Phadoop-2.4 -Dhadoop.version=2.4.0 -DskipTests clean package     前提:需要对maven有…
MapReduce的局限性: 1)代码繁琐: 2)只能够支持map和reduce方法: 3)执行效率低下: 4)不适合迭代多次.交互式.流式的处理:   框架多样化: 1)批处理(离线):MapReduce.Hive.Pig 2)流式处理(实时): Storm.JStorm 3)交互式计算:Impala   学习.运维成本无形中都提高了很多   ===> Spark   ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~   BDAS:Berkeley…