Spark SQL:类似Hive ======================================================= 一.Spark SQL基础 1.什么是Spark SQL? (*) Spark SQL is Apache Spark's module for working with structured data. (*) 处理结构化数据的引擎 (*) 底层:依赖RDD,把SQL语句转换成一个个RDD,运行在不同的Worker节点上 (*) 特点: (1)容易集…
什么是json? W3C JSON定义修改版: JSON 指的是 JavaScript 对象表示法(JavaScript Object Notation) JSON 是轻量级的文本数据交换格式,并不是编程语言 JSON 独立于语言存在 JSON 具有自我描述性,更易理解 读书,有必要对概念有较为清晰的认识.以下就涉及到的名词解释一下. 1)JavaScript对象表示法.JSON语法无非是对JavaScript对象的表述,甭管是用对象数组.单纯的对象还是组成对象的简单值,这些都只是为了描述对象或…
Java类加载器算是一个老生常谈的问题,大多Java工程师也都对其中的知识点倒背如流,最近在看源码的时候发现有一些细节的地方理解还是比较模糊,正好写一篇文章梳理一下. 关于Java类加载器的知识,网上一搜一大片,我自己也看过很多文档,博客.资料虽然很多,但还是希望通过本文尽量写出一些自己的理解,自己的东西.如果只是重复别人写的内容那就失去写作的意义了. 类加载器结构 名称解释: 根类加载器,也叫引导类加载器.启动类加载器.由于它不属于Java类库,这里就不说它对应的类名了,很多人喜欢称Boots…
一.Sqoop数据采集引擎 采集关系型数据库中的数据 用在离线计算的应用中 强调:批量 (1)数据交换引擎: RDBMS <---> Sqoop <---> HDFS.HBase.Hive (2)底层依赖MapReduce (3)依赖JDBC (4)安装:tar -zxvf sqoop-1.4.5.bin__hadoop-0.23.tar.gz -C ~/training/ 设置环境变量: SQOOP_HOME=/root/training/sqoop-1.4.5.bin__had…
Pig的自定义函数有三种: 1.自定义过滤函数:相当于where条件 2.自定义运算函数: 3.自定义加载函数:使用load语句加载数据,生成一个bag 默认:一行解析成一个Tuple 需要MR的jar包 一.自定义过滤函数 package demo.pig; import java.io.IOException; import org.apache.pig.FilterFunc; import org.apache.pig.data.Tuple; //实现自定义的过滤函数,实现:查询过滤薪水大…
一.常见的数据分析引擎 Hive:Hive是一个翻译器,一个基于Hadoop之上的数据仓库,把SQL语句翻译成一个  MapReduce程序.可以看成是Hive到MapReduce的映射器. Hive       HDFS 表         目录 数据       文件 分区       目2 2.Pig 3.Impala 4.Spark SQL 二.Hive 的体系结构 用户接口主要有三个: 1.CLI Shell命令行 2.JDBC/ODBC:Hive的Java,与传统JDBC相似 3.W…
一.什么是Shuffle yarn-site.xml文件配置的时候有这个参数:yarn.nodemanage.aux-services:mapreduce_shuffle 因为mapreduce程序运行在nodemanager上,nodemanager运行mapreduce程序的方式就是shuffle. 1.首先,数据在HDFS上是以数据块的形式保存,默认大小128M. 2.数据块对应成数据切片送到Mapper.默认一个数据块对应一个数据切块. 3.Mapper阶段 4.Mapper处理完,写到…
一. HBase过滤器 1.列值过滤器 2.列名前缀过滤器 3.多个列名前缀过滤器 4.行键过滤器5.组合过滤器 package demo; import javax.swing.RowFilter; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.client.HTable; import org.apache.hadoop.hbase.client.Result; import org.a…
package demo.wc; import java.util.ArrayList; import java.util.List; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mrunit.mapreduce.MapDriver; import org.a…
HTTPS(Hypertext Transfer Protocol Secure,超文本传输安全协议),是以安全为目标的HTTP通道,简单讲是HTTP的安全版.这篇文章深入介绍了它的原理. 当我们适用浏览器发送比较隐私的数据时,如果适用http进行通信,则安全性将得不到保障.在数据传输过程中,数据可能会被中间人抓包拿到,那么数据就会被中间人窃取.数据被中间人拿到之后,可能会对数据进行篡改,然后再发往服务器,造成严重后果.在这种情况下,服务器收到数据之后,也无法确定数据有没有被修改或者替换,无法判…