大数据笔记（十二）——使用MRUnit进行单元测试

【大数据笔记（十二）——使用MRUnit进行单元测试】的更多相关文章

大数据笔记（二十四）——Scala面向对象编程实例

===================== Scala语言的面向对象编程 ======================== 一.面向对象的基本概念:把数据和操作数据的方法放到一起,作为一个整体(类 class) 面向对象的特征: (1)封装 (2)继承 (3)多态二.定义类: class,没有类的修饰符: public.protected.private class Student1 { //定义属性 private var stuName:String = "Tom" privat…

大数据笔记（二十九）——RDD简介、特性及常用算子

1.什么是RDD? 最核心 (*)弹性分布式数据集,Resilent distributed DataSet (*)Spark中数据的基本抽象 (*)结合源码,查看RDD的概念 RDD属性 * Internally, each RDD is characterized by five main properties: * * - A list of partitions 一组分区,把数据分成了的不同的分区,每个分区可能运行在不同的worker * - A function for computi…

大数据笔记（二十六）——Scala语言的高级特性

===================== Scala语言的高级特性 ========================一.Scala的集合 1.可变集合mutable 不可变集合immutable //不可变集合 val math = scala.collection.immutable.Map("Alice"->80,"Bob"->90) //可变集合 val chinese = scala.collection.mutable.Map("A…

大数据笔记（二十五）——Scala函数式编程

===================== Scala函数式编程 ======================== 一.Scala中的函数 (*) 函数是Scala中的头等公民,就和数字一样,可以在变量中存放函数,即:将函数作为变量的值(值函数). def myFunc1(name:String):String = "Hello " + name println(myFunc1("Tom")) def myFunc2():String = "Hello W…

大数据笔记（二十二）——大数据实时计算框架Storm

一. 1.对比:离线计算和实时计算离线计算:MapReduce,批量处理(Sqoop-->HDFS--> MR ---> HDFS) 实时计算:Storm和Spark Sparking,数据实时性(Flume ---> Kafka ---> 流式计算 ---> Redis) 2.常见的实时计算(流式计算)代表 (1)Apache Storm (2)Spark Streaming (3)Apache Flink:既可以流式计算,也可以离线计算二.Storm的体系结构…

大数据笔记（二十）——NoSQL数据库之MemCached

一.为什么要把数据存入内存? 1.原因:快2.常见的内存数据库 (*)MemCached:看成Redis的前身,严格来说Memcached的不能叫数据库,原因:不支持持久化 (*)Redis:内存数据库,持久化(RDB.AOF) (*)Oracle TimesTen (*)SAP HANA 二.MemCached缓存技术 1.基本原理和体系结构 (*) 就是在内存中,维护一张巨大的Hash表 (*) MemCached通过一个路由算法(由客户端决定),来决定数据保存到哪一个节点上 2.安装和配置…

大数据笔记（二十八）——执行Spark任务、开发Spark WordCount程序

一.执行Spark任务: 客户端 1.Spark Submit工具:提交Spark的任务(jar文件) (*)spark提供的用于提交Spark任务工具 (*)example:/root/training/spark-2.1.0-bin-hadoop2.7/examples/jars/spark-examples_2.11-2.1.0.jar (*)SparkPi.scala 例子:蒙特卡罗求PI bin/spark-submit --master spark://bigdata11:7077…

大数据笔记（二十一）——NoSQL数据库之Redis

一.Redis内存数据库一个key-value存储系统,支持存储的value包括string(字符串).list(链表).set(集合).zset(sorted set--有序集合)和hash(哈希类型).数据存在缓存中. 与MemCached区别: (*)支持持久化 (*)丰富的数据类型 (*)实现了主从同步 (*)补偿了key/Value存储的不足 3.Redis的特点 (*)基于内存 (*)持久化: RDB.AOF (*)消息机制:支持String,只支持Topic的消息(广播) (*)…

大数据笔记（二）——Apache Hadoop的体系结构

一.分布式存储 NameNode(名称节点) 1.维护HDFS文件系统,是HDFS的主节点. 2.接收客户端的请求:上传.下载文件.创建目录等. 3.记录客户端操作的日志(edits文件),保存了HDFS最新的状态 1)Edits文件保存了自最后一次检查点之后所有针对HDFS文件系统的操作,比如:增加文件.重命名文件.删除目录等 2)保存目录:$HADOOP_HOME/tmp/dfs/name/current 可以使用 hdfs oev -i 命令将日志(二进制)输出为 XML文件 hdfs o…

大数据笔记（二十七）——Spark Core简介及安装配置

1.Spark Core: 类似MapReduce 核心:RDD 2.Spark SQL: 类似Hive,支持SQL 3.Spark Streaming:类似Storm =================== Spark Core ======================= 一.什么是Spark? 1.什么是Spark?生态体系结构 Apache Spark™ is a fast and general engine for large-scale data processing. 生态圈:…