大数据笔记（二十八）——执行Spark任务、开发Spark WordCount程序

【大数据笔记（二十八）——执行Spark任务、开发Spark WordCount程序】的更多相关文章

大数据笔记（十八）——Pig的自定义函数

Pig的自定义函数有三种: 1.自定义过滤函数:相当于where条件 2.自定义运算函数: 3.自定义加载函数:使用load语句加载数据,生成一个bag 默认:一行解析成一个Tuple 需要MR的jar包一.自定义过滤函数 package demo.pig; import java.io.IOException; import org.apache.pig.FilterFunc; import org.apache.pig.data.Tuple; //实现自定义的过滤函数,实现:查询过滤薪水大…

大数据笔记（十二）——使用MRUnit进行单元测试

package demo.wc; import java.util.ArrayList; import java.util.List; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mrunit.mapreduce.MapDriver; import org.a…

Java基础学习笔记二十八管家婆综合项目

本项目为JAVA基础综合项目,主要包括: 熟练View层.Service层.Dao层之间的方法相互调用操作.熟练dbutils操作数据库表完成增删改查. 项目功能分析查询账务多条件组合查询账务添加账务编辑账务删除账务项目环境搭建技术选型和jar包介绍每个项目都要使用一些已经成熟的技术,它们通常是由一些专业组织或团队所提供的开源免费技术.在今后的学习过程中,我们会逐渐对这些专业组织有所了解.本项目中使用的技术如下: apache的commons组件: commons-dbutils…

大数据笔记（十五）——Hive的体系结构与安装配置、数据模型

一．常见的数据分析引擎 Hive:Hive是一个翻译器,一个基于Hadoop之上的数据仓库,把SQL语句翻译成一个 MapReduce程序.可以看成是Hive到MapReduce的映射器. Hive HDFS 表目录数据文件分区目2 2.Pig 3.Impala 4.Spark SQL 二．Hive 的体系结构用户接口主要有三个: 1.CLI Shell命令行 2.JDBC/ODBC:Hive的Java,与传统JDBC相似 3.W…

大数据笔记（十）——Shuffle与MapReduce编程案例（A）

一.什么是Shuffle yarn-site.xml文件配置的时候有这个参数:yarn.nodemanage.aux-services:mapreduce_shuffle 因为mapreduce程序运行在nodemanager上,nodemanager运行mapreduce程序的方式就是shuffle. 1.首先,数据在HDFS上是以数据块的形式保存,默认大小128M. 2.数据块对应成数据切片送到Mapper.默认一个数据块对应一个数据切块. 3.Mapper阶段 4.Mapper处理完,写到…

angular学习笔记(二十八-附2)-$http,$resource中的promise对象

下面这种promise的用法,我从第一篇$http笔记到$resource笔记中,一直都有用到: HttpREST.factory('cardResource',function($resource){ return $resource('/card/user/:userID/:id',{userID:123,id:'@id'},{charge:{method:'POST',params:{charge:true},isArray:false}}) }); HttpREST.factory('h…