spark读hdfs文件实现wordcount并将结果存回hdfs

package iie.udps.example.operator.spark;

import scala.Tuple2;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaPairRDD;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.api.java.function.FlatMapFunction;

import org.apache.spark.api.java.function.Function;

import org.apache.spark.api.java.function.Function2;

import org.apache.spark.api.java.function.PairFunction;

import java.util.Arrays;

import java.util.regex.Pattern;

/**

 * 利用Spark框架读取HDFS文件，实现WordCount示例

 *

 * 执行命令：spark-submit --class iie.hadoop.hcatalog.TextFileSparkTest --master

 * yarn-cluster /tmp/sparkTest.jar hdfs://192.168.8.101/test/words

 * hdfs://192.168.8.101/test/spark/out

 *

 * @author xiaodongfang

 *

 */

public final class TextFileSparkTest {

	private static final Pattern SPACE = Pattern.compile(" ");

	@SuppressWarnings("serial")

	public static void main(String[] args) throws Exception {

		if (args.length < 2) {

			System.err.println("Usage: JavaWordCount <file>");

			System.exit(1);

		}

		String inputSparkFile = args[0];

		String outputSparkFile = args[1];

		SparkConf sparkConf = new SparkConf().setAppName("SparkWordCount");

		JavaSparkContext ctx = new JavaSparkContext(sparkConf);

		JavaRDD<String> lines = ctx.textFile(inputSparkFile, 1);

		JavaRDD<String> words = lines

				.flatMap(new FlatMapFunction<String, String>() {

					@Override

					public Iterable<String> call(String s) {

						return Arrays.asList(SPACE.split(s));

					}

				});

		JavaPairRDD<String, Integer> ones = words

				.mapToPair(new PairFunction<String, String, Integer>() {

					@Override

					public Tuple2<String, Integer> call(String s) {

						return new Tuple2<String, Integer>(s, 1);

					}

				});

		JavaPairRDD<String, Integer> counts = ones

				.reduceByKey(new Function2<Integer, Integer, Integer>() {

					@Override

					public Integer call(Integer i1, Integer i2) {

						return i1 + i2;

					}

				});

		counts.map(new Function<Tuple2<String, Integer>, String>() {

			@Override

			public String call(Tuple2<String, Integer> arg0) throws Exception {

				return arg0._1.toUpperCase() + ": " + arg0._2;

			}

		}).saveAsTextFile(outputSparkFile);

		ctx.stop();

	}

}

spark读hdfs文件实现wordcount并将结果存回hdfs的更多相关文章

hdfs 文件系统命令操作
hdfs 文件系统命令操作 [1]hdfs dfs -ls [目录]. 显示所有文件 hdfs dfs -ls -h /user/20170214.txt 显示文件时,文件大小以人易读的形式显示 [2 ...
如何有效恢复误删的HDFS文件
HDFS是大数据领域比较知名的分布式存储系统,作为大数据相关从业人员,每天处理HDFS上的文件数据是常规操作.这就容易带来一个问题,实际操作中对重要数据文件的误删,那么如何恢复这些文件,就显得尤为重要 ...
Hadoop之HDFS文件操作常有两种方式（转载）
摘要:Hadoop之HDFS文件操作常有两种方式,命令行方式和JavaAPI方式.本文介绍如何利用这两种方式对HDFS文件进行操作. 关键词:HDFS文件命令行 Java API HD ...
hive1.1.0建立外部表关联HDFS文件
0. 说明已经安装好Hadoop和hive环境,hive把元数据存储在mysql数据库.这里仅讨论外部表和HDFS的关联,并且删掉外部表之后,对HDFS上的文件没有影响. 1. 在HDFS创建分区, ...
Hadoop如何修改HDFS文件存储块大小
一. 临时修改可以在执行上传文件命令时,显示地指定存储的块大小.1. 查看当前 HDFS文件块大小我这里查看HDFS上的TEST目录下的jdk-7u25-linux-x64.gz 文件存储块大小.1 ...
Hadoop之HDFS文件操作
摘要:Hadoop之HDFS文件操作常有两种方式.命令行方式和JavaAPI方式.本文介绍怎样利用这两种方式对HDFS文件进行操作. 关键词:HDFS文件命令行 Java API HD ...
spark-env.sh增加HADOOP_CONF_DIR使得spark运行文件是hdfs文件
spark-env.sh增加HADOOP_CONF_DIR使得spark读写的是hdfs文件刚装了spark,运行wordcount程序,local方式,执行的spark-submit,读和写的文件 ...
Spark读取HDFS文件，文件格式为GB2312，转换为UTF-8
package iie.udps.example.operator.spark; import scala.Tuple2; import org.apache.hadoop.conf.Configur ...
Spark1.4从HDFS读取文件运行Java语言WordCounts并将结果保存至HDFS
本次实验相关信息如下: 操作系统:Ubuntu 14 Hadoop版本:2.4.0 Spark版本:1.4.0 运行前提是Hadoop与Spark均已正确安装配置 2.在Linux中生成一个文件tes ...

随机推荐

数据库与SQL语言
数据库(DB) :长期储存在计算机中.有组织.可共享的数据的集合. 特点:(1)数据按一定的数据模型组织.描述和储存:(2)较小的冗余度:(3)数据独立性较高:(4)易扩展:(5)可共享(不同用户可按 ...
使用HttpClient访问被保护资源
下面的Android应用需要向指定页面发送请求,但该页面并不是一个简单的页面,只有当用户已经登录,而且登录用户的用户名是crazyit.org时才可访问该页面.如果使用HTTPURLConnectio ...
提升WordPress站点速度的八个建议
WordPress是一个很棒的开源程序,几乎我认识的站长朋友当中,粗略估算有80%使用Wordpress.但很棒不等于完美,就在我所认识的这些朋友中,几乎所有人都会抱怨Wordpress太臃肿,运行效 ...
bzoj 2456: mode
#include<cstdio> #include<algorithm> using namespace std; int n,t,sum; int main() { scan ...
c++ 普通高精除高精
//codevs3118 高精度练习之除法 //打出了高精除高精,内心有点小激动. //还记得已开始学的时候非常难打 #include<cstdio>#include<cstring ...
Jquery判断div是否显示
$("#test").is(":hidden");//是否隐藏 $("#test").is(":visible");// ...
恢复drop数据
select * from recyclebin r where r.original_name = 'MSM_EXAINVITEBIDSCHEMEHEAD' ; flashback table MS ...
https需要的类
import java.io.IOException; import java.net.InetAddress; import java.net.InetSocketAddress; import j ...
python建立pip.ini
pip 是python的包管理器工具,类似linux的apt-get.yum包管理器,主要是用来进行安装python库, pip默认从官方源pypi.python.org下载数据,国内速度相对比较慢, ...
YAML 语言语法
发现很多开源的软件的配置文件都使用了这种语言来描述,据说是简单强大,很不巧,ansible也使用了这种语言来描述配置,学习ansible之前,先学习一下YAML语言. YAML基本语法规则如下: 大小 ...

spark读hdfs文件实现wordcount并将结果存回hdfs

spark读hdfs文件实现wordcount并将结果存回hdfs的更多相关文章

随机推荐

热门专题