Spark学习之wordcount程序

实例代码：

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaPairRDD;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.api.java.function.FlatMapFunction;

import org.apache.spark.api.java.function.Function2;

import org.apache.spark.api.java.function.PairFunction;

import scala.Tuple2;

import java.util.ArrayList;

import java.util.Arrays;

import java.util.Iterator;

import java.util.List;

//Driver

public class SparkWordCount1{

    public static void main(String[] args) {

        SparkConf sparkConf = new SparkConf()  // 第一步：创建SparkConf对象,设置相关配置信息

                                .setMaster("local")

                                .setAppName("wordcount");

        JavaSparkContext ctx = new JavaSparkContext(sparkConf); // 第二步：创建JavaSparkContext对象，是Spark的所有功能的入口

        ctx.setLogLevel("WARN");

//      final JavaRDD<String> linesRdd = ctx.textFile(args[0]); // 根据文件类型的输入源创建RDD的方法textFile()

        ArrayList<String> lines = new ArrayList<String>();

        lines.add("Hello Java Hi Ok");

        lines.add("Ok No House Hello");

        JavaRDD<String> linesRdd = ctx.parallelize(lines);  // 第三步：创建一个初始的RDD  并行化 parallelize

        JavaRDD<String> words = linesRdd.flatMap((s) -> Arrays.asList(s.split(" ")).iterator());

        JavaPairRDD<String, Integer> ones = words.mapToPair(s->new Tuple2<String, Integer>(s, 1));

        JavaPairRDD<String, Integer> counts =  ones.reduceByKey((x,y)->x+y);

        List<Tuple2<String, Integer>> results = counts.collect();

//      System.out.println(counts.collect());

//      System.out.println(results.toString());

//      counts.foreach(System.out::println);

        counts.foreach(x->System.out.println(x));

        ctx.close();

    }

}

实例结果：

Spark学习之wordcount程序的更多相关文章

50、Spark Streaming实时wordcount程序开发
一.java版本 package cn.spark.study.streaming; import java.util.Arrays; import org.apache.spark.SparkCon ...
在Spark上运行WordCount程序
1.编写程序代码如下: Wordcount.scala package Wordcount import org.apache.spark.SparkConf import org.apache.sp ...
Spark中的wordCount程序实现
import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.s ...
spark学习11（Wordcount程序-本地测试）
wordcount程序文件wordcount.txt hello wujiadong hello spark hello hadoop hello python 程序示例 package wujia ...
Spark学习之第一个程序 WordCount
WordCount程序求下列文件中使用空格分割之后,单词出现的个数 input.txt java scala python hello world java pyfysf upuptop wintp ...
Spark学习笔记1——第一个Spark程序：单词数统计
Spark学习笔记1--第一个Spark程序:单词数统计笔记摘抄自 [美] Holden Karau 等著的<Spark快速大数据分析> 添加依赖通过 Maven 添加 Spark-c ...
[转] 用SBT编译Spark的WordCount程序
问题导读: 1.什么是sbt? 2.sbt项目环境如何建立? 3.如何使用sbt编译打包scala? [sbt介绍 sbt是一个代码编译工具,是scala界的mvn,可以编译scala,java等,需 ...
Spark学习笔记-如何运行wordcount（使用jar包）
IDE:eclipse Spark:spark-1.1.0-bin-hadoop2.4 scala:2.10.4 创建scala工程,编写wordcount程序如下 package com.luoga ...
006 Spark中的wordcount以及TopK的程序编写
1.启动启动HDFS 启动spark的local模式./spark-shell 2.知识点 textFile: def textFile( path: String, minPartitions: ...

随机推荐

js 加减乘除以及四舍五入新写法
1 四舍五入 eg: (1.23).round() = 1.2 (1.2456).round(3) = 1.246 Number.prototype.round = function (count) ...
Python-yield生成器
1.引入生成器的目的: 通常的for...in...循环中,in后面是一个数组,这个数组就是一个可迭代对象,类似的还有链表,字符串,文件.它可以是mylist = [1, 2, 3],也可以是myli ...
jenkins远程执行脚本时报Bad version number in .class file
这几天在学习jenkins的持续集成和部署,到了最后一步启动服务的时候,遇到了一个这个Bad version number in .class file的报错(如下图). 这个报错在最开始手工部署的时 ...
webpack 打包问题
Project is running at http://localhost:8080/webpack output is served from /dist/webpack: wait until ...
用SAX解析xml文件，java
(此文为(https://www.imooc.com/video/4482)之随笔) 1.用SAX解析xml文件大致分为三步写了一个XML文件作为例子 (1)main方法代码如下: import j ...
密码与安全新技术专题之WEB应用安全
学号 2018-2019-2 <密码与安全新技术专题>第1周作业课程:<密码与安全新技术专题> 班级: 1892 姓名: 李熹桥学号:20189214 上课教师:谢四江上 ...
python基础入门之函数基础
**python函数**一.def语名 def语名在运行的时候创建一个新的函数对象并且赋值一个变量名一个def语句可以出现在任一语句可以出现的地方(python中所有的语名都是实时运行的,没有编译这 ...
java日期格式的常用操作
顾晓北 | 大侠五级 |园豆:9353 | 2016-08-04 16:17 其他回答(1) 0 public class DateUtils extends PropertyEditorSu ...
AspNet Core 认证
一 Cookie认证 1 services.AddAuthentication(CookieAuthenticationDefaults.AuthenticationScheme).AddCooki ...
e.stopPropagation()兼容性处理
使用jquery库,e.stopPropagation()兼容所有. 原生的就要这么写 function stopPropagation(e){ e=window.event||e; if(docum ...

Spark学习之wordcount程序

Spark学习之wordcount程序的更多相关文章

随机推荐

热门专题