多种语言开发Spark-以WordCount为例

Spark是目前最火爆的大数据计算框架，有赶超Hadoop MapReduce的趋势。因此，趁着现在还有大多数人不懂得Spark开发的，赶紧好好学习吧，为了使不同的开发人员能够很好的利用Spark，Spark官方提供了不同开发语言的API，本文以大数据经典入门案例WordCount为例，开发多个版本的Spark应用程序，以满足不同的开发人员需求。

一、Scala：

    val conf: SparkConf = new SparkConf().setMaster("local")

    val sc: SparkContext = new SparkContext(conf)

    sc.textFile("test")

      .flatMap(line => {

        line.split("\t")

      })

      .mapPartitions(iter => {

        val list: List[(String, Int)] = List[(String, Int)]()

        iter.foreach(word => {

          list.::((word,1))

        })

        list.iterator

      })

      .reduceByKey(_ + _)

      .saveAsTextFile("result")

二、JDK1.7及以下版本：

SparkConf conf = new SparkConf().setAppName("JavaSparkTest").setMaster("local");

        JavaSparkContext sc = new JavaSparkContext(conf);

sc.textFile("test")

        .flatMap(new FlatMapFunction<String, String>() {

            @Override

            public Iterable<String> call(String t) throws Exception {

                return Arrays.asList(t.split("\t"));

            }

        }).mapToPair(new PairFunction<String, String, Integer>() {

            @Override

            public Tuple2<String, Integer> call(String t) throws Exception {

                return new Tuple2<String, Integer>(t, 1);

            }

        }).reduceByKey(new Function2<Integer, Integer, Integer>() {

            @Override

            public Integer call(Integer v1, Integer v2) throws Exception {

                return v1+v2;

            }

        }).saveAsTextFile("result");

三、JDK1.8：

　　由于JDK1.8加入了新特性——函数式编程，因此，可以利用JDK1.8的新特性简化Java开发Spark的语句。

SparkConf conf = new SparkConf().setAppName("JavaSparkTest").setMaster("local");

JavaSparkContext sc = new JavaSparkContext(conf);

sc.textFile("test")

        .flatMap(line -> {

            return Arrays.asList(line.split("\t"));

        }).mapToPair(word -> {

            return new Tuple2<String, Integer>(word, 1);

        }).reduceByKey((x, y) -> {

            return x + y;

        }).saveAsTextFile("result");

　　是不是觉得比上述的Scala还简洁呢？其实是这样的，Scala中使用了mapPartitions是对map函数的优化，即对每一个RDD的分区进行map操作，这样就减少了对象的创建，从而加速了计算。而Java中，通过我的测试，不能使用mapPartitions方法进行上述优化，只能使用map方法（不知道为啥），这样也可以使用，但是在大数据集面前，其性能就逊色于mapPartitions了。

四、Python：

from pyspark import SparkContext

from pyspark import SparkConf as conf

conf.setAppName("WordCount").setMaster("local")

sc = SparkContext(conf)

text_file = sc.textFile("test")\

    .flatMap(lambda line: line.split("\t"))\

    .map(lambda word: (word, 1))\

    .reduceByKey(lambda x, y: x + y)\

    .saveAsTextFile("test")

多种语言开发Spark-以WordCount为例的更多相关文章

利用Scala语言开发Spark应用程序
Spark内核是由Scala语言开发的,因此使用Scala语言开发Spark应用程序是自然而然的事情.如果你对Scala语言还不太熟悉,可以阅读网络教程A Scala Tutorial for Ja ...
【Spark】使用java语言开发spark程序
目录步骤一.创建maven工程,导入jar包二.开发代码步骤一.创建maven工程,导入jar包 <properties> <scala.version>2.11.8 ...
使用java开发spark的wordcount程序（多种实现）
package spark; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; impo ...
编写Spark的WordCount程序并提交到集群运行[含scala和java两个版本]
编写Spark的WordCount程序并提交到集群运行[含scala和java两个版本] 1. 开发环境 Jdk 1.7.0_72 Maven 3.2.1 Scala 2.10.6 Spark 1.6 ...
「C语言」在Windows平台搭建C语言开发环境的多种方式
新接触C语言,如何在Windows下进行C语言开发环境的搭建值得思考并整理. 以下多种开发方式择一即可(DEV C++无须环境准备). 注:本文知识来源于 Windows 平台搭建C语言集成开发环境 ...
提交任务到spark（以wordcount为例）
1.首先需要搭建好hadoop+spark环境,并保证服务正常.本文以wordcount为例. 2.创建源文件,即输入源.hello.txt文件,内容如下: tom jerry henry jim s ...
强者联盟——Python语言结合Spark框架
引言:Spark由AMPLab实验室开发,其本质是基于内存的高速迭代框架,"迭代"是机器学习最大的特点,因此很适合做机器学习. 得益于在数据科学中强大的表现,Python语言的粉丝 ...
1.spark的wordcount解析
一.Eclipse(scala IDE)开发local和cluster (一). 配置开发环境要在本地安装好java和scala. 由于spark1.6需要scala 2.10.X版本的.推荐 2 ...
使用scala开发spark入门总结
使用scala开发spark入门总结一.spark简单介绍关于spark的介绍网上有很多,可以自行百度和google,这里只做简单介绍.推荐简单介绍连接:http://blog.jobbole.c ...

随机推荐

Spring context:component-scan代替context:annotation-config
Spring context:component-scan代替context:annotation-config XML: <?xml version="1.0" encod ...
Oracle-11g 基于 NBU 的 rman 冷备份及恢复
html,body { font-size: 15px } body { font-family: Helvetica, "Hiragino Sans GB", "微软雅 ...
jmeter测试计划
测试计划配置用户定义的变量: 测试计划上可以添加用户定义的变量.一般添加一些系统常用的配置.如果测试过程中想切换环境,切换配置,一般不建议在测试计划上添加变量,因为不方便启用和禁用,一般是直接添加用 ...
Codeforces758B
B. Blown Garland time limit per test:1 second memory limit per test:256 megabytes input:standard inp ...
IE和FF的差异
ie和ff的差异 1. document.form.item 问题 1)现有问题: 现有代码中存在许多 document.formName.item("itemName") 这 ...
BZOJ-2150部落战争(最小路径覆盖)
2150: 部落战争 Time Limit: 10 Sec Memory Limit: 259 MB Description lanzerb的部落在A国的上部,他们不满天寒地冻的环境,于是准备向A国 ...
ADO.NET 数据库操作类
操作数据类避免代码重用.造对象太多.不能分工开发利用面向对象的方法,把数据访问的方式优化一下,利用封装类一般封装成三个类: 1.数据连接类提供数据连接对象需要引用命名空间: using ...
Hibernate调用带有输入参数,输出参数为cursor的存储过程
一.Oracle创建表及存储过程 1.创建表T_MONITOR_DEVICE 创建后的表结构 2.创建存储过程 create or replace procedure ProcTestNew(v_mo ...
iOS开发一些小技巧
1.隐藏多余的tableView的cell分割线 self.tableView.tableFooterView= [[UIViewalloc]init]; 2.取消系统自带的返回字样 [[UIBarB ...
简易封装手机浏览器touch事件
做手机开发时候,简单想用一些动作,如touchLeft,touchRight等, 使用其他库文件就要加载很多不必要的东西,流量的浪费今天简单写了封装touch的库,简单的监听一些逻辑 onTouch ...

多种语言开发Spark-以WordCount为例

多种语言开发Spark-以WordCount为例的更多相关文章

随机推荐

热门专题