spark编写word count

创建SparkContext对象的时候需要传递SparkConf对象，SparkConf至少需要包含spark.master和spark.app.name这两个参数，不然的话程序不能正常运行

object WordCount {

  def main(args: Array[String]) {

    val conf = new SparkConf();

    // 设置应用的名称

    conf.setAppName("WC")

    // 设置master, local代表本地模式，可以直接在IDE中运行,也可以指定local[k],local[*]

    conf.setMaster("local")

    // spark集群模式，需要打成jar包，提交到spark集群运行

    // conf.setMaster("spark://m1:7077")

    // 设置executor可以使用的内存大小

    conf.set("spark.executor.memory", "512m")

    val sc = new SparkContext(conf)

    sc.textFile("hdfs://m1:9000/words.txt").flatMap(_.split(" ")).map((_, 1))

      .reduceByKey(_+_).saveAsTextFile("hdfs://m1:9000/wcOutPut/")

    sc.stop()

  }

}

maven pom.xml如下

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/maven-v4_0_0.xsd">

    <modelVersion>4.0.0</modelVersion>

    <groupId>wordcount</groupId>

    <artifactId>wordcount</artifactId>

    <version>1.0-SNAPSHOT</version>

    <inceptionYear>2008</inceptionYear>

    <!-- 定义属性 -->

    <properties>

        <maven.compiler.source>1.7</maven.compiler.source>

        <maven.compiler.target>1.7</maven.compiler.target>

        <encoding>UTF-8</encoding>

        <scala.version>2.10.6</scala.version>

        <scala.compat.version>2.10</scala.compat.version>

    </properties>

    <!-- 引用依赖 -->

    <dependencies>

        <dependency>

            <groupId>org.scala-lang</groupId>

            <artifactId>scala-library</artifactId>

            <version>${scala.version}</version>

        </dependency>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-core_2.10</artifactId>

            <version>1.6.3</version>

        </dependency>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-streaming_2.10</artifactId>

            <version>1.6.3</version>

        </dependency>

        <dependency>

            <groupId>org.apache.hadoop</groupId>

            <artifactId>hadoop-client</artifactId>

            <version>2.6.5</version>

        </dependency>

    </dependencies>

    <!-- 构建 -->

    <build>

        <sourceDirectory>src/main/scala</sourceDirectory>

        <testSourceDirectory>src/test/scala</testSourceDirectory>

        <plugins>

            <!-- maven管理scala插件-->

            <plugin>

                <groupId>net.alchim31.maven</groupId>

                <artifactId>scala-maven-plugin</artifactId>

                <version>3.2.0</version>

                <executions>

                    <execution>

                        <goals>

                            <goal>compile</goal>

                            <goal>testCompile</goal>

                        </goals>

                        <configuration>

                            <args>

                                <arg>-make:transitive</arg>

                                <arg>-dependencyfile</arg>

                                <arg>${project.build.directory}/.scala_dependencies</arg>

                            </args>

                        </configuration>

                    </execution>

                </executions>

            </plugin>

            <!-- 在maven构建生命周期的test phase执行一个应用的单元测试 -->

            <plugin>

                <groupId>org.apache.maven.plugins</groupId>

                <artifactId>maven-surefire-plugin</artifactId>

                <version>2.18.1</version>

                <configuration>

                    <useFile>false</useFile>

                    <disableXmlReport>true</disableXmlReport>

                    <includes>

                        <include>**/*Test.*</include>

                        <include>**/*Suite.*</include>

                    </includes>

                </configuration>

            </plugin>

            <!-- 使用maven插件对java工程进行打包 -->

            <plugin>

                <groupId>org.apache.maven.plugins</groupId>

                <artifactId>maven-shade-plugin</artifactId>

                <version>2.3</version>

                <executions>

                    <execution>

                        <phase>package</phase>

                        <goals>

                            <goal>shade</goal>

                        </goals>

                        <configuration>

                            <filters>

                                <filter>

                                    <artifact>*:*</artifact>

                                    <excludes>

                                        <exclude>META-INF/*.SF</exclude>

                                        <exclude>META-INF/*.DSA</exclude>

                                        <exclude>META-INF/*.RSA</exclude>

                                    </excludes>

                                </filter>

                            </filters>

                            <transformers>

                                <transformer

                                        implementation="org.apache.maven.plugins.shade.resource.ManifestResourceTransformer">

                                    <mainClass>cn.itcast.spark.WordCount</mainClass>

                                </transformer>

                            </transformers>

                        </configuration>

                    </execution>

                </executions>

            </plugin>

        </plugins>

    </build>

</project>

打包提交spark集群运行

bin/spark-submit \

--class wordcount.WordCount \

--master spark://m1:7077 \

--executor-memory 512M \

--total-executor-cores 2 \

/home/hadoop/wordcount-1.0-SNAPSHOT.jar

本地运行如果hdfs权限有问题，则可以按如下配置

spark编写word count的更多相关文章

Spark的word count
word count package com.spark.app import org.apache.spark.{SparkContext, SparkConf} /** * Created by ...
在eclipse使用map reduce编写word count程序生成jar包并在虚拟机运行的步骤
---恢复内容开始--- 1.首先准备一个需要统计的单词文件 word.txt,我们的单词是以空格分开的,统计时按照空格分隔即可 hello hadoop hello yarnhello zookee ...
Spark: 单词计数(Word Count)的MapReduce实现(Java/Python)
1 导引我们在博客<Hadoop: 单词计数(Word Count)的MapReduce实现 >中学习了如何用Hadoop-MapReduce实现单词计数,现在我们来看如何用Spark来 ...
[Spark Core] Spark Shell 实现 Word Count
0. 说明在 Spark Shell 实现 Word Count RDD (Resilient Distributed dataset), 弹性分布式数据集. 示意图 1. 实现 1.1 分步实现 ...
Spark：java api实现word count统计
方案一:使用reduceByKey 数据word.txt 张三李四王五李四王五李四王五李四王五王五李四李四李四李四李四代码: import org.apache.spar ...
MapReduce工作机制——Word Count实例（一）
MapReduce工作机制--Word Count实例(一) MapReduce的思想是分布式计算,也就是分而治之,并行计算提高速度. 编程思想首先,要将数据抽象为键值对的形式,map函数输入键值对 ...
[Hive_add_6] Hive 实现 Word Count
0. 说明 Hive 通过 explode()函数和 split()函数实现 WordConut 1. Hive 实现 Word Count 方式一 1.1 思路将每一行文本变为 Array 数 ...
[MapReduce_1] 运行 Word Count 示例程序
0. 说明 MapReduce 实现 Word Count 示意图 && Word Count 代码编写 1. MapReduce 实现 Word Count 示意图 1. Map:预 ...
软件工程第三个程序：“WC项目” —— 文件信息统计（Word Count ）命令行程序
软件工程第三个程序:“WC项目” —— 文件信息统计(Word Count ) 命令行程序格式:wc.exe [parameter][filename] 在[parameter]中,用户通过输入参数 ...

随机推荐

Linux安装Go语言
1.下载Go语言安装包https://storage.googleapis.com/golang/go1.7.1.linux-amd64.tar.gz 2.在命令行执行如下命令: sudo tar - ...
有史来最大改变 Android 5.0十大新特性
有史来最大改变 Android 5.0十大新特性 2014.10.16 14:51:31 来源:腾讯数码作者:腾讯数码 ( 0 条评论 ) 距离Android系统上一次重大更新不到一年的时间,谷歌 ...
注解@RequestMapping 的使用
1首先@RequestMapping 中的值,我们说请求方法l路径,请求url我们都知道怎么请求了,在第一节helloworld中, 我们先说我们先建一个类,RequestMappingTest 方法 ...
sublime代码片段
创建方法:Tools > New Snippet 这时你会看到如下示例代码: <snippet> <content><![CDATA[ Hello, ${ ...
requirejs：模块加载(require)及定义(define)时的路径小结
原文地址:http://www.tuicool.com/articles/7JBnmy 接触过requirejs的童鞋可能都知道,无论是通过define来定义模块,还是通过require来加载模块,模 ...
【BZOJ】3437: 小P的牧场
题意 n个点,需要再一些点建立控制站,如果在第$i$个建站,贡献为$a[i]$.假设前一个站为$j<i$,则$[j+1, i]$的点的贡献是\(\sum_{k=j+1}^{i} ...
BZOJ2705: [SDOI2012]Longge的问题
Description Longge的数学成绩非常好,并且他非常乐于挑战高难度的数学问题.现在问题来了:给定一个整数N,你需要求出∑gcd(i, N)(1<=i <=N). Input 一 ...
JS常用属性
/*控制台输出*/ console.log("内容") /*控制台警告*/ console.warn("内容") /*错误提示*/ console.error( ...
java解析json数据
json数据一般分两种,对象和数组. json解析需要写异常处理. 解析json对象用的是JSONObject类,如 public void analys_jsonObject(String json ...
20145205 《Java程序设计》第8周学习总结
教材学习内容总结第十五章通用API 15.1 日志日志API简介 java.util.logging包提供了日志功能相关类与接口,不必额外配置日志组件,就可在标准Java平台使用是其好处.使用日 ...

spark编写word count

spark编写word count的更多相关文章

随机推荐

热门专题