在Spark上运行WordCount程序

1.编写程序代码如下：

Wordcount.scala

package Wordcount

import org.apache.spark.SparkConf

import org.apache.spark.SparkContext

import org.apache.spark.SparkContext._

/**

 * @author hadoop

 * 统计字符出现个数

 *

 */

object Wordcount {

  def main(args: Array[String]) {

    if(args.length < 1) {

      System.err.println("Usage: <file>")

      System.exit(1)

    }

    val conf = new SparkConf()

    val sc = new SparkContext(conf)

    //SparkContext 是把代码提交到集群或者本地的通道，我们编写Spark代码，无论是要本地运行还是集群运行都必须有SparkContext的实例

    val line = sc.textFile(args(0))

    //把读取的内容保存给line变量，其实line是一个MappedRDD，Spark的所有操作都是基于RDD的

    line.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_).collect.foreach(println)

    sc.stop

  }

}

2.将程序打包成wordcount.jar

3.编写wordcount.sh脚本

#!/bin/bash

cd $SPARK_HOME/bin

spark-submit \

--master spark://192.168.1.154:7077 \

--class Wordcount.Wordcount \

--name wordcount \

--executor-memory 400M \

--driver-memory 512M \

/usr/local/myjar/wordcount.jar \

hdfs://192.168.1.154:9000/user/hadoop/wordcount.txt

其中的wordcount.txt是要统计的文本。

4.将wordcount.txt文件上传到hdfs中对应的目录，并启动Spark集群

5.执行脚本

在Spark上运行WordCount程序的更多相关文章

Spark在Yarn上运行Wordcount程序
前提条件 1.CDH安装spark服务 2.下载IntelliJ IDEA编写WorkCount程序 3.上传到spark集群执行一.下载IntellJ IDEA编写Java程序 1.下载IDEA ...
在Spark上运行TopK程序
1. scala程序如下 package com.cn.gao import org.apache.spark.SparkConf import org.apache.spark.SparkConte ...
Spark源码编译并在YARN上运行WordCount实例
在学习一门新语言时,想必我们都是"Hello World"程序开始,类似地,分布式计算框架的一个典型实例就是WordCount程序,接触过Hadoop的人肯定都知道用MapRedu ...
在Pycharm上编写WordCount程序
本篇博客将给大家介绍怎么在PyCharm上编写运行WordCount程序. 第一步下载安装PyCharm 下载Pycharm PyCharm的下载地址(Linux版本).下载完成后你将得到一个名叫: ...
（三）配置Hadoop1.2.1+eclipse(Juno版)开发环境，并运行WordCount程序
配置Hadoop1.2.1+eclipse(Juno版)开发环境,并运行WordCount程序一. 需求部分在ubuntu上用Eclipse IDE进行hadoop相关的开发,需要在Eclip ...
如何在Ubuntu的idea上运行Hadoop程序
如何在Ubuntu的idea上运行Hadoop程序一.前言在idea上运行Hadoop程序,需要使用Hadoop的相关库,Ubuntu为Hadoop的运行提供了良好的支持. 二.操作方法首先我们 ...
在OSX和Windows版本Docker上运行GUI程序
看到很多人在Docker问题区讨论:如何在OS X和Windows的Docker上运行GUI程序, 随手记录几个参考资料: https://github.com/docker/docker/issue ...
在集群上运行caffe程序时如何避免Out of Memory
不少同学抱怨,在集群的GPU节点上运行caffe程序时,经常出现"Out of Memory"的情况.实际上,如果我们在提交caffe程序到某个GPU节点的同时,指定该节点某个比较 ...
安卓手机上运行 PC-E500 程序
目录第1章安卓手机上运行 PC-E500 程序 1 1 PockEmul 1 2 下载 1 3 打包BASIC程序 2 4 配置PC-E500模拟器 5 5 载入e50 ...

随机推荐

bzoj 1820 dp
最普通dp要4维,因为肯定有一个在上一个的位置,所以可以变为3维,然后滚动数组优化一下. #include<bits/stdc++.h> #define LL long long #def ...
slf4j logback pom
pom: <properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding&g ...
java 将class打包成jar包
一.进入到java jdk安装目录(用cmd命令进入) c:cd C:\Program Files\Java\jdk1.8.0_45\bin 二.运行打包命令(将D盘下com中的class 打包成xy ...
命令：which、whereis、who和w
开始命令搜索的顺序在shell function中查找,有则调用,无则下一步: 判断命令是否为bash内置命令,有则调用,无则下一步: 在$PATH中搜索该命令,有则调用,无则报错. 判断命令类型 ...
Codeforces Round #441 (Div. 2, by Moscow Team Olympiad) F. High Cry（思维统计）
F. High Cry time limit per test 1 second memory limit per test 512 megabytes input standard input ou ...
.NET Core2.1下采用EFCore比较原生IOC、AspectCore、AutoFac之间的性能
一.前言 ASP.NET Core本身已经集成了一个轻量级的IOC容器,开发者只需要定义好接口后,在Startup.cs的ConfigureServices方法里使用对应生命周期的绑定方法即可,常见方 ...
softmax为什么使用指数函数？（最大熵模型的理解）
解释1: 他的假设服从指数分布族解释2: 最大熵模型,即softmax分类是最大熵模型的结果. 关于最大熵模型,网上很多介绍: 在已知部分知识的前提下,关于未知分布最合理的推断就是符合已知知识最不确 ...
[JOISC2014]歴史の研究/[BZOJ4241]历史研究
[JOISC2014]歴史の研究/[BZOJ4241]历史研究题目大意: 一个长度为$n(n\le10^5)$的数列$A(A_i\le10^9)$,定义一个元素对一个区间$[l,r]$的 ...
hdu 4435 第37届ACM/ICPC天津现场赛E题
转载请注明出处,谢谢http://blog.csdn.net/ACM_cxlove?viewmode=contents by---cxlove 题目:给出N个城市,从1开始需要遍历所有点,选择一 ...
SGU 403 Scientific Problem
403. Scientific Problem Time limit per test: 0.25 second(s)Memory limit: 65536 kilobytes input: stan ...

在Spark上运行WordCount程序

在Spark上运行WordCount程序的更多相关文章

随机推荐

热门专题