Spark 集成开发

WordCount.py

# coding:utf-8

from pyspark import SparkContext

from pyspark import SparkConf

def SetLogger(sc):

    """设置不要显示过多信息"""

    logger = sc._jvm.org.apache.log4j

    logger.LogManager.getLogger("org").setLevel(logger.Level.ERROR)

    logger.LogManager.getLogger("akka").setLevel(logger.Level.ERROR)

    logger.LogManager.getRootLogger().setLevel(logger.Level.ERROR)

def CreateSparkContext():

    sparkConf = SparkConf().setAppName("WordCounts").set("spark.ui.showConsoleProgress","false")

    sc = SparkContext(conf=sparkConf)

    print("master=",sc.master)

    SetLogger(sc)

    return sc

def main():

    print("开始执行")

    sc = CreateSparkContext()

    textFile = sc.textFile("file:/root/ipynotebook/test.txt") # 本地文件

    # textFile = sc.textFile("hdfs://master:9000/user/hadoop/test.txt") # hdfs文件

    stringRDD = textFile.flatMap(lambda x: x.split(" "))

    # print(stringRDD.collect())

    countsRDD = stringRDD.map(lambda word: (word, 1)).reduceByKey(lambda x, y: x + y)

    print("开始保存")

    countsRDD.saveAsTextFile("file:/root/ipynotebook/output")

    # countsRDD.saveAsTextFile("hdfs://master:9000/user/hadoop/output")

    sc.stop()

if __name__ == "__main__":

    main()

使用spark-submit执行命令

# 本地

$ spark-submit --master local WordCount.py

$ cat /output/part-00000 # part文件数取决于实例数

# yarn

$ spark-submit --master yarn WordCount.py

$ hadoop fs -cat /user/hadoop/output/part-00000

Hadoop Web界面

http://master:8088/

Spark 集成开发的更多相关文章

Spark：利用Eclipse构建Spark集成开发环境
前一篇文章“Apache Spark学习:将Spark部署到Hadoop 2.2.0上”介绍了如何使用Maven编译生成可直接运行在Hadoop 2.2.0上的Spark jar包,而本文则在此基础上 ...
Spark Streaming揭秘 Day28 在集成开发环境中详解Spark Streaming的运行日志内幕
Spark Streaming揭秘 Day28 在集成开发环境中详解Spark Streaming的运行日志内幕今天会逐行解析一下SparkStreaming运行的日志,运行的是WordCountO ...
Ubuntu14.04或16.04下Hadoop及Spark的开发配置
对于Hadoop和Spark的开发,最常用的还是Eclipse以及Intellij IDEA. 其中,Eclipse是免费开源的,基于Eclipse集成更多框架配置的还有MyEclipse.Intel ...
五款实用免费的Python机器学习集成开发环境（5 free Python IDE for Machine Learning）（图文详解）
前言集成开发环境(IDE)是提供给程序员和开发者的一种基本应用,用来编写和测试软件.一般而言,IDE 由一个编辑器,一个编译器(或称之为解释器),和一个调试器组成,通常能够通过 GUI(图形界面)来 ...
转】[1.0.2] 详解基于maven管理-scala开发的spark项目开发环境的搭建与测试
场景好的,假设项目数据调研与需求分析已接近尾声,马上进入Coding阶段了,辣么在Coding之前需要干马呢?是的,“统一开发工具.开发环境的搭建与本地测试.测试环境的搭建与测试” - 本文详细记录 ...
Spark集成
一.Spark 架构与优化器 1.Spark架构 (重点) 2.Spark优化器二.Spark+SQL的API (重点) 1.DataSet简介 2.DataFrame简介 3.RDD与DF/DS的 ...
neurosolutions 人工神经网络集成开发环境 keras
人工神经网络集成开发环境 : http://www.neurosolutions.com/ keras: https://github.com/fchollet/keras 文档 http ...
Windows下搭建Spark+Hadoop开发环境
Windows下搭建Spark+Hadoop开发环境需要一些工具支持. 只需要确保您的电脑已装好Java环境,那么就可以开始了. 一. 准备工作 1. 下载Hadoop2.7.1版本(写Spark和H ...
windows和linux中搭建python集成开发环境IDE——如何设置多个python环境
本系列分为两篇: 1.[转]windows和linux中搭建python集成开发环境IDE 2.[转]linux和windows下安装python集成开发环境及其python包 3.windows和l ...

随机推荐

python第二周
第二周,PYTHON图形绘制一,计算机技术的演进发展 1946-1981.从第一台计算机的诞生到IBM的PC机的出现,我们称之为”计算机系统结构时代“.————这个时代重点在解决计算能力问题 198 ...
Nagios图像绘制插件PNP4Nagios部署和测试
注:本篇博客Nagios版本Nagios-3.5.1 1. 概述2. 关于PNP4Nagios3. 部署PNP4Nagios3.1 下载PNP4Nagios3.2 编译安装3.3 目录文件说明4. 配 ...
webpack笔记
打包 img src src 必须以点(.) 开始,才能被打包. 如: ./img/logo.png ../img/logo.png 使用 process a.js window.Base_Url ...
jackson出现错误 Unrecognized field，几种处理方法
1.请求的JSON里面字段多余映射的实体类,可以通过在类的顶部添加@JsonIgnoreProperties,2.0版本引入 import org.codehaus.jackson.annotate. ...
Let the Balloon Rise HDU水题
题意让你统计字符串最多的那个串,并输出分析直接用map统计,不断更新最大值即可代码 #include<iostream> #include<algorithm> #in ...
linux 第七周总结及实验
姬梦馨原创作品 <Linux内核分析>MOOC课程http://mooc.study.163.com/course/USTC-1000029000 第七周 Linux内核如何装载和启动一 ...
关于singleton的几个实现
public class Singleton { public static void main(String[] args) { Singleton s1 = Singleton.getInstan ...
vue js 在组件中对数组使用splice() 遇到的坑。。。
遇到的问题: 用el-dialog写了个子组件要实现在子组件中增删数据点击确定后把值返回给父组件父组件在每次点开子组件时都会把自己的值传进去. //父组件传值 this.$refs.transf ...
octave基本指令5
octave基本指令5 控制语句 for >> v=zreos(5,1) v = 0 0 0 0 0 >> for i=1:10, > v(i) = 2^i; > ...
Java使用HTTPClient4.3开发的公众平台消息模板的推送功能
代码引用,参考文章:http://www.cnblogs.com/feiyun126/p/4778556.html,表示感谢! package com.yuanchuangyun.cyb.manage ...

Spark 集成开发

WordCount.py

使用spark-submit执行命令

Hadoop Web界面

Spark 集成开发的更多相关文章

随机推荐

热门专题