1. #!/usr/bin/python
  2. # -*- coding: utf_8 -*-
  3. from pyspark import SparkConf, SparkContext
  4. import os, time
  5.  
  6. if __name__ == '__main__':
  7. # Create SparkConf
  8. # sparkConf:是一个SparkConf的对象,用来初始化程序,配置应用,传递初始参数
  9. # setAppName:指定rdd名称;setMaster:指定运行的线程
  10. sparkConf = SparkConf() \
  11. .setAppName("python Spark WordCount") \
  12. .setMaster("local")
  13.  
  14. # Create SparkContext
  15. # sc:是一个SparkContext的对象,代表了对计算集群的连接,用来访问Spark,创建RDD
  16. # 将sprkConf作为参数传递给SparkContext
  17. sc =SparkContext(conf=sparkConf)
  18.  
  19. '''
  20. 创建RDD:
  21. 方式一:从本地集和并行化创建
  22. 方式二:从外部文件系统读取数据(HDFS)
  23. '''
  24. # ----------第一种方式:从集合并行化创建RDD----------
  25. datas = ["hadoop spark", "spark hive spark sql", "spark hadoop sql spark"]
  26.  
  27. # parallelize方法:接收一个list数据集作为参数,可以快速创建RDD;缺点:需要将数据集都加载到内存中
  28. rdd1 = sc.parallelize(datas)
  29.  
  30. # ----------第二种方式:从外部存储中读取数据创建RDD----------
  31.  
  32. # textfile方法:将文本文件读取为一个存储字符串的RDD
  33. rdd2 = sc.textFile('T_CAR_20150401.csv')
  34.  
  35. # 转化操作:
  36. car_rdd = rdd2.filter(lambda x:'FB5018' in x)
  37. car2_rdd = rdd2.filter(lambda x:'FB5093'in x)
  38. total_rdd = car_rdd.union(car2_rdd)
  39.  
  40. # 行动操作:
  41. # count:获取个数
  42. # first:获取第一条数据
  43. print rdd1.count()
  44. print rdd1.first()
  45. print total_rdd.count()
  46. print total_rdd.first()
  47.  
  48. # 休眠一段时间,为WEB UI进行监控
  49. time.sleep(100000)
  50.  
  51. # SparkContext stop
  52. sc.stop()

spark-day1的更多相关文章

  1. Spark练习代码

    1.scalaWordCount package com._51doit.spark.day1 import org.apache.spark.rdd.RDDimport org.apache.spa ...

  2. Spark提交任务(Standalone和Yarn)

    Spark Standalone模式提交任务 Cluster模式: ./spark-submit  \--master spark://node01:7077  \--deploy-mode clus ...

  3. day28Spark

    PS:因为Spark是用内存运行 的,非常快 PS: 1.下面就是将conf的spark-env.template改变成spark-env.sh,并添加红色部分 2.修改slaves文件添加从设备 启 ...

  4. Spark菜鸟学习营Day1 从Java到RDD编程

    Spark菜鸟学习营Day1 从Java到RDD编程 菜鸟训练营主要的目标是帮助大家从零开始,初步掌握Spark程序的开发. Spark的编程模型是一步一步发展过来的,今天主要带大家走一下这段路,让我 ...

  5. Spark Tungsten揭秘 Day1 jvm下的性能优化

    Spark Tungsten揭秘 Day1 jvm下的性能优化 今天开始谈下Tungsten,首先我们需要了解下其背后是符合了什么样的规律. jvm对分布式天生支持 整个Spark分布式系统是建立在分 ...

  6. Spark机器学习 Day1 机器学习概述

    Spark机器学习 Day1 机器学习概述 今天主要讨论个问题:Spark机器学习的本质是什么,其内部构成到底是什么. 简单来说,机器学习是数据+算法. 数据 在Spark中做机器学习,肯定有数据来源 ...

  7. Spark Streaming揭秘 Day5 初步贯通源码

    Spark Streaming揭秘 Day5 初步贯通源码 引子 今天,让我们从Spark Streaming最重要的三个环节出发,让我们通过走读,逐步贯通源码,还记得Day1提到的三个谜团么,让我们 ...

  8. spark streaming (二)

    一.基础核心概念 1.StreamingContext详解 (一) 有两种创建StreamingContext的方式:             val conf = new SparkConf().s ...

  9. spark core (二)

    一.Spark-Shell交互式工具 1.Spark-Shell交互式工具 Spark-Shell提供了一种学习API的简单方式, 以及一个能够交互式分析数据的强大工具. 在Scala语言环境下或Py ...

  10. Spark Streaming揭秘 Day1-三大谜团

    Spark Streaming揭秘 Day1 三大谜团 引子 在Spark的众多组件中,Streaming最接近企业级应用程序,学习Spark Streaming,是掌握大数据技术的一条捷径.今天是第 ...

随机推荐

  1. Spring MVC controller控制器映射无法访问问题!!!

    月 26, 2019 2:47:58 上午 org.apache.coyote.AbstractProtocol start信息: Starting ProtocolHandler ["aj ...

  2. Oracle往列中插入html代码

    开发提了一个需求,需要往模板表中插入包含html代码的记录,表的ddl如下 create table WZ_SITEMSGTEMPLATE ( id ) not null, templateconte ...

  3. 在Eclipse中安装JSHint插件

    离线安装 1.下载插件包 http://download.eclipsesource.com/~rsternberg/jshint-eclipse-0.9.8.20130728-0004-b94b44 ...

  4. 在Oracle中查看客户端连接的IP信息 .

    大家都知道在v$session 中记录着客户端的机器名称,但是没有IP , 如果记录clinet ip 呢? con sys/sys as dba 1. 利用triger 这里不介绍. 2. 利用 D ...

  5. March 26 2017 Week 13 Sunday

    Deliver not your words by number but by weight. 言不在多,而在有物. Do more than talk, say something. I still ...

  6. 【转】JS模块化工具requirejs教程(一):初识requirejs

    随着网站功能逐渐丰富,网页中的js也变得越来越复杂和臃肿,原有通过script标签来导入一个个的js文件这种方式已经不能满足现在互联网开发模式,我们需要团队协作.模块复用.单元测试等等一系列复杂的需求 ...

  7. PHP 重新格式化var_dump/print_r打印的数组

    // 在使用var_dump/print_r时 打印出来的数组 都是一行显示的, 看起来不方便 function dump($vars, $label = '', $return = false) { ...

  8. maven常用依赖总结

    Apache工具组件 <!-- 字符串处理 --> <dependency> <groupId>org.apache.commons</groupId> ...

  9. maven学习记录三——maven整合ssh框架

    6       整合ssh框架 6.1     依赖传递 只添加了一个struts2-core依赖,发现项目中出现了很多jar, 这种情况 叫 依赖传递 6.2     依赖版本冲突的解决 1.  第 ...

  10. Android学习笔记_72_Spinner的用法

    一.普通 1. <?xml version="1.0" encoding="utf-8"?> <TextView xmlns:android= ...