python大数据

http://blog.csdn.net/xnby/article/details/50782913

一句话总结：spark是一个基于内存的大数据计算框架，

上层包括了：Spark SQL类似HiveQL， Spark Streaming 实时数据流计算，MLlib 机器学习算法包，GraphX 图算法包

底层 SparkCore 实现了基本功能：任务调度，内存管理，错误恢复，存储交互等，SparkCore还包含了对RDD（弹性分布式数据集）的API定义

RDD是Spark对计算任务封装，现在不懂也没关系，后面会随着实例进一步理解RDD

一、Spark安装:

单机版本spark安装相当简单，从官网下载一个源码包，解压即可。http://spark.apache.org/downloads.html

解压，把bin目录加入环境变量，pyspark即可启动python shell

单机模式启动pyspark后

一个简单的demo：

>>>lines = sc.textFile("1.txt") //创建一个RDD，“1.txt为本地存在的文件

>>> lines

MapPartitionsRDD[4] at textFile at NativeMethodAccessorImpl.java:-2

>>> lines.count()

通过lines对象，可以调用基本的函数，统计单词数等

例子中sc是什么呢？SparkContext。

每一个spark应用都有一个驱动器程序（）来发起集群上的各种并行操作，pyspark即驱动器程序，

驱动器程序通过一个SparkContext对象来访问Spark，sc代表对计算集群的一个连接。

驱动器程序一般要管理多个执行器节点，将计算任务分发给不同的节点计算。

下面继续完成大数据下的Helloword：word count 程序：

>>> words = lines.flatMap(lambda line: line.split(' '))

>>> words

PythonRDD[8] at RDD at PythonRDD.scala:43

>>> wc = words.map(lambda x:(x,1))

>>> wc

PythonRDD[9] at RDD at PythonRDD.scala:43

>>> from operator import add

>>> counts = wc.reduceByKey(add)

>>> counts

PythonRDD[14] at RDD at PythonRDD.scala:43

>>> counts.saveAsTextFile("wc")

示例中可以看出 lines，words，wc，counts都是RDD对象实例

每一步操作在Spark都是RDD的一个抽象

独立应用，不通过shell怎么写独立的脚本呢，

直接编写校本文件，然后通过spark-submit提交即可

eg：worldcount程序的py脚本如下：

########first.py############

from pyspark import SparkConf, SparkContext
from operator import add

conf = SparkConf().setMaster("local").setAppName("My App")
sc = SparkContext(conf=conf)

lines = sc.textFile("/Users/xiabin/1.txt")

words = lines.flatMap(lambda line: line.split(' '))
wc = words.map(lambda x:(x,1))
counts = wc.reduceByKey(add)

counts.saveAsTextFile("wcres")

########first.py############

测试中还发现，spark-submit可以智能的识别应用的一些py模块，比如import一个myconf.py文件

或者一个包都可以无需添加任何代码运行（只单机实验）。

第一次接触下来对比写hadoop的mapreduce代码，spark的封装调用相对来说简单了不少。

附加信息：

http://www.tuicool.com/articles/iAbInuj

http://blog.csdn.net/kwu_ganymede/article/details/51832427

python大数据的更多相关文章

《零起点，python大数据与量化交易》
<零起点,python大数据与量化交易>,这应该是国内第一部,关于python量化交易的书籍. 有出版社约稿,写本量化交易与大数据的书籍,因为好几年没写书了,再加上近期"前海智库 ...
学习推荐《零起点Python大数据与量化交易》中文PDF+源代码
学习量化交易推荐学习国内关于Python大数据与量化交易的原创图书<零起点Python大数据与量化交易>. 配合zwPython开发平台和zwQuant开源量化软件学习,是一套完整的大数据 ...
零起点Python大数据与量化交易
零起点Python大数据与量化交易第1章从故事开始学量化 1 1.1 亿万富翁的“神奇公式” 2 1.1.1 案例1-1:亿万富翁的“神奇公式” 2 1.1.2 案例分析:Python图表 5 1 ...
Python大数据与机器学习之NumPy初体验
本文是Python大数据与机器学习系列文章中的第6篇,将介绍学习Python大数据与机器学习所必须的NumPy库. 通过本文系列文章您将能够学到的知识如下: 应用Python进行大数据与机器学习应用 ...
python大数据工作流程
本文作者:hhh5460 大数据分析,内存不够用怎么办? 当然,你可以升级你的电脑为超级电脑. 另外,你也可以采用硬盘操作. 本文示范了硬盘操作的一种可能的方式. 本文基于:win10(64) + p ...
零基础入门到精通：Python大数据与机器学习之Pandas-数据操作
在这里还是要推荐下我自己建的Python开发学习群:483546416,群里都是学Python开发的,如果你正在学习Python ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有Python ...
Python大数据应用
一.三国演义人物出场统计先检查安装包 1.jieba库基本介绍 (1)jieba库概述 jieba是优秀的中文分词第三方库中文文本需要通过分词获得单个的词语 jieba是优秀的中文分词第三方库,需 ...
Python大数据：jieba 中文分词，词频统计
# -*- coding: UTF-8 -*- import sys import numpy as np import pandas as pd import jieba import jieba. ...
Python大数据：信用卡逾期分析
# -*- coding:utf-8 -*- # 数据集成 import csv import numpy as np import pandas as pd import matplotlib.py ...

随机推荐

[转] Emmet-前端开发神器
[From] https://segmentfault.com/a/1190000007812543 Emmet是一款编辑器插件,支持多种编辑器支持.在前端开发中,Emmet 使用缩写语法快速编写 H ...
[转] log4j-over-slf4j与slf4j-log4j12共存stack overflow异常分析
[From] http://www.tuicool.com/articles/INveIf 注:下文中的“桥接”.“转调”.“绑定”等词基本都是同一个概念. log4j-over-slf4j和slf4 ...
MyBatis 源码解析SqlSession.getConnection（Connection异常：关闭或者不在Mybatis事务）
从SqlSession的实现类SqlSessionTemplate源码中,看出相关方法被其内部类SqlSessionInterceptor(实现了InvocationHandler)代理当调用Sql ...
linux 卡在进度条进不去解决办法之一
centos为例一, 如下: 如果这个地方卡住了的话也许是你上次改了passwd文件,这个是其中一个情况. 如果刚刚开机就卡住了或者怎么卡住了的话在开机的读条时候摁esc显示读取的进程,根据显示的错 ...
Bootstrap 斜体、文本对齐、缩略图、地址、列表等
目录1.标题2.页面主体3.强调 a.小号文本 b.着重 c.斜体 d.对齐class e.强调class4.缩略语5.地址6.列表 a.无序列表 b.有序列 ...
elasticsearch fitler查询例子
深入学习keepalived之一 keepalived的启动
1.keepalived的启动过程: 启动健康检查子进程和vrrp子进程.其中_WITH_LVS_,_WITH_VRRP_在configure和configure.in文件中定义. 源码如下: /* ...
精简版LINUX系统---wdOS
wdOS是一个基于CentOS版本精简优化过的Linux服务器系统,网站服务器系统并集成nginx,apache,php,mysql等web应用环境及wdcp管理系统,安装完系统,所有的都安装完成装好 ...
【Linux相识相知】bash的特性
命令历史 shell进程会记录用户提交执行过的命令可以是用history查看: [root@localhost dev]# history ss -tnl ifconfig vi /etc/sysc ...
Linux CentOS安装PHP环境
Linux CentOS安装PHP环境 1.下载php环境 wget http://cn2.php.net/distributions/php-7.2.1.tar.gz 更多php版本下载 http ...

python大数据

python大数据的更多相关文章

随机推荐

热门专题