spark-submit之使用pyspark

在linux下，执行pyspark代码 —— 实测有效：但是并不是所有的包都能够成功，一些很复杂的包或者对C依赖很深的包例如 numpy, pandas, scipy等，无法通过本方法实现，实现可以参考https://www.cnblogs.com/qi-yuan-008/p/12199152.html；对一些比较简单的第三方site-packages包，本方法则可以实现。

1. 安装pycharm或者spyder，然后在其中编写代码和执行语句

2. 通过job来提交，即spark-submit提交，下面主要讲这种方法

首先假设，自己写的 *.py 文件包含了这些包，即通过import导入

import os

from pyspark import SparkContext

from pyspark.sql.session import SparkSession

from pyspark.sql import HiveContext

import jieba

from collections import Counter

from operator import itemgetter

import time

import ast

from pyspark.sql.types import StructField, StructType, StringType

from pyspark.sql import SQLContext

3. 那么利用spark-submit提交时，就需要将需要的包全部打包在一个zip文件中，注意的是：需要的包要先在同一个目录下，然后在该目录一起打包成zip文件，例如在有以上包的情形下，可以：

第一：建立一个文件夹，来存放所有包：

mkdir lib_words

第二：复制所需的包（一般都在python的安装目录的lib下，其中第三方库在site-packages里面）到该文件夹下，因为一个个选比较麻烦，所以就一起打包了，但是并未复制和打包pyspark库的包

cp -r /usr/local/python3.7/lib/python3.7/* /home/lib_words

cp -r /usr/local/python3.7/lib/python3.7/site-packages/* /home/lib_words

第三：打包zip

zip -r /home/lib_words.zip ./*

4. 在命令行，使用spark-submit提交 *.py主文件，并使用参数 '--py-files' 导入zip文件，然后回车执行

spark-submit /home/pycharm_projects/cut_words/cut_words_fre.py --py-files='/home/lib_words.zip'

附加：首先通过在程序里面直接写入pyFiles参数（在SparkContext的参数中），然后直接提交运行：spark-submit /home/pycharm_projects/cut_words/cut_words_fre.py，实测也可

pyFiles=["/home/lib_words.zip"]#压缩的包的所在路径，可行

#pyFiles=["/home/test1.py","/home/test2.py"] #据说也可，但是因为文件太多，没有测试

sc = SparkContext('local', 'test', pyFiles=pyFiles)

结果最后，其中有一行会出现：

19:55:06 INFO spark.SparkContext: Successfully stopped SparkContext

附加2：通过 sc.addPyFile 方法也可以实现 （推荐）

sc = SparkContext('local', 'test')

sc.addPyFile(r'/root/test_words/lib_words.zip')

注：如果只有pyspark的包，可能不需要加入 *.zip 文件（未测试）

参考：

https://blog.csdn.net/lmb09122508/article/details/84586947

https://blog.csdn.net/MrLevo520/article/details/86738109

https://blog.csdn.net/qq_23860475/article/details/90479702

spark-submit之使用pyspark的更多相关文章

【原创】大数据基础之Spark（1）Spark Submit即Spark任务提交过程
Spark2.1.1 一 Spark Submit本地解析 1.1 现象提交命令: spark-submit --master local[10] --driver-memory 30g --cla ...
spark submit参数及调优(转载)
spark submit参数介绍你可以通过spark-submit --help或者spark-shell --help来查看这些参数. 使用格式: ./bin/spark-submit \ -- ...
spark submit local遇到路径hdfs的问题
有时候第一次执行 spark submit --master local[*] 单机模式的时候,可以对linux本地路径进行输出.但是有时候提交到yarn的时候,是自动加上hdfs的路径这没问题, 但 ...
Spark应用程序部署工具Spark Submit
不多说,直接上干货! spark-submit在哪个位置 [spark@master ~]$ cd $SPARK_HOME/bin [spark@master bin]$ pwd /usr/loca ...
spark standalone ha spark submit
when you build a spark standalone ha cluster, when you submit your app, you should send it to the l ...
spark submit参数及调优
park submit参数介绍你可以通过spark-submit --help或者spark-shell --help来查看这些参数. 使用格式: ./bin/spark-submit \ ...
spark submit 入门
spark dirver本质是一个spark集群的驱动程序,你要调用spark集群的计算功能,必须要通过它! from pyspark import SparkConf, SparkContext c ...
pycharm编写spark程序，导入pyspark包
一种方法: File --> Default Setting --> 选中Project Interpreter中的一个python版本-->点击右边锯齿形图标(设置)-->选 ...
spark 2.0 中 pyspark 对接 Ipython
pyspark 2.0 对接 ipython 在安装spark2.0 后,以往的对接ipython方法失效,会报如下错错误: 因为在spark2.0后对接ipython的方法进行了变更我们只需要在py ...
Spark Shell & Spark submit
Spark 的 shell 是一个强大的交互式数据分析工具. 1. 搭建Spark 2. 两个目录下面有可执行文件: bin 包含spark-shell 和 spark-submit sbin 包含 ...

随机推荐

【计算机视觉】基于局部二值相似性模式（LBSP）的运动目标检测算法
基于局部二值相似性模式(LBSP)的运动目标检测算法 kezunhai@gmail.com http://blog.csdn.net/kezunhai 本文根据论文:Improving backgro ...
C++ 宏和模板简介
参考<21天学通C++>第14章节,对C++中的宏和模板进行了学习,总结起来其主要内容如下: (1) 预处理器简介 (2) 关键字#define与宏 (3) 模板简介 (4) 如何编写函数 ...
tomcat 启动闪退解决方法
当我们在windows上面进行项目的部署与启动的时候有的时候tomcat在进行启动的时候会删一下就退了,这个时候一般是里面启动的时候设置的jdk的问题下面咱们来看一下具体解决方案编辑我们的start ...
python 工具的URL
Python取得大数据之后如何把数据图形化,之后让客户很清晰的看到你的结果下面的图形化参照 matplotlib.3.0.2 https://matplotlib.org/gallery/index ...
一个栈的入栈序列为ABCDEF，则不可能的出栈序列是
技术之瞳阿里巴巴技术笔试心得习题2.65: 一个栈的入栈序列为ABCDEF,则不可能的出栈序列是(D) A.DEFCBA B.DCEFBA C.FEDCBA D.FECDBA E.ABCDEF ...
java8中常用的新功能
Lambda表达式的用法,并行流.Optional.循环.线程池等
Redis 缓存问题及解决方案
[相关概念] 缓存击穿:指的是一些热点数据过期,由于热点数据存在并发量大的特性,所以短时间内对数据库的造成很大的冲击,导致系统瘫痪.常见于例如微博系统中明星结婚或出轨时微博瘫痪的情况. 缓存雪崩:指的 ...
将oracle关键字作为字段名
对于关键字比如:Level.uid.group等如果在数据库设计的时候,没有考虑oracle数据库的特殊性时,可能会使用关键字作为字段名,从而在建表的过程中,提示错误:ORA-00904: inva ...
C++ 根据两点式方法求直线并求两条直线的交点
Line.h #pragma once //Microsoft Visual Studio 2015 Enterprise //根据两点式方法求直线,并求两条直线的交点 #include"B ...
Linux基础-06-vi编辑器
1. vi编辑器简介 1) vi的定义:vi是一个UNIX和Linux系统内嵌的标准正文(文字)编辑器,它是一种交互类型的正文编辑器,它可以用来创建和修改正文文件. 2. vi编辑器的操作模式 vi编 ...

spark-submit之使用pyspark

spark-submit之使用pyspark的更多相关文章

随机推荐

热门专题