Pyspark笔记一

1. pyspark读csv文件后无法显示中文

#pyspark读取csv格式时，不能显示中文

df = spark.read.csv(r"hdfs://mymaster:8020/user/root/data_spark.csv", schema=schema)

#解决方法，加入encoding='gbk'，即

df = spark.read.csv(r"hdfs://mymaster:8020/user/root/data_spark.csv", schema=schema, encoding='gbk')

2. 查看和修改默认编码格式

import sys

#查看默认编码格式

print(sys.getdefaultencoding())

#修改编码格式

sys.setdefaultencoding('utf8')

#参考：https://blog.csdn.net/abc_321a/article/details/81945577

3. pyspark导入spark

原因：python中没有默认的sparksession，需要导入

#方法

from pyspark import SparkContext

from pyspark.sql.session import SparkSession

sc = SparkContext('local', 'test')

spark = SparkSession(sc)

#之后即可以使用spark
#参考：https://blog.csdn.net/zt7524/article/details/98173650

4. Pyspark引入col函数出错，ImportError: cannot import name 'Col' from 'pyspark.sql.functions'

#有人建议的是，不过我用的时候会报错

from pyspark.sql.functions import col

#后来测试了一种方式可以用

from pyspark.sql import Row, column

#也试过另一个参考，不过要更新pyspark包之类的，于是暂时没有用该方法，也就是安装pyspark-stubs包：pip install pyspark-stubs

#参考：http://isunix.github.io/blog/2019/06/04/pysparkzhong-yin-ru-colhan-shu-de-fang-shi/
#参考：https://stackoverflow.com/questions/40163106/cannot-find-col-function-in-pyspark
#参考：https://pypi.org/project/pyspark-stubs/

5. Exception: Python in worker has different version 2.6 than that in driver 3.7, PySpark cannot run with different minor versions.

#我是在Red hat环境下，装了两个python版本，于是报错

# 解决方案：在环境中加入想用的python版本

import os

os.environ["PYSPARK_PYTHON"]="/usr/bin/python3"
#参考：https://blog.csdn.net/wmh13262227870/article/details/77992608

6. 在Red hat上使用pip3 安装pandas的时候出错：pip is configured with locations that require TLS/SSL, however the ssl module in Python is not available.

原因：python 3.7版本会出现这个问题，是因为openssl的版本比较低

方法：必须先升级openssl，然后重新编译或者安装python，顺序要注意

升级openssl和编译python可参考：https://www.cnblogs.com/jasonLiu2018/articles/10730605.html

注意：./configure --prefix=/usr/local/python3 --with-openssl=/usr/local/openssl 是先cd到python解压后的目录，再使用的，例如解压目录是当前目录的：Python-3.7.0，则先在命令行执行 cd Python-3.7.0，进入该目录，执行上述./configure代码，/usr/local/python3是python将要安装的目录，/usr/local/openssl是openssl已安装的目录；然后直接依次：make, make install重装python。

升级openssl可参考：

https://www.cnblogs.com/caibao666/p/9698842.html

https://www.cnblogs.com/mqxs/p/9103031.html

Pyspark笔记一的更多相关文章

PySpark笔记
spark源码位置:https://github.com/apache/spark Spark Core核心RDD及编程什么是RDD:1.是一个抽象类不能直接使用,在子类中实现抽象方法是一个抽象类不 ...
Spark调研笔记第4篇 - PySpark Internals
事实上.有两个名为PySpark的概念.一个是指Sparkclient内置的pyspark脚本.而还有一个是指Spark Python API中的名为pyspark的package. 本文仅仅对第1个 ...
pyspark学习笔记
记录一些pyspark常用的用法,用到的就会加进来 pyspark指定分区个数通过spark指定最终存储文件的个数,以解决例如小文件的问题,比hive方便,直观有两种方法,repartition, ...
pyspark 学习笔记
from pyspark.sql import SparkSession spark = SparkSession \ .builder \ .appName("Python Spark S ...
【原】Learning Spark (Python版) 学习笔记(三)----工作原理、调优与Spark SQL
周末的任务是更新Learning Spark系列第三篇,以为自己写不完了,但为了改正拖延症,还是得完成给自己定的任务啊 = =.这三章主要讲Spark的运行过程(本地+集群),性能调优以及Spark ...
Spark.ML之PipeLine学习笔记
地址: http://spark.apache.org/docs/2.0.0/ml-pipeline.html Spark PipeLine 是基于DataFrames的高层的API,可以方便用户 ...
Spark调研笔记第2篇 - 怎样通过Sparkclient向Spark提交任务
在上篇笔记的基础上,本文介绍Sparkclient的基本配置及Spark任务提交方式. 1. Sparkclient及基本配置从Spark官网下载的pre-built包中集成了Sparkclient ...
Spark 基本函数学习笔记一
Spark 基本函数学习笔记一¶ spark的函数主要分两类,Transformations和Actions. Transformations为一些数据转换类函数,actions为一些行动类函数: ...
大数据学习——spark笔记
变量的定义 val a: Int = 1 var b = 2 方法和函数区别:函数可以作为参数传递给方法方法: def test(arg: Int): Int=>Int ={ 方法体 } v ...

随机推荐

Python中random模块生成随机数详解
Python中random模块生成随机数详解本文给大家汇总了一下在Python中random模块中最常用的生成随机数的方法,有需要的小伙伴可以参考下 Python中的random模块用于生成随机数. ...
Java使用Jsoup获得新闻联播所有文字稿
Jsoup的maven坐标:  <dependency> ...
【Leetcode_easy】977. Squares of a Sorted Array
problem 977. Squares of a Sorted Array solution: class Solution { public: vector<int> sortedSq ...
NET中各种加密解密方法
/// <summary> /// AES对称加密和分组加密中的四种模式(ECB.CBC.CFB.OFB),这三种的区别,主要来自于密钥的长度,16位密钥=128位,24位密钥=192位, ...
爬虫存储介质之CSV文件存储
本文章来自度娘 CSV文件存储 CSV,全称为Comma-Separated Values,中文可以叫做逗号分隔值或字符分隔值,其文件以纯文本形式存储表格数据.该文件是一个字符序列,可以由任意数目的 ...
redhat与zlib兼容性问题？
今天在redhat 6.3 x64版本上安装了zlib,安装完后可以正常使用,就是发现gedit使用有点异常——无法启动,当时也没在意,但是后来重启电脑后出现桌面背景图片后就不弹出登陆窗口了,但是进命 ...
springboot2.x日志配置记录
springboot日志管理: springboot2.x默认使用commons-logging作为内部日志的输出,日志的实现可以选择Java Util Logging,Log4J2和logback如 ...
简单layer 快速上手
<!DOCTYPE html> <html> <head> <meta charset="utf-8"> <title> ...
golang之 iota 常量生成器
常量声明可以使用iota常量生成器初始化,它用于生成一组以相似规则初始化的常量,但是不用每行都写一遍初始化表达式.在一个const声明语句中,在第一个声明的常量所在的行,iota将会被置为0,然后在每 ...
Python之推导式笔记
观察下面的代码: list1 = [] for i in range(10): list1.append(i) print(list1) 作为一个Java出身的程序员,我一定会这么写代码去生成一个列表 ...

Pyspark笔记一

Pyspark笔记一的更多相关文章

随机推荐

热门专题