安装并启动jupyter

安装 Anaconda 后, 再安装 jupyter

pip install jupyter

设置环境

ipython --ipython-dir= # override the default IPYTHONDIR directory, ~/.ipython/ by default

ipython profile create foo # create the profile foo

ipython profile locate foo # find foo profile directory, IPYTHONDIR by default,

ipython --profile=foo # start IPython using the new profile

启动jupyter的几个命令, 启动后, 默认还将启动一个浏览器进入 notebook 环境

ipython notebook # 启动 jupyter notebook服务器, 使用默认端口8080

ipython notebook --ip=0.0.0.0 --port=80 # 启动 jupyter notebook服务器, 指定端口

ipython notebook --profile=foo # 使用 foo profile 启动 jupyter notebook服务器

ipython notebook --pylab inline # 启用 PyLab graphing support

ipython notebook 是老版本的命令组合, 新版是jupyter notebook命令组合, 如果使用Anaconda的发布包, 直接使用jupyter-notebook这个工具.

更多jupyter使用信息, 见

http://nbviewer.jupyter.org/github/ipython/ipython/blob/3.x/examples/Notebook/Notebook Basics.ipynb

定制Jupyter

[root#]./jupyter-notebook --generate-config

将生成一个jupyter的配置文件, 比如 /root/.jupyter/jupyter_notebook_config.py , 在其中可配置Notebook App的基本信息

文件名为: /root/.jupyter/jupyter_notebook_config.py

  1. c = get_config()
  2. c.IPKernelApp.pylab = 'inline'
  3. c.NoteBookApp.ip = '0.0.0.0'
  4. c.NotebookApp.open_browser = False
  5. c.NotebookApp.port = 8880 # or whatever you want

为 notebook 的 cell增加line number

在 ~/.ipython/profile_foo/static/custom/custom.js 增加下面几行

  1. define([
  2. 'base/js/namespace',
  3. 'base/js/events'
  4. ],
  5. function(IPython, events) {
  6. events.on("app_initialized.NotebookApp",
  7. function () {
  8. require("notebook/js/cell").Cell.options_default.cm_config.lineNumbers = true;
  9. }
  10. );
  11. }
  12. );

更改jupyter的主题

https://github.com/transcranial/jupyter-themer

更改命令

jupyter-themer -c monokai

访问远端的notebook server

如果是在远端开启了notebook server, 在本机浏览器直接访问, 将不能打开, 这应该是notebook server为安全考虑, 有意屏蔽非本机的访问. 当然, 我们总不能一直通过x-windows到远端打开浏览器使用notebook吧.

1.最简单的做法是,启动notebook sever时, 加上参数--ip=0.0.0.0, 即:

./jupyter-notebook --port=7777 --ip=0.0.0.0

2.另一个方法是:在本机使用ssh软件建立一个连接远端的ssh tunnel, 本机浏览器通过ssh tunnel就可以访问远端的notebook server. 比如, 我习惯使用putty, 方法是:

putty-> Connection > SSH > Tunnels

Under Add new forwarded port:, enter the following information:

Source port: local_port

Destination: remote_host:remote_port

Click Add.然后, 使用这个配置ssh连接远端server.

访问远端的ipython

jupyter是使用tab能进行代码补全, 但在浏览器中有时并不起作用, 使用远端的ipython就没有这个问题, 当然ipython在EDA(探索式数据分析)文档化方面比notebook弱多了, 鱼和熊掌不能皆得. 我更喜欢ipython qtconsole方式.

连接远端ipython的步骤:

  1. 远端开启ipython host, 命令为 ./ipython kernel -f ~/ipython-connect-info.json # 这是一个没有前端的ipython进程.
  2. 将远端的 ipython-connect-info.json 文件复制到本机, 修改其中的ip地址为远端真实的地址
  3. 本机上使用putty为 ipython-connect-info.json 文件中的5个port都开启ssh tunnel
  4. 本机执行 ipython qtconsole --existing c:\ipython-connect-info.json

与PySpark集成

IPython和普通的Python interpreter相比, 优点在于对交互性支持更好, 所以PySpark只有在需要更好交互性的情形下, 才有集成IPython的必要, 显然只有 pyspark shell 才需要集成IPython.

Jupyter和PySpark shell集成方式有好几种, 比如:

  1. 先启动IPython, 然后调用pyspark\shell.py启动spark.

    启动IPython后, 我们可以手动调用pyspark\shell.py, 将调用脚本加到IPython profile目录中自动启动, 自动启动python程序. 调用pyspark\shell.py应放在文件 ~/.ipython/profile_foo/startup/00-pyspark-setup.py 中.

    00-pyspark-setup.py的写法可参考 https://github.com/harisekhon/pytools/blob/master/.ipython-notebook-pyspark.00-pyspark-setup.py

  2. 采用IPython 这个高级 interpreter 来启动pyspark

例子1, 在 spark master server 上以notebook的形式启动 pyspark shell. 如果指定 --master 参数, 必须首先通过 start-master.sh启动 master; 如果省略该参数, 则会pyspark会自动启动master进程.

spark_master_node$ PYSPARK_DRIVER_PYTHON=/usr/python_anaconda/bin/ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook --no-browser --ip=0.0.0.0 --port=7777" pyspark --master spark://quickstart.cloudera:7077

例子2, 在 spark master server 上以ipython kernel的形式启动 pyspark shell, 以便其他机器连入

spark_master_node$ PYSPARK_DRIVER_PYTHON=/usr/python_anaconda/bin/ipython PYSPARK_DRIVER_PYTHON_OPTS="kernel -f ~/ipython-connect-info.json" pyspark --master spark://quickstart.cloudera:7077

例子3, 在 spark master server 上以notebook的形式启动 pyspark shell, 并加载额外的package, 指定内存参数.

spark_master_node$ PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook --no-browser --port=7777 --profile=foo" pyspark --packages com.databricks:spark-csv_2.10:1.1.0 --master spark://spark_master_hostname:7077 --executor-memory 6400M --driver-memory 6400M

设置 PYSPARK_DRIVER_PYTHONPYSPARK_DRIVER_PYTHON_OPTS 环境变量后, 之后调用pyspark将采用这两个环境变量指定的Python 解释器配置来运行python 版spark 应用.

注意不应该export 这两个环境变量, 因为export后, 非shell的pyspark spark应用也将使用IPython运行, 容易造成滥用.

虽然我不推荐在Linux profile将 PYSPARK_DRIVER_PYTHON 设置为IPython, 但我推荐将 PYSPARK_DRIVER_PYTHON 设置为 Anaconda的 python, 因为这将省去安装额外科学计算包的麻烦, 当然, 环境变量PYSPARK_DRIVER_PYTHON_OPTS不应该再带上notebook或kernel参数.

最好在 spark-env.sh 增加下面4个参数,

worker和driver 的python版本应该是一致的, 否则spark会报错的, 当然driver可以设置为ipython.

export PYSPARK_PYTHON=/usr/bin/python3

export PYSPARK_DRIVER_PYTHON=/usr/bin/ipython3

为了简化提交pyspark 应用的提交,可以预先设置一个 PYSPARK_SUBMIT_ARGS 环境变量.

export PYSPARK_SUBMIT_ARGS='--master local[2]'

export PYSPARK_SUBMIT_ARGS='--master yarn --deploy-mode client --num-executors 24 --executor-memory 10g --executor-cores 5'

参考文章

How-to: Use IPython Notebook with Apache Spark

http://www.tuicool.com/articles/rqIv6z

http://blog.cloudera.com/blog/2014/08/how-to-use-ipython-notebook-with

How to Install PySpark and Integrate with IPython Notebook

https://www.dataquest.io/blog/installing-pyspark/

http://www.tuicool.com/articles/VFn6j2Y

Configuring IPython Notebook Support for PySpark

http://ramhiser.com/2015/02/01/configuring-ipython-notebook-support-for-pyspark/

Using Jupyter on Apache Spark: Step-by-Step with a Terabyte of Reddit Data

http://blog.insightdatalabs.com/jupyter-on-apache-spark-step-by-step/

如何自定义jupyter notebook的主题

http://www.cnblogs.com/wybert/p/5030697.html

jupyter cell 增加 line number

https://stackoverflow.com/questions/20197471/how-to-display-line-numbers-in-ipython-notebook-code-cell-by-default/20197878

Spark编程环境搭建(IPython)

http://www.kinelf.com/?p=169

如何使用Docker快速配置数据科学开发环境(搭建Docker + Jupyter环境 )

https://linux.cn/article-6644-1.html

jupyter notebook + pyspark 环境搭建的更多相关文章

  1. Win10系统下安装tensorflow(cpu)+keras+jupyter notebook运行环境

    记录,自用 1.安装Anaconda(这里安装的是python3.6版本) 2.创建tensorflow的conda环境 conda create -n tensorflow python=3.6 3 ...

  2. jupyter notebook添加环境

    列出当前kernel: jupyter kernelspec list 删除已有环境:jupyter kernelspec remove NAME 安装新kernel ipython kernel i ...

  3. jupyter Notebook环境搭建

    1.什么是jupyter notebook jupyter notebook是一种 Web 应用,能让用户将说明文本.数学方程.代码和可视化内容全部组合到一个易于共享的文档中.它可以直接在代码旁写出叙 ...

  4. 基于Ubuntu+Python+Tensorflow+Jupyter notebook搭建深度学习环境

    基于Ubuntu+Python+Tensorflow+Jupyter notebook搭建深度学习环境 前言一.环境准备环境介绍软件下载VMware下安装UbuntuUbuntu下Anaconda的安 ...

  5. 如何基于Jupyter notebook搭建Spark集群开发环境

    摘要:本文介绍如何基于Jupyter notebook搭建Spark集群开发环境. 本文分享自华为云社区<基于Jupyter Notebook 搭建Spark集群开发环境>,作者:apr鹏 ...

  6. python环境搭建以及jupyter notebook的安装和启动

    一.Python 环境搭建 本章节我们将向大家介绍如何在本地搭建Python开发环境. Python可应用于多平台包括 Linux 和 Mac OS X. 你可以通过终端窗口输入 "pyth ...

  7. Python - 搭建Jupyter notebook环境

    1- Jupyter简介 HomePage:https://jupyter.org/ 安装指南:https://jupyter.org/install.html 官方文档:https://jupyte ...

  8. 利用Anaconda搭建TensorFlow环境并在Jupyter Notebook使用

    打开Anaconda Prompt 创建一个tensorflow 虚拟环境:conda create -n tensorflow python=3.6 激活tensorflow虚拟环境activate ...

  9. 【机器学习 Azure Machine Learning】使用Aure虚拟机搭建Jupyter notebook环境,为Machine Learning做准备(Ubuntu 18.04,Linux)

    问题描述 在Azure的VM中已经安装好Jupyter,并且通过jupyter notebook --port 9999 已经启动,但是通过本机浏览器,访问VM的公网IP,则始终是不能访问的错误.(T ...

随机推荐

  1. 使用Jayrock开源组件开发基于JSON-RPC协议的接口

    最近接手一个以前的项目,无意间发现此项目开发接口的组件:Jayrock(接口组件估计用的少,用的最多的估计是这个Jayrock.json.dll,用于解析json) 以下是Jayrock的介绍官网: ...

  2. CameraFlash手电筒

    有时候晚上找不到电棒,电灯,咱们可以写个小程序,利用照相机的闪光灯临时顶替上代码: 1 package com.linux.cameraflash; import android.hardware.C ...

  3. HDU 2795 Billboard

    Description 在学校的入口处有一个巨大的矩形广告牌,高为h,宽为w.所有种类的广告都可以贴,比如ACM的广告啊,还有餐厅新出了哪些好吃的,等等..   在9月1号这天,广告牌是空的,之后广告 ...

  4. String、StringBuffer、StringBuilder源码分析

    利用反编译具体看看"+"的过程 1 public class Test 2 { 3 public static void main(String[] args) 4 { 5 int ...

  5. MOOCULUS微积分-2: 数列与级数学习笔记 Review and Final

    此课程(MOOCULUS-2 "Sequences and Series")由Ohio State University于2014年在Coursera平台讲授. PDF格式教材下载 ...

  6. ArrayList用法

    ArrayList属于collection->List接口下的一个集合类 针对数组的一些缺陷,集合框架提供了ArrayList集合类,对数组进行封装,实现了长度可变的数组,而且和数组彩用相同的存 ...

  7. Linux添加新盘扩容空间

    添加磁盘扩容操作:1.添加物理磁盘到服务器重启服务器,#fdisk -l查看识别磁盘(以/dev/sdb为例)[ ~]# fdisk -lDisk /dev/sda: 42.9 GB, 4294967 ...

  8. css3之自定义字体

    使用@font-face自定义字体 我们在浏览国外的一些个人网站时,总是可以发现一些非常个性的字体,比如

  9. JAVA Socket超时浅析

    JAVA Socket超时浅析 套接字或插座(socket)是一种软件形式的抽象,用于表达两台机器间一个连接的"终端".针对一个特定的连接,每台机器上都有一个"套接字&q ...

  10. Install Mono and MonoDevelop on Fedora

    http://www.mono-project.com/docs/getting-started/install/linux/ http://www.monodevelop.com/download/ ...