Ubuntu部署可视化爬虫Portia2.0环境
部署portia环境官方文档给出的方法太过简单,对于初学者来说是很难根据那一两行字成功部署portia环境的。对于部署portia这只可爱的爬虫的过程还是有很多坑的,主要写一篇portia2.0版本的尝鲜版的环境部署手册。给一个忠告,网上那些过时的部署手册,大家最好别看,容易误导你,也浪费你的时间,portia处于活跃的开发阶段,部署步骤也会略有改动,时间久远的帖子只能浪费小主的时间。
言归正传,想要跟portia这只蜘蛛亲密接触,主要分以下几个步骤:
- 部署环境的准备
- 启动portia蜘蛛服务
- 浏览器访问http://127.0.0.1:9001
- 可以跟portia亲密接触,爬取数据
1.部署环境准备
- 系统:portia最好用ubuntu开发,windows上的坑比ubuntu上的坑更多。使用windows的同学可以下载vmware虚拟机或者virtualbox虚拟机软件两款软件的任意一款创建ubuntu虚拟机。强烈建议ubuntu使用16.04版本的,截止目前ubuntu最新版本是17.04,但是小主在17.04上部署没有成功过,所以慎入!
- docker:小主采用官网上推荐的安装方式docker部署,所以需要在ubuntu中部署docker,等待docker安装完成。
sudo apt-get install docker.io
- 安装pip
sudo apt-get install python-pip
- 安装docker-compose
pip install docker-compose
- docker加速(可选)
对于docker镜像加速,docker默认的镜像点是在hub.docker.com的,主要是因为国内网络长城的原因,docker拉去镜像的时候非常的慢,如果你有耐心这一步可以不做,如果你想快一些这里需要加一些加速点,个人使用的是阿里云的加速点,方便快速,稳定。
我在这里简要说一下ubuntu平台下的添加加速点的方法:
首先,确保你的docker的版本不低于1.10,建议直接用此方法进行配置,如果不然,请点击这里上官网进行选择合适情况自行配置。
其次,使用配置文件/etc/docker/daemon.json(没有时新建该文件)
{
“registry-mirrors”:["<你的加速器地址(不知道的请点我,注册获取即可)>"]
}
最后,重启Docker Daemon即可。
sudo systemctl daemon-reload
sudo systemctl docker restart
至此,恭喜你部署环境已经准备完毕,接下来我们进入第二步,启动portia服务。
2.启动portia蜘蛛服务
首先,你需要准备一个本地的工作目录,用来存放你的用portia蜘蛛创建的工程。此处给你一个例子,具体路径大家自定义即可。
mkdir -p /home/<USERNAME>/Projects/portia_projects
随后,开启portia蜘蛛服务命令
docker run -i -t --rm -v /home/<USERNAME>/Projects/portia_projects:/app/data/projects:rw -p : scrapinghub/portia
如果顺利的话,portia将会在端口9001上运行,项目将会存放在/home/<USERNAME>/Projects/portia_projects文件夹中。
3.启动portia
来到这一步,你马上就可以看到portia了,用浏览器访问http://127.0.0.1:9001你就可以使用portia了。恭喜恭喜!!!

4.用portia爬取数据
用portia爬取数据是非常有趣的事情,这里我不具体谈了,我提供两个视频教程网站供大家参考。(这是youtube上的视频,你需要翻越长城才能看哦)
希望对大家有所帮助,万分感谢!这是我的博客地址,以后小主陆陆续续会将自己对于portia的学习分享出来,供大家参考!
Ubuntu部署可视化爬虫Portia2.0环境的更多相关文章
- Ubuntu部署可视化爬虫Portia2.0环境以及入门
http://www.cnblogs.com/kfpa/p/Portia.html http://brucedone.com/archives/986
- ubuntu部署Java、Python开发环境
要部署Java开发环境首先就要安装JDK. 一.安装JDK8 1. 下载 jdk-8u172-linux-x64.tar.gz 到 /usr/java8/ 目录下: 2. tar -zxvf jd ...
- Ubuntu 手机 app开发学习0
# 相关网址 http://developer.ubuntu.com/zh-cn/apps/sdk/ 0. 环境搭建 首选需要一个Ubuntu 14.04操作系统.没啥好讲的,直接安装了一个虚拟机. ...
- 可视化爬虫Portia安装和部署踩过的坑
背景 Scrapy爬虫的确是好使好用,去过scrapinghub的官网浏览一下,更是赞叹可视化爬虫的犀利.scrapinghub有一系列的产品,开源了大部分项目,Portia负责可视化爬虫的编辑,Sp ...
- Linux下部署docker记录(0)-基础环境安装
以下是centos系统安装docker的操作记录 1)第一种方法:采用系统自带的docker安装,但是这一般都不是最新版的docker安装epel源[root@docker-server ~]# wg ...
- Ubuntu 下使用 Nginx 部署 .NET Core 2.0 网站
前言 本文介绍如何在 Ubuntu 16.04 服务器上安装 .NET Core 2.0 SDK.创建项目与发布,并使用 Nginx 部署 .NET Core 2.0 Web 项目. 安装 .NET ...
- CentOS7+ApacheServer2.4+MariaDB10.0+PHP7.0+禅道项目管理软件8.0环境部署
CentOS7+ApacheServer2.4+MariaDB10.0+PHP7.0+禅道项目管理软件8.0环境部署 by:授客 QQ:1033553122 目录 一. 二. 三. 四. 五. 六. ...
- Scrapyd+Gerapy部署Scrapy爬虫进行可视化管理
Scrapy是一个流行的爬虫框架,利用Scrapyd,可以将其部署在远程服务端运行,并通过命令对爬虫进行管理,而Gerapy为我们提供了精美的UI,可以在web页面上直接点击操作,管理部署在scrap ...
- Ubuntu部署python3.5的开发和运行环境
Ubuntu部署python3.5的开发和运行环境 1 概述 由于最近项目全部由python2.x转向 python3.x(使用目前最新的 python3.5.1) ,之前的云主机的的默认python ...
随机推荐
- word2vec原理(二) 基于Hierarchical Softmax的模型
word2vec原理(一) CBOW与Skip-Gram模型基础 word2vec原理(二) 基于Hierarchical Softmax的模型 word2vec原理(三) 基于Negative Sa ...
- Datatables快速入门开发--一款好用的JQuery表格插件
博主是一个java后端程序员小白,前端技术会用但不精通,做后台的一些功能经常要涉及表格的展示,分页,搜索,排序等等一系列功能,在经历了一段时间的原始手段,开始接触并使用Datatables,一个jqu ...
- Linux(5)压缩和归档管理
压缩和归档管理 tar :归档管理 此命令可以把一系列文件归档到一个大文件中, 使用格式: -v :显示进度 -f :指定文件名称, f后面一定是.tar文件, 此参数必须放在选项最后 -t :列出文 ...
- 31. leetcode 122. Best Time to Buy and Sell Stock II
122. Best Time to Buy and Sell Stock II Say you have an array for which the ith element is the price ...
- java大数判断相等
java大数判断相等: 1.equals()方法2.compareTo()方法区别:2.00与2.0 equals()方法判断不等,compareTo()方法判断相等,科学的说法可以看java api ...
- Data truncation: Data too long for column 'gender' at row 1 出现的原因
创建数据库的代码如下: create database day15 ; use day15 ; create table customer( id varchar(100) primary key, ...
- JAVA WEB主流开发工具下载集
JAVA SEhttp://www.oracle.com/technetwor ... ownloads/index.html eclipsehttp://www.eclipse.org/downlo ...
- POJ 2411 Mondriaan's Dream:网格密铺类 状压dp
题目链接:http://poj.org/problem?id=2411 题意: 给你一个n*m的网格 (1<=n,m<=11) ,往里面铺1*2或2*1的砖块,问你铺完这个网格有多少种不同 ...
- RecyclerView 配合 DiffUtil,好用到飞起
版权声明: 本账号发布文章均来自公众号,承香墨影(cxmyDev),版权归承香墨影所有. 每周会统一更新到这里,如果喜欢,可关注公众号获取最新文章. 未经允许,不得转载. 一.前言 DiffUtils ...
- Xcode部分快捷键
编译调试: command+B 编译 command+R 编译并运行 command+shift+O 单步调试 command+shift+I 执行进入函数 command+shift+T 执行跳出函 ...