PySpider 爬虫系统

PySpider：一个国人编写的强大的网络爬虫系统并带有强大的WebUI。采用Python语言编写，分布式架构，支持多种数据库后端，强大的WebUI支持脚本编辑器，任务监视器，项目管理器以及结果查看器。

一、安装依赖库

yum install gcc gcc-c++ -y

yum install python-pip python-devel python-distribute libxml2 libxml2-devel python-lxml libxslt libxslt-devel openssl openssl-devel -y

升级pip

pip install --upgrade pip

二、部署 mariadb,mysql 也可以

安装 mariadb

yum install mariadb-server mariadb -y


启动 mariadb 服务

systemctl start mariadb

　　2、设置mariadb root 密码

mysqladmin -u root password "mysql"

mysql -u root -p

MariaDB [mysql]>

三、部署 redis

1、下载安装包

wget http://download.redis.io/redis-stable.tar.gz


2、解压安装包

tar -xzvf redis-stable.tar.gz -C /usr/local/redis

3、编译安装

cd /usr/local/redis

make

make install


4、redis 配置 设置配置文件路径

mkdir -p /etc/redis

cp /usr/local/redis/redis.conf /etc/redis/redis.conf

修改 /etc/redis/redis.conf 文件的 daemonize 配置为yes ：

daemonize yes

5、启动 redis 服务

/usr/local/bin/redis-server /etc/redis/redis.conf

四、部署 pyspider

1、安装依赖

pip install --upgrade chardet

easy_install mysql-connector==2.1.

easy_install redis

easy_install jinja2

　　2、安装 pyspider

执行pyspider.conf.json会生成三个库

1、安装 pyspider
pip install pyspider


2、配置 pyspider 工作目录

mkdir /etc/pyspider


3、在 /etc/pyspider 下创建 pyspider.conf.json 文件；

# cat /etc/pyspider/pyspider.conf.json

{

"taskdb": "mysql+taskdb://root:mysql@127.0.0.1:3306/taskdb",

"projectdb": "mysql+projectdb://root:mysql@127.0.0.1:3306/projectdb",

"resultdb": "mysql+resultdb://root:mysql@127.0.0.1:3306/resultdb",

"message_queue": "redis://127.0.0.1:6379/db",

"webui": {

"username": "root",

"password": "mysql",

"need-auth": true

}

}

注：webui 是配置mysql的账户密码；http://ip:5000访问时候需要验证登陆；
不设置直接将 need-auth 设为 false 也可以。

五、启动服务

pyspider -c /etc/pyspider/pyspider.conf.json

nohup 后台启动

nohup pyspider -c /etc/pyspider/pyspider.conf.json &

或者：
nohup pyspider >/dev/null 2>&1 &

六、访问 http://IP:5000

pyspider dashboard

Pyspider 开源地址：https://github.com/binux/pyspider

PySpider 爬虫系统的更多相关文章

Pyspider爬虫简单框架——链家网
pyspider 目录 pyspider简单介绍 pyspider的使用实战 pyspider简单介绍一个国人编写的强大的网络爬虫系统并带有强大的WebUI.采用Python语言编写,分布式架构, ...
再次分享 pyspider 爬虫框架 - V2EX
再次分享 pyspider 爬虫框架 - V2EX block
NodeJS爬虫系统初探
NodeJS爬虫系统 NodeJS爬虫系统 0. 概论爬虫是一种自动获取网页内容的程序.是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上是针对爬虫而做出的优化. robots.txt是一个文本文 ...
用python3.x与mysql数据库构建简单的爬虫系统（转）
这是在博客园的第一篇文章,由于本人还是一个编程菜鸟,也写不出那些高大上的牛逼文章,这篇文章就是对自己这段时间学习python的一个总结吧. 众所周知python是一门对初学编程的人相当友好的编程语言, ...
.NetCore实践爬虫系统（一）解析网页内容
爬虫系统的意义爬虫的意义在于采集大批量数据,然后基于此进行加工/分析,做更有意义的事情.谷歌,百度,今日头条,天眼查都离不开爬虫. 今日目标今天我们来实践一个最简单的爬虫系统.根据Url来识别网页 ...
LINUX搭建PySpider爬虫服务
1.环境搭建 yum update -y yum install gcc gcc-c++ -y yum install python-pip python-devel python-distribut ...
.NetCore实践爬虫系统（二）自定义规则
回顾上篇文章NetCore实践爬虫系统(一)解析网页内容我们讲了利用HtmlAgilityPack,输入XPath路径,识别网页节点,获取我们需要的内容.评论中也得到了大家的一些支持与建议.下面继 ...
搭建pyspider爬虫服务
1. 环境准备首先yum更新 yum update -y 安装开发编译工具 yum install gcc gcc-c++ -y 安装依赖库 yum install python-pip pytho ...
Pyspider爬虫教程
Pyspider爬虫教程一.安装 1. 安装pip (1)准备工作 yum install –y make gcc-c++ python-devel libxml2-devel libxslt-de ...

随机推荐

poj 2356 （抽屉原理）
题目链接:http://poj.org/problem?id=2356 题目大意:给你n个数,要你从n个数选出若干个数,要求这若干个数的和是n的倍数,输出选择数的个数,以及相应的数. 解题思路: 以下 ...
CF235D Graph Game
CF235D Graph Game 好题树? 考虑每个点被计算多少次但是和当前分治中心有关系的所以,f(a,b),对于a作为中心时候,和b相连的概率也就是两者必然分离,最后一次连在一起的时候, ...
【CF1141E】Superhero Battle
\[x*p\ge y\rightarrow x=\lfloor{{y-1}\over p}\rfloor+1\]
java List<String> 转换成带逗号的字符串
使用commons-lang3-3.3.2.jar org.apache.commons.lang3.StringUtils.join(applyNameList, ",");
递归思维判断数组a[N]是否为一个递增数组
递归的方法:记录当前最大的,并且判断当前的是否比这个还大,大则继续,否则返回false结束: bool fun( int a[], int n ) { ) { return true; } ) { ] ...
day13-(事务&mvc&反射补充)
回顾: jsp: java服务器页面 jsp的脚本 jsp的注释 html注释 java注释 jsp注释 <%-- --%> jsp的指令 page:声明页面一些属性重要的属性: imp ...
python自动化开发-[第十九天]-分页,cookie,session
今日概要: 1.cookie和session 2.csrf 跨站请求伪造 3.自定义分页一.上节回顾: http请求的本质: - Http请求本质浏览器(socket客户端): 2. socket ...
bzoj4034 线段树+dfs序
https://www.lydsy.com/JudgeOnline/problem.php?id=4034 有一棵点数为 N 的树,以点 1 为根,且树点有边权.然后有 M 个操作,分为三种: 操作 ...
Tensorflow object detection API 搭建物体识别模型（三）
三.模型训练 1)错误一: 在桌面的目标检测文件夹中打开cmd,即在路径中输入cmd后按Enter键运行.在cmd中运行命令: python /your_path/models-master/rese ...
UNIX网络编程中的字节序问题
1.inet_pton 函数原型: inet_pton:将“点分十进制” -> “二进制整数” int inet_pton(int af, const char *src, void *dst) ...

PySpider 爬虫系统

PySpider 爬虫系统的更多相关文章

随机推荐

热门专题