做一个简单的测试,看数据能否存入mysql 1 #!/usr/bin/env python 2 # -*- encoding: utf-8 -*- 3 # Created on 2017-10-26 16:03:21 4 # Project: mysql_test 5 6 from pyspider.libs.base_handler import * 7 import MySQLdb 8 9 class Handler(BaseHandler): 10 crawl_config = { 11…
写一个简单案例测试能否将数据写入es #!/usr/bin/env python # -*- encoding: utf-8 -*- # Created on 2017-10-27 08:35:57 # Project: es_test from pyspider.libs.base_handler import * from elasticsearch import Elasticsearch class Handler(BaseHandler): crawl_config = { } def…
直接上代码 #!/usr/bin/env python # -*- encoding: utf-8 -*- # Created on 2017-10-27 09:56:50 # Project: redis_test from pyspider.libs.base_handler import * import redis class Handler(BaseHandler): crawl_config = { } @every(minutes=24 * 60) def on_start(sel…
跟使用mysql一样,不安装es驱动的话,也会触发模块找不到的错误 ImportError: No module named elasticsearch 通过pip安装 pip install elasticsearch…
首先安装pyredis的驱动 wget https://pypi.python.org/packages/source/r/redis/redis-2.9.1.tar.gz 解压并cd python setup.py install…
1. Scrapy框架 Scrapy是python下实现爬虫功能的框架,能够将数据解析.数据处理.数据存储合为一体功能的爬虫框架. 2. Scrapy安装 1. 安装依赖包 yum install gcc libffi-devel python-devel openssl-devel -y yum install libxslt-devel -y 2. 安装scrapy pip install scrapypip install twisted==13.1.0 注意事项:scrapy和twist…
接上篇,刚装好的pyspider,我们打算大显身手,抓一批数据到mysql中. 然而,出师未捷,提示我们:ImportError: No module named MySQLdb 这是因为还没有安装MySQL-python驱动,它是python 操作mysql必不可少的模块. 好了,开始下载 1.下载mysql-python驱动 wget https://pypi.python.org/packages/a5/e9/51b544da85a36a68debe7a7091f068d802fc515a…
# -*- enconding:etf-8 -*- import pymysql import os import time import re serveraddr="localhost" user="root" password=" databaseName="test" filename="./data/UNCL.csv" def create_table(): # sep=os.sep # tableName…
于js渲染网页时爬取数据的思路 首先可以先去用requests库访问url来测试一下能不能拿到数据,如果能拿到那么就是一个普通的网页,如果出现403类的错误代码可以在requests.get()方法里加上headers. 如果还是没有一个你想要的结果,打印出来 的只是一个框架,那么就可以排除这方面了.就只可能是ajax或者是javascript来渲染的. 就可以按照下图去看一下里面有没有 本次先重点去讲一下关于js来渲染网页的数据爬取,这下面的数据是随机找的,只要是里面想要爬取的数据就行 了.…
python3.5 先安装库或者扩展 1 requests第三方扩展库 pip3 install requests 2 pymysql pip3 install pymysql 3 lxml pip3 install lxml 4  贴个代码 #!/usr/bin/env python # coding=utf-8 import requests from bs4 import BeautifulSoup import pymysql print('连接到mysql服务器...') db = p…