python3.4+selenium爬58同城（一）

【python3.4+selenium爬58同城（一）】的更多相关文章

python3.4+selenium爬58同城（一）

爬取http://bj.58.com/pbdn/0/pn2/中除转转.推广商品以外的产品信息,因为转转和推广的详情信息不规范,需要另外写一个方法存放,后期补上,详情页如下这周学习了爬虫,但是遇到一些js,requests方法无法渲染,比如浏览量,所以结合selenium+phantomjs渲染网页,获取信息上代码,注释中详细解释: from selenium import webdriverfrom bs4 import BeautifulSoupimport re class GetPag…

python3.4+pyspider爬58同城（二）

之前使用python3.4+selenium实现了爬58同城的详细信息,这次用pyspider实现,网上搜了下,目前比较流行的爬虫框架就是pyspider和scrapy,但是scrapy不支持python3,所以… 直接上代码,后面注解: #!/usr/bin/env python # -*- encoding: utf-8 -*- # Created on 2016-04-17 16:54:22 # Project: tongcheng from pyspider.libs.base_hand…

Python 爬58同城城市租房信息

爬取完会自动生成csv电子表格文件,含有房价.押付.链接等信息环境 py2.7 pip install lxml pip install cssselect #coding:utf-8 import csv import urllib2 import lxml.html import time import sys from lxml.cssselect import CSSSelector import threading reload(sys) sys.setdefaultencodi…

使用Python3.x抓取58同城（南京站）的演出票的信息

#!/usr/bin/env python #-*-coding: utf-8 -*- import re import urllib.request as request from bs4 import BeautifulSoup as bs import csv import os import sys from imp import reload reload(sys) def GetAllLink(): num = int(input("爬取多少页:>")) if not…

python3爬虫-爬取58同城上所有城市的租房信息

from fake_useragent import UserAgent from lxml import etree import requests, os import time, re, datetime import base64, json, pymysql from fontTools.ttLib import TTFont ua = UserAgent() class CustomException(Exception): def __init__(self, status, ms…

scrapy爬取58同城二手房问题与对策

测试环境: win10,单机爬取,scrapy1.5.0,python3.6.4,mongodb,Robo 3T 其他准备: 代理池:测试环境就没有用搭建的flask抓代理,因为我找到的几个免费网站有效ip不够多,因此从xxx网站批量获取了800多个免费https代理,然后开线程池测试访问58同城网站,将有效ip保存到json文本中,在scrapy代码加proxy中间件,每次从json中random一个代理; 请求头:网上搜集各种网站的User-Agent,在scrapy中加UserAgent中…