python爬虫爬取人人车（二手车）、利用padas、matplotlib生成图表，将信息打成csv格式

该程序主要为了抓取人人车卖车信息，包括车系、车型号、购车日期、卖车价格、行驶路程、首付价格等等信息。话不多说直接代码。

入库之后将Mongodb里的信息导出成Excel语句

mongoexport -d myDB -c user -f _id,name,password,adress --csv -o ./user.csv

-d 标示数据库
-c 标示数据表
-f 需要提取的field用逗号分隔
-o 输出路径

车系py文件

# -*- coding: utf-8 -*-

import re

from urllib.request import urlopen

from scrapy.http import Request

# from urllib.request import Request

from bs4 import BeautifulSoup

from lxml import etree

import pymongo

import scrapy

from scrapy.selector import HtmlXPathSelector

client = pymongo.MongoClient(host="127.0.0.1")

db = client.renrenche

collection = db.Carclass          #表名classification

import redis        #导入redis数据库

r = redis.Redis(host='127.0.0.1', port=6379, db=0)

class renrencheSpider(scrapy.Spider):

    name = "Carinfo1"

    allowed_domains = ["renrenche.com"]   #允许访问的域

    start_urls = [

        "https://www.renrenche.com/bj/ershouche/"

    ]

    #每爬完一个网页会回调parse方法

    def parse(self, response):

        hxs = HtmlXPathSelector(response)

        hx = hxs.select('//div[@class="brand-more-content"]/div[@class="brand-section brand-section-1"]/p[@class="bl"]/span[@class="bn"]/a')

        for secItem in hx:

            url = secItem.select("@href").extract()

            c = "https://www.renrenche.com"+url[0]

            name = secItem.select("text()").extract()

            classid =self.insertMongo(name,None)

            print(c)

            print(name)

            request = Request(c,callback=lambda response,pid=str(classid):self.parse_subclass(response,pid))

            yield request

    def parse_subclass(self, response,pid):

        # print(response.body.decode('utf-8'))

        hxs = HtmlXPathSelector(response)

        hx = hxs.select('//ul[@id="filter_series"]/li[@class=""]/a')

        for secItem in hx:

            urls = secItem.select("@href").extract()

            url = "https://www.renrenche.com" + urls[0]

            name = secItem.select("text()").extract()

            print(url)

            print(name)

            classid = self.insertMongo(name,pid)

            self.pushRedis(classid,url,pid)

    def insertMongo(self,classname,pid):

        classid = collection.insert({'classname':classname,'pid':pid})

        return classid

    def pushRedis(self,classid,url,pid,):

        carurl = '%s,%s,%s' %(classid,url,pid)

        r.lpush('carurl',carurl)

　　卖车各种信息py文件

# -*- coding: utf-8 -*-
import re
from urllib.request import urlopen
from scrapy.http import Request
import pymongo
import scrapy
from time import sleep
from scrapy.selector import HtmlXPathSelector

client = pymongo.MongoClient(host="127.0.0.1")
db = client.renrenche
collection = db.Carinfo

import redis  # 导入redis数据库

r = redis.Redis(host='127.0.0.1', port=6379, db=0)

class renrencheSpider(scrapy.Spider):
    name = "Carinfo2"
    allowed_domains = ["renrenche.com"]
    dict = {}
    start_urls = []

    def __init__(self):  # 定义一个方法

        a = r.lrange('carurl', 0, -1)
        for item in a:
            novelurl = bytes.decode(item)
            arr = novelurl.split(',')  # 分割字符串
            renrencheSpider.start_urls.append(arr[1])
            pid = arr[0]
            url = arr[1]
            self.dict[url] = {"pid":pid,"num":0}

    def parse(self, response):

        classInfo = self.dict[response.url]
        pid = classInfo['pid']
        num = classInfo['num']
        # print(self.dict)
        if num>3:
            return None
        hxs = HtmlXPathSelector(response)
        hx = hxs.select('//ul[@class="row-fluid list-row js-car-list"]')
        s=""
        for secItem in hx:
            hx1 = secItem.select('//li[@class="span6 list-item car-item"]/a[@rrc-event-param="search"]/h3')
            name = hx1.select("text()").extract()
            a = "型号："+name[0]
            # self.insertMongo(classname=a)
            s +=a+"\n"
            # classid = collection.insert({'carinfo': a, 'pid': pid})
            # print(a)
        for secItem in hx:
            hx2 = secItem.select('//div[@class="mileage"]/span[@class="basic"]')
            name = hx2.select("text()").extract()
            b = "购车年份/公里数："+name[0]+"/"+name[1]
            # self.insertMongo(classname1=b)
            s +=b+"\n"
            # print(b)
        for secItem in hx:
            hx3 = secItem.select('//div[@class="tags-box"]/div[@class="price"]')
            name = hx3.select("text()").extract()
            c = str(name[0])
            c = c.strip()

            c = "卖车价格："+c+"万"
            # self.insertMongo(classname2=c)
            s +=c+"\n"
            # print(c)
        for secItem in hx:
            hx4 = secItem.select('//div[@class="down-payment"]/div[@class="m-l"]')
            name = hx4.select("text()").extract()
            d = "首付："+name[0]+"万"
            # self.insertMongo(classname3=d,pid=pid)
            s +=d+"\n"
            # print(d)
        # print(s)

        arr = s.split('\n')
        print(arr[0])
        classid = self.insertMongo(arr[0],arr[1],arr[2],arr[3],pid)
        # classid = self.insertMongo(s, pid)

    def insertMongo(self, classname,classname1,classname2,classname3, pid):
        classid = collection.insert({'classname': classname,'classname1':classname1,'classname2':classname2,'classname3':classname3, 'pid': pid})
        return classid
    #     r.lpush('novelnameurl', novelnameurl)

python爬虫爬取人人车（二手车）、利用padas、matplotlib生成图表，将信息打成csv格式的更多相关文章

用Python爬虫爬取广州大学教务系统的成绩（内网访问）
用Python爬虫爬取广州大学教务系统的成绩(内网访问) 在进行爬取前,首先要了解: 1.什么是CSS选择器? 每一条css样式定义由两部分组成,形式如下: [code] 选择器{样式} [/code ...
Python爬虫 - 爬取百度html代码前200行
Python爬虫 - 爬取百度html代码前200行 - 改进版, 增加了对字符串的.strip()处理源代码如下: # 改进版, 增加了 .strip()方法的使用 # coding=utf-8 ...
使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip install ...
Python爬虫|爬取喜马拉雅音频
"GOOD Python爬虫|爬取喜马拉雅音频喜马拉雅是知名的专业的音频分享平台,用户规模突破4.8亿,汇集了有声小说,有声读物,儿童睡前故事,相声小品等数亿条音频,成为国内发展最快.规模 ...
python爬虫爬取内容中，-xa0，-u3000的含义
python爬虫爬取内容中,-xa0,-u3000的含义 - CSDN博客 https://blog.csdn.net/aiwuzhi12/article/details/54866310
Python爬虫爬取全书网小说，程序源码+程序详细分析
Python爬虫爬取全书网小说教程第一步:打开谷歌浏览器,搜索全书网,然后再点击你想下载的小说,进入图一页面后点击F12选择Network,如果没有内容按F5刷新一下点击Network之后出现如下 ...
python爬虫—爬取英文名以及正则表达式的介绍
python爬虫—爬取英文名以及正则表达式的介绍爬取英文名: 一. 爬虫模块详细设计 (1)整体思路对于本次爬取英文名数据的爬虫实现,我的思路是先将A-Z所有英文名的连接爬取出来,保存在一个cs ...
一个简单的python爬虫,爬取知乎
一个简单的python爬虫,爬取知乎主要实现爬取一个收藏夹里所有问题答案下的图片文字信息暂未收录,可自行实现,比图片更简单具体代码里有详细注释,请自行阅读项目源码: # -*- cod ...
python爬虫-爬取百度图片
python爬虫-爬取百度图片(转) #!/usr/bin/python# coding=utf-8# 作者 :Y0010026# 创建时间 :2018/12/16 16:16# 文件 :spider ...

随机推荐

TCP/IP协议栈 --- IP路由
IP路由:当一个IP包在主机发送出去或者在网络当中时,是怎么选择路径到达目的主机的呢? 一般情况下, 如果说源主机和目的主机在同一个网络中的话,那个数据报可以直接到达目的主机而不经过路由器,下面可以试 ...
windows配置git
每次要使用git指令的时候都要去打开git bash 操作,太麻烦,要想直接在dos窗口下使用git指令需要再进行如下环境变量配置. 1.系统环境变量path添加:D://programFiles/g ...
AspNet Core ：创建自定义 EF Core 链接数据库
这两天比较忙,写的会慢一点. 我们以控制台演示 EF Core的链接数据库首先创建控制台程序创建数据上下文类 EntityTable /// <summary> /// 继承 DbCo ...
遍历输出tuple元素的简洁方式(C++11)
//遍历输出tuple元素的简洁方式(C++11) //Win32Con17_VS2017_01.cpp #include <iostream> #include <tuple> ...
基于C++11的线程池
1.封装的线程对象 class task : public std::tr1::enable_shared_from_this<task> { public: task():exit_(f ...
相似QQ对话框上下部分可拖动代码
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content ...
Android View视图系统分析和Scroller和OverScroller分析
Android View视图系统分析和Scroller和OverScroller分析 View 视图分析首先,我们知道.在Android中全部的视图资源(无论是Layout还是V ...
mapreduce作业reduce被大量kill掉
之前有一段时间.我们的hadoop2.4集群压力非常大.导致提交的job出现大量的reduce被kill掉.同样的job执行时间比在hadoop0.20.203上面长了非常多.这个问题事实上是redu ...
CentOS 6.5 安装MySQL过程
使用软件的版本 CentOS 6.5 mysql-5.5.22.tar.gz cmake-2.8.6.tar.gz 准备工作解压安装mysql之前把关于mysql软件包卸载,以免程序冲突,端口冲突. ...
TextMesh Pro Emoji Align With Text(表情和文字对齐)
前言 MMO游戏中需要富文件组件,大体功能包括图文混排,表情,超链接,文字动画等富文本功能,且DC数占用少. 本文选择Unity免费提供的TextMesh Pro 解决方案. 软件环境 Unity3D ...

python爬虫爬取人人车（二手车）、利用padas、matplotlib生成图表，将信息打成csv格式

python爬虫爬取人人车（二手车）、利用padas、matplotlib生成图表，将信息打成csv格式的更多相关文章

随机推荐

热门专题