Python爬取网上车市[http://www.cheshi.com/]的数据

#coding:utf8

#爬取网上车市[http://www.cheshi.com/]的数据

import requests, json, time, re, os, sys, time,urllib2,shutil,string

import threading

import MySQLdb

import redis

from pyquery import PyQuery as pq

from urlparse import urljoin

from selenium import webdriver

#设置utf-8编码格式

reload(sys)

sys.setdefaultencoding( "utf-8" )

#读取文件内容

def getLines(filename):

    file_object = open(filename,'rb')

    lines = file_object.readlines()

    return lines

#根据url_name获取url_type_id

def get_url_type_id(v_url_name):

    #3000 品牌  奥迪

    #4000 奥迪  奥迪A6

    url_type_id = ''

    for line in getLines('/home/shutong/crawl/car/script/brand.ini'):

        line = line.strip()

        url_cate = line.split(',')[1]

        url_name = line.split(',')[2]

        if v_url_name.strip() == url_name.strip():

            url_type_id = line.split(',')[0]

            return url_type_id

            break

        else :

            continue

    return url_type_id

class ResultData():

    '''数据文件类'''

    def __init__(self,industry_id,url_type_id,url_name,url_value,web_type_id,web_name,date_id):

        self.industry_id = industry_id

        self.url_type_id = url_type_id

        self.url_name = url_name

        self.url_value = url_value

        self.web_type_id = web_type_id

        self.web_name = web_name

        self.date_id = date_id

    def __str__(self):

        return self.industry_id,self.url_type_id,self.url_name,self.url_value,self.web_type_id,self.self.web_name,ResultData.date_id

class Base(object):

    '''文件保存的基类'''

    def __init__(self,dev_prd_flag):

        self.dev_prd_flag = dev_prd_flag

        pass

        #print "This is init function"

    #保存数据到文件文件

    def _saveContext(self,filename,*name):

        format = '^'

        context = name[0]

        for i in name[1:]:

            context = context + format + str(i)

        context = str(context).replace('（','(').replace('）',')').replace('，',',').replace('：',':')

        if self.dev_prd_flag != 'prd':

            print context

        else:

            #去除文件路径名首位空格

            filename = filename.strip()

            #读取目录名称

            path = os.path.dirname(filename)

            #如果目录不存在则创建目录

            if not os.path.exists(path):

                os.makedirs(path)

            #读取文件名称,以追加的方式写文件

            name = os.path.basename(filename)

            fp = open(filename,'a')

            fp.write(context+'\n')

            fp.close()

    def saveData(self,filename,ResultData):

        if ResultData.url_type_id:

            self._saveContext(filename,ResultData.industry_id,ResultData.url_type_id,ResultData.url_name,ResultData.url_value,ResultData.web_type_id,ResultData.web_name,ResultData.date_id)

        else:

            #将数据进行保存在redis中

            r = redis.Redis(host='192.168.122.140',port=6379,db=0)

            r.sadd('errorList',ResultData.industry_id+'^'+ResultData.url_name+'^'+ResultData.url_value)

    def __str__(self):

        return '保存文件的基类'

class Crawl(Base):

    '''爬虫基础类'''

    driver = None

    #构造方法

    def __init__(self,name,dev_prd_flag):

        super(Crawl,self).__init__(dev_prd_flag='dev')

        self.dev_prd_flag = dev_prd_flag

        self.name = name

        #self.driver = init_driver()

    '''初始化启动浏览器'''

    def init_driver(self):

        ua = "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.3 Safari/537.36"

        cap = webdriver.DesiredCapabilities.PHANTOMJS

        cap["phantomjs.page.settings.resourceTimeout"] = 20000

        cap["phantomjs.page.settings.loadImages"] = True

        cap["phantomjs.page.settings.disk-cache"] = True

        cap["phantomjs.page.settings.userAgent"] = ua

        cap["phantomjs.page.customHeaders.User-Agent"] =ua

        cap["phantomjs.page.customHeaders.Referer"] = "http://tj.ac.10086.cn/login/"

        driver = webdriver.PhantomJS(executable_path='/home/shutong/phantomjs/bin/phantomjs',desired_capabilities=cap, service_args=['--ignore-ssl-errors=true'])

        driver.set_page_load_timeout(60)

        driver.set_script_timeout(60)

        #return driver

        self.driver = driver

    #获取网页文本

    def getHtml(self,url,code='utf-8'):

        html = ''

        try:

            if self.driver:

                self.driver.get(url)

                html = self.driver.page_source

            else :

                headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'}

                request = urllib2.Request(url,headers=headers)

                response = urllib2.urlopen(request,data=None,timeout=60)

                if code:

                    if code == 'gbk':

                        html = unicode(response.read(),'gbk')

                    else:

                        html = unicode(response.read(),str(code))

        except:

            pass

        finally:

            return html             

    '''析构方法'''

    def __del__(self):

        if self.driver:

            self.driver.quit()

            print "浏览器成功关闭"

        else:

            print "浏览器未打开使用"

    def __str__(self):

        return "爬虫基础类"

def start_crawl(url):

    #连接redis数据库

    r = redis.Redis(host='192.168.122.140',port=6379,db=0)

    urllist = []

    html = crawl.getHtml(url,'gbk')

    d = pq(html)

    for a in d('a'):

        a = pq(a)

        try:

            url_value = urljoin(url,a.attr('href'))

            name = a.text()

            #if re.compile(r'([a-z]+) ([a-z]+)', re.I)

            #http://newcar.xcar.com.cn/162/

            if re.match( r'http://newcar.xcar.com.cn/[0-9]{1,10}/$', url_value, re.M|re.I):

                #print url_value,name

                #urllist.append(url_value)

                #将数据存储在redis中

                #r.sadd('urllist',url_value)

                pass

            elif re.match(r'http://newcar.xcar.com.cn/m[0-9]{1,10}/$',url_value,re.M|re.I):

                r.sadd('urllist',url_value)

        except:

            pass

    #for index in urllist:

    for index in list(set(urllist)):

        print index

        try:

            #return start_crawl(index)

            pass

        except:

            pass 

def start_wscs_crawl(url):

    #生产或者测试标志 dev为测试 prd为生产

    flag = 'prd'

    #汽车行业ID

    industry_id = ''

    #移动PC端web_type_id

    web_type_id = ''

    #网站名称

    web_name = '网上车市'

    crawl = Crawl('网上车市',flag)

    #加载浏览器

    #crawl.init_driver()

    html = crawl.getHtml(url)

    d = pq(html)

    for div in d('div').filter('.list-box'):

        div = pq(div)

        #品牌

        brand = div('div').filter('.lb').find('span').text()

        #品牌url

        brand_url = urljoin(url,div('div').filter('.lb')('a').attr('href'))

        #print brand,brand_url

        url_type_id = ''

        url_name = brand

        url_value = brand_url

        #保存品牌数据

        #crawl._saveContext(filename,industry_id,url_type_id,url_name,url_value,web_type_id,web_name)

        resultData = ResultData(industry_id,url_type_id,url_name,url_value,web_type_id,web_name,date_id)

        crawl.saveData(filename,resultData)

        brand = div('div').filter('.rb')('dl')('dt')('a').text().replace('>>','')

        brand_url = urljoin(url,div('div').filter('.rb')('dl')('dt')('a').attr('href'))

        #print brand,brand_url

        url_type_id = ''

        url_name = brand

        url_value = brand_url

        #保存品牌数据

        resultData = ResultData(industry_id,url_type_id,url_name,url_value,web_type_id,web_name,date_id)

        crawl.saveData(filename,resultData)

        #crawl._saveContext(filename,industry_id,url_type_id,url_name,url_value,web_type_id,web_name)

        for dd in div('div').filter('.rb')('dl')('dd'):

            dd = pq(dd)

            car_name = dd('div').filter('.con')('h4').text()

            car_url = urljoin(url,dd('div').filter('.con')('h4')('a').attr('href'))

            #print car_name,car_url

            url_type_id = get_url_type_id(car_name)

            url_name = car_name

            url_value = car_url

            #保存车系数据

            #crawl._saveContext(filename,industry_id,url_type_id,url_name,url_value,web_type_id,web_name)

            resultData = ResultData(industry_id,url_type_id,url_name,url_value,web_type_id,web_name,date_id)

            crawl.saveData(filename,resultData)

            #制作汽车实体信息

            #品牌 子品牌  车系名称 价位  图片url  网站名称 

#多线程启动

def start_mutli_crawl():

    list = []

    for word in string.uppercase:

        #url = 'http://www.autohome.com.cn/grade/carhtml/%s.html' %(word)

        url = 'http://product.cheshi.com/static/selectcar/%s.html?t=1519713137030' % (word)

        list.append(url)

    #定义线程数组

    threads = []

    #创建线程

    for i in range(len(list)):

        t = threading.Thread(target=start_wscs_crawl,args=(list[i],))

        threads.append(t)

    #开启线程

    for i in  range(len(list)):

        threads[i].start()

    for i in range(len(list)):

        threads[i].join()

#filename = '/home/shutong/crawl/car/script/wscs.csv'

#date_id = '20180227'

date_id = sys.argv[1]

filename = sys.argv[2]

#url = 'http://product.cheshi.com/static/selectcar/B.html?t=1519713137030'

#start_wscs_crawl(url)

#多线程启动

start_mutli_crawl()

Python爬取网上车市[http://www.cheshi.com/]的数据的更多相关文章

python爬取《龙岭迷窟》的数据，看看质量剧情还原度到底怎么样
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:简单 PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行 ...
Python 爬取热词并进行分类数据分析-[云图制作+数据导入]
日期:2020.01.28 博客期:136 星期二 [本博客的代码如若要使用,请在下方评论区留言,之后再用(就是跟我说一声)] 所有相关跳转: a.[简单准备] b.[云图制作+数据导入](本期博客) ...
python爬取返利网中值得买中的数据
先使用以前的方法将返利网的数据爬取下来,scrapy框架还不熟练,明日再战scrapy 查找目标数据使用的是beautifulsoup模块. 1.观察网页,寻找规律打开值得买这块内容 1>分析 ...
使用Python爬取、清洗并分析前程无忧的大数据职位
爬取前程无忧的数据(大数据职位) # -*- coding: utf-8 -*- """ Created on Wed Nov 1 14:47:27 2019 @auth ...
Node.js/Python爬取网上漫画
某个周日晚上偶然发现了<火星异种>这部漫画,便在网上在线看了起来.在看的过程中图片加载很慢,而且有时候还不小心点到广告,大大延缓了我看的进度.后来想到能不能把先把漫画全部抓取到本地再去看. ...
python爬取网站数据
开学前接了一个任务,内容是从网上爬取特定属性的数据.正好之前学了python,练练手. 编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这个机会算是彻底搞清楚了. 问题要从文字的编码讲 ...
python爬取免费优质IP归属地查询接口
python爬取免费优质IP归属地查询接口具体不表,我今天要做的工作就是: 需要将数据库中大量ip查询出起归属地刚开始感觉好简单啊,毕竟只需要从百度找个免费接口然后来个python脚本跑一晚上就o ...
利用Python爬取豆瓣电影
目标:使用Python爬取豆瓣电影并保存MongoDB数据库中我们先来看一下通过浏览器的方式来筛选某些特定的电影: 我们把URL来复制出来分析分析: https://movie.douban.com ...
Python爬取LOL英雄皮肤
Python爬取LOL英雄皮肤 Python 爬虫一实现分析在官网上找到英雄皮肤的真实链接,查看多个后发现前缀相同,后面对应为英雄的ID和皮肤的ID,皮肤的ID从00开始顺序递增,而英雄ID跟 ...

随机推荐

【bzoj2242】[SDOI2011]计算器
2242: [SDOI2011]计算器 Time Limit: 10 Sec Memory Limit: 512 MBSubmit: 3207 Solved: 1258[Submit][Statu ...
解剖Nginx·自动脚本篇（4）工具型脚本系列
目录 auto/have 向自动配置头文件追加可用宏定义(objs/ngx_auto_config.h) auto/nohave 向自动配置头文件追加不可用宏定义(objs/ngx_auto_conf ...
OceanBase
OceanBase 编辑本词条缺少名片图,补充相关内容使词条更完整,还能快速升级,赶紧来编辑吧! OceanBase是一个支持海量数据的高性能分布式数据库系统,实现了数千亿条记录.数百TB数据上的 ...
eclipse+hbase开发环境部署
一.前言 1. 前提因为hbase的运行模式是伪分布式,需要用到hdfs,所以在此之前,我已经完成了hadoop-eclipse的开发环境搭建,详细看另一篇文章:hadoop开发环境部署——通过ec ...
SqlServer性能瓶颈分析
SqlServer性能瓶颈分析一.内存瓶颈分析--SQLServer:Buffer Manager SELECT TOP 312 * FROM sys.dm_os_performance_coun ...
vmware centos7 静态ip设置
最近在学习linux环境部署~~~~ 首先,将网络适配设置成为桥接模式查看本机IP地址,ipconfig,记住ipv4地址和默认网关地址,等会配置的时候要用启动Centos,进入终端模式,设置IP ...
[C++] Swap Two Num
Swap Two Num
meshconverters
https://github.com/RobotLocomotion/meshConverters meshconverters $ mkdir build && cd build $ ...
向对象（OO）程序设计
http://www.uml.org.cn/mxdx/201208232.asp 前言本文主要介绍面向对象(OO)程序设计,以维基百科的解释: 面向对象程序设计(英语:Object-oriented ...
Rabbit MQ参考资料
https://github.com/ServiceStack/rabbitmq-windows/blob/master/README.md https://github.com/rabbitmq/r ...

Python爬取网上车市[http://www.cheshi.com/]的数据

Python爬取网上车市[http://www.cheshi.com/]的数据的更多相关文章

随机推荐

热门专题