爬取千万淘宝商品的python脚本

import time

import leveldb

from urllib.parse import quote_plus

import re

import json

import itertools

import sys

import requests

from queue import Queue

from threading import Thread

URL_BASE = 'http://s.m.taobao.com/search?q={}&n=200&m=api4h5&style=list&page={}'

def url_get(url):

    # print('GET ' + url)

    header = dict()

    header['Accept'] = 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8'

    header['Accept-Encoding'] = 'gzip,deflate,sdch'

    header['Accept-Language'] = 'en-US,en;q=0.8'

    header['Connection'] = 'keep-alive'

    header['DNT'] = ''

    #header['User-Agent'] = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.71 Safari/537.36'

    header['User-Agent'] = 'Mozilla/12.0 (compatible; MSIE 8.0; Windows NT)'

    return requests.get(url, timeout = 5, headers = header).text

def item_thread(cate_queue, db_cate, db_item):

    while True:

        try:

            cate = cate_queue.get()

            post_exist = True

            try:

                state = db_cate.Get(cate.encode('utf-8'))

                if state != b'OK': post_exist = False

            except:

                post_exist = False

            if post_exist == True:

                print('cate-{}: {} already exists ... Ignore'.format(cate, title))

                continue

            db_cate.Put(cate.encode('utf-8'), b'crawling')

            for item_page in itertools.count(1):

                url = URL_BASE.format(quote_plus(cate), item_page)

                for tr in range(5):

                    try:

                        items_obj = json.loads(url_get(url))

                        break

                    except KeyboardInterrupt:

                        quit()

                    except Exception as e:

                        if tr == 4: raise e

                if len(items_obj['listItem']) == 0: break

                for item in items_obj['listItem']:

                    item_obj = dict(

                        _id = int(item['itemNumId']),

                        name = item['name'],

                        price = float(item['price']),

                        query = cate,

                        category = int(item['category']) if item['category'] != '' else 0,

                        nick = item['nick'],

                        area = item['area'])

                    db_item.Put(str(item_obj['_id']).encode('utf-8'),

                                json.dumps(item_obj, ensure_ascii = False).encode('utf-8'))

                print('Get {} items from {}: {}'.format(len(items_obj['listItem']), cate, item_page))

                if 'nav' in items_obj:

                    for na in items_obj['nav']['navCatList']:

                        try:

                            db_cate.Get(na['name'].encode('utf-8'))

                        except:

                            db_cate.Put(na['name'].encode('utf-8'), b'waiting')

            db_cate.Put(cate.encode('utf-8'), b'OK')

            print(cate, 'OK')

        except KeyboardInterrupt:

            break

        except Exception as e:

            print('An {} exception occured'.format(e))

def cate_thread(cate_queue, db_cate):

    while True:

        try:

            for key, value in db_cate.RangeIter():

                if value != b'OK':

                    print('CateThread: put {} into queue'.format(key.decode('utf-8')))

                    cate_queue.put(key.decode('utf-8'))

            time.sleep(10)

        except KeyboardInterrupt:

            break

        except Exception as e:

            print('CateThread: {}'.format(e))

if __name__ == '__main__':

    db_cate = leveldb.LevelDB('./taobao-cate')

    db_item = leveldb.LevelDB('./taobao-item')

    orig_cate = '正装'

    try:

        db_cate.Get(orig_cate.encode('utf-8'))

    except:

        db_cate.Put(orig_cate.encode('utf-8'), b'waiting')

    cate_queue = Queue(maxsize = 1000)

    cate_th = Thread(target = cate_thread, args = (cate_queue, db_cate))

    cate_th.start()

    item_th = [Thread(target = item_thread, args = (cate_queue, db_cate, db_item)) for _ in range(5)]

    for item_t in item_th:

        item_t.start()

    cate_th.join()

转载自： http://outofmemory.cn/code-snippet/36104/python-spider-crawl-taobao-product

爬取千万淘宝商品的python脚本的更多相关文章

php 采集爬取单个淘宝商品描述，商品属性
下载链接:https://download.csdn.net/download/a724008158/10723448 效果图:
利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇，超详细教程
项目内容本案例选择>> 商品类目:沙发: 数量:共100页 4400个商品: 筛选条件:天猫.销量从高到低.价格500元以上. 项目目的 1. 对商品标题进行文本分析词云可视化 2. ...
python爬虫学习(三)：使用re库爬取"淘宝商品"，并把结果写进txt文件
第二个例子是使用requests库+re库爬取淘宝搜索商品页面的商品信息 (1)分析网页源码打开淘宝,输入关键字“python”,然后搜索,显示如下搜索结果从url连接中可以得到搜索商品的关键字是 ...
Python 爬取淘宝商品数据挖掘分析实战
Python 爬取淘宝商品数据挖掘分析实战项目内容本案例选择>> 商品类目:沙发: 数量:共100页 4400个商品: 筛选条件:天猫.销量从高到低.价格500元以上. 爬取淘宝商品 ...
利用Selenium爬取淘宝商品信息
一. Selenium和PhantomJS介绍 Selenium是一个用于Web应用程序测试的工具,Selenium直接运行在浏览器中,就像真正的用户在操作一样.由于这个性质,Selenium也是一 ...
Selenium+Chrome/phantomJS模拟浏览器爬取淘宝商品信息
#使用selenium+Carome/phantomJS模拟浏览器爬取淘宝商品信息 # 思路: # 第一步:利用selenium驱动浏览器,搜索商品信息,得到商品列表 # 第二步:分析商品页数,驱动浏 ...
python3编写网络爬虫16-使用selenium 爬取淘宝商品信息
一.使用selenium 模拟浏览器操作爬取淘宝商品信息之前我们已经成功尝试分析Ajax来抓取相关数据,但是并不是所有页面都可以通过分析Ajax来完成抓取.比如,淘宝,它的整个页面数据确实也是通过A ...
使用Selenium爬取淘宝商品
import pymongo from selenium import webdriver from selenium.common.exceptions import TimeoutExceptio ...
<day003>登录+爬取淘宝商品信息+字典用json存储
任务1:利用cookie可以免去登录的烦恼(验证码) ''' 只需要有登录后的cookie,就可以绕过验证码登录后的cookie可以通过Selenium用第三方(微博)进行登录,不需要进行淘宝的滑动 ...

随机推荐

HDUOJ -----Color the ball
Color the ball Time Limit: 9000/3000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)To ...
ubuntu简易部署Python3编写的djangoWeb应用
1.更新软件源 sudo apt-get update 2.安装Python3 sudo apt-get install python3 安装Python3之后建议不要修改此命令的名称,保持pytho ...
cxGrid显示行号
定义一个类: TMyCxGrid = class(TObject) class procedure DrawIndicatorCell( Sender: TcxGridTableView; ACanv ...
Numpy库应用实例——GPS定位
背景介绍 定位系统 GPS全球定位系统(Global Positioning System)以GPS系统为例介绍卫星定位的计算方法 GPS定位的基本原理 GPS定位的基本原理是根据高速运动卫星的 ...
直线的中点Bresenham算法的实现
一.实验目的 1.掌握在MFC中搭建图形绘制的基本框架的方法: 2.将直线的中点Bresenham算法转化成可执行代码. 二.实验内容 1. 通过分析具体数据在中点Bresenham算法上的执行过程, ...
【LeetCode】135. Candy
Candy There are N children standing in a line. Each child is assigned a rating value. You are giving ...
手动删除Kafka Topic
一.删除Kafka topic 运行./bin/kafka-topics --delete --zookeeper [zookeeper server] --topic [topic name]: ...
C#中缓存的使用 ajax请求基于restFul的WebApi(post、get、delete、put) 让 .NET 更方便的导入导出 Excel .net core api +swagger(一个简单的入门demo 使用codefirst+mysql) C# 位运算详解 c# 交错数组 c# 数组协变 C# 添加Excel表单控件（Form Controls） C#串口通信程序
C#中缓存的使用缓存的概念及优缺点在这里就不多做介绍,主要介绍一下使用的方法. 1.在ASP.NET中页面缓存的使用方法简单,只需要在aspx页的顶部加上一句声明即可: <%@ Outp ...
连接mysql-front数据库出现‘执行错误1251’的解决办法（有效）
原因是MySQL8.0版本的加密方式和MySQL5.0的不一样,连接会报错. 解决方法:更改加密方式控制台中先连接mysql: 再输入: ALTER USER 'root'@'localhost' ...
python标准库介绍——12 time 模块详解
==time 模块== ``time`` 模块提供了一些处理日期和一天内时间的函数. 它是建立在 C 运行时库的简单封装. 给定的日期和时间可以被表示为浮点型(从参考时间, 通常是 1970.1.1 ...

爬取千万淘宝商品的python脚本

爬取千万淘宝商品的python脚本的更多相关文章

随机推荐

热门专题