使用Pyquery+selenium抓取淘宝商品信息

配置文件，配置好数据库名称，表名称，要搜索的产品类目，要爬取的页数

MONGO_URL = 'localhost'

MONGO_DB = 'taobao'

MONGO_TABLE = 'phone'

SERVICE_ARGS = [

    '--disk-cache=true',  # 在phantomjs时使用缓存

    '--load-images=false'  # 使用phantomjs时不加载出图片

]

KEYWORD = '手机'
MAXPAGE = 5

主程序

#!/usr/bin/env python

# -*- coding: utf-8 -*-

# @Date    : 2018-06-14 22:02:26

# @Author  : Chenjun (320316430@qq.com;)

# @Link    : http://example.org

# @Version : $Id$

import re

from selenium import webdriver

from selenium.webdriver.common.by import By

from selenium.webdriver.support.ui import WebDriverWait

from selenium.webdriver.support import expected_conditions as EC

from selenium.common.exceptions import TimeoutException

from pyquery import PyQuery as pq

from config import *

import pymongo   #使用mongodb数据库存储，在此python提供pymongo库方便使用

client = pymongo.MongoClient(MONGO_URL)

db = client[MONGO_DB]

browser = webdriver.PhantomJS(service_args=SERVICE_ARGS)  #使用phantomjs无界面浏览器，在爬虫抓取时更方便，并且提供api配置

browser.set_window_size(1400, 900)

wait = WebDriverWait(browser, 10)  #设置等待时长等待信息加载出来

 

#拿到所有的商品信息

def search():

    print('正在搜索...')

    try:

        browser.get('https://www.taobao.com')

        input = wait.until(

            EC.presence_of_element_located((By.CSS_SELECTOR, '#q')) #等待输入框加载出来并插入光标

        )

        submit = wait.until(EC.element_to_be_clickable(

            (By.CSS_SELECTOR, '#J_TSearchForm > div.search-button > button')))  #等待搜索兼可被点击

        input.send_keys(KEYWORD)  #模拟用户输入

        submit.click()  #模拟用户点击

        get_products()

        total = wait.until(EC.presence_of_element_located(

            (By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > div.total')))  #获取搜索结果总页数

        return total.text

    except TimeoutException:

        return search()


def next_page(page_number):

    print('正在翻页...')

    try:

        input = wait.until(

            EC.presence_of_element_located(

                (By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > div.form > input')) #等待输入页码框加载出来并插入光标

        )

        submit = wait.until(EC.element_to_be_clickable(

            (By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > div.form > span.btn.J_Submit')))  #等待跳转按钮可以被点击

        input.clear()  #清除当前页码

        input.send_keys(page_number)  #模拟输入新页码

        submit.click()  #模拟点击

        wait.until(EC.text_to_be_present_in_element(

            (By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > ul > li.item.active > span'), str(page_number)))  #等到网页跳转到输入的页面

        get_products()

    except TimeoutException:

        next_page(page_number)

#拿到具体商品信息

def get_products():

    wait.until(EC.presence_of_element_located((

        By.CSS_SELECTOR, '#mainsrp-itemlist .items .item')))  #等待商品被加载出来

    html = browser.page_source  #拿到当前页面dom文档

    doc = pq(html)

    items = doc('#mainsrp-itemlist .items .item').items()

    count = 0

    for item in items:

        count += 1

        product = { #pyquery解析文档

            'image': item.find('.pic .img').attr('src'),

            'price': item.find('.price').text(),

            'deal': item.find('.deal-cnt').text()[:-3],

            'title': item.find('.title').text(),

            'shop': item.find('.shop').text(),

            'location': item.find('.location').text()

        }

        save_to_mongo(product, count)

    print(type(items), type(item))

def save_to_mongo(result, count):

    try:

        if db[MONGO_TABLE].insert(result):  #存储到mongodb

            print(f'存储{count}到了MONGODB成功')

    except Exception:

        print('存储失败')

def main():

    try:

        total = search()

        total = int(re.compile('(\d+)').search(total).group(1))

        if total >= MAXPAGE:

            total = MAXPAGE

        for i in range(2, total + 1):

            next_page(i)

    except Exception:

        print('出错啦!')

    finally:

        browser.close() #无论成败，记得关闭浏览器

if __name__ == '__main__':

    main()

使用Pyquery+selenium抓取淘宝商品信息的更多相关文章

python3编写网络爬虫16-使用selenium 爬取淘宝商品信息
一.使用selenium 模拟浏览器操作爬取淘宝商品信息之前我们已经成功尝试分析Ajax来抓取相关数据,但是并不是所有页面都可以通过分析Ajax来完成抓取.比如,淘宝,它的整个页面数据确实也是通过A ...
利用Selenium爬取淘宝商品信息
一. Selenium和PhantomJS介绍 Selenium是一个用于Web应用程序测试的工具,Selenium直接运行在浏览器中,就像真正的用户在操作一样.由于这个性质,Selenium也是一 ...
3.使用Selenium模拟浏览器抓取淘宝商品美食信息
# 使用selenium+phantomJS模拟浏览器爬取淘宝商品信息 # 思路: # 第一步:利用selenium驱动浏览器,搜索商品信息,得到商品列表 # 第二步:分析商品页数,驱动浏览器翻页,并 ...
Selenium模拟浏览器抓取淘宝美食信息
前言: 无意中在网上发现了静觅大神(崔老师),又无意中发现自己硬盘里有静觅大神录制的视频,于是乎看了其中一个,可以说是非常牛逼了,让我这个用urllib,requests用了那么久的小白,体会到sel ...
Selenium+Chrome/phantomJS模拟浏览器爬取淘宝商品信息
#使用selenium+Carome/phantomJS模拟浏览器爬取淘宝商品信息 # 思路: # 第一步:利用selenium驱动浏览器,搜索商品信息,得到商品列表 # 第二步:分析商品页数,驱动浏 ...
Python爬虫实战八之利用Selenium抓取淘宝匿名旺旺
更新其实本文的初衷是为了获取淘宝的非匿名旺旺,在淘宝详情页的最下方有相关评论,含有非匿名旺旺号,快一年了淘宝都没有修复这个. 可就在今天,淘宝把所有的账号设置成了匿名显示,SO,获取非匿名旺旺号已经 ...
<day003>登录+爬取淘宝商品信息+字典用json存储
任务1:利用cookie可以免去登录的烦恼(验证码) ''' 只需要有登录后的cookie,就可以绕过验证码登录后的cookie可以通过Selenium用第三方(微博)进行登录,不需要进行淘宝的滑动 ...
爬取淘宝商品信息，放到html页面展示
爬取淘宝商品信息 import pymysql import requests import re def getHTMLText(url): kv = {'cookie':'thw=cn; hng= ...
Python爬虫学习==>第十二章：使用 Selenium 模拟浏览器抓取淘宝商品美食信息
学习目的: selenium目前版本已经到了3代目,你想加薪,就跟面试官扯这个,你赢了,工资就到位了,加上一个脚本的应用,结局你懂的正式步骤需求背景:抓取淘宝美食 Step1:流程分析搜索关键字 ...

随机推荐

爬坑Linux
一.把cmd换成cmder 1.下载迷你版的cmder(因为win10的linux就是BASH,完整版的cmder也带这个,多余,还下载很慢),下载的是一个rar的文件,直接解压就可以了 2.将cmd ...
【java多线程】队列系统之DelayQueue源码
一.延迟队列延迟队列,底层依赖了优先级队列PriorityBlockingQueue 二.延迟队列案例 (1)延迟队列的任务 public class DelayTask implements De ...
Python服务Dokcer化并k8s部署实例
这篇文章记录了我试验将一个基于python的服务docker化并k8s部署的过程. 服务介绍Docker化设计业务代码改造创建docker镜像K8S部署设计yaml文件运行服务介绍这是一个用 pyth ...
django基础 -- 10.form , ModelForm ,modelformset
一.生成页面可用的 HTML标签 1.form 所有内置字段 Field required=True, 是否允许为空 widget=None, HTML插件 label=None, 用于生成Label ...
第二章 JavaScript文档（上）
JavaScript 1.JavaScript简介起源在1995年时,由Netscape公司的Brendan Eich,在网景导航者浏览器上首次设计实现而成.Netscape在最初将其脚本语言命名 ...
vim 简单实用
http://www.runoob.com/linux/linux-vim.html 编辑模式 : (同时打开两个文件) vim test.c test1.c -O 同时编辑两个文件 - ...
golang http proxy反向代理
本文介绍golang中如何进行反向代理. 下面例子中, proxy server接收client 的 http request,转发给true server,并把 true server的返回结果再发 ...
TF(3): 安装部署_Windows
CUDA: CUDA(Compute Unified Device Architecture): CUDA™是一种由显卡厂商NVIDIA推出的通用并行计算架构,该架构使GPU能够解决复杂的计算问题. ...
rtsp简介
https://wenku.baidu.com/view/b10415dabd64783e08122b9c.html 1 概要 RTSP(Real Time Streaming Protoc ...
使用Java监控工具出现 Can't attach to the process
问题重现 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 ➜ jinfo -flags 3032 Attaching ...

使用Pyquery+selenium抓取淘宝商品信息

使用Pyquery+selenium抓取淘宝商品信息的更多相关文章

随机推荐

热门专题