Selenium模拟浏览器抓取淘宝美食信息

前言：

无意中在网上发现了静觅大神（崔老师），又无意中发现自己硬盘里有静觅大神录制的视频，于是乎看了其中一个，可以说是非常牛逼了，让我这个用urllib，requests用了那么久的小白，体会到selenium的神奇之处，关键是虽然对小白来说信息量很大，但是讲得特别清楚，不亚于培训班哈哈哈哈。接下来言归正传。

使用Selenium模拟浏览器抓取淘宝美食信息并保存到MongoDB数据库，流程如下：

1、利用Selenium驱动浏览器搜索关键字，得到查询后的商品列表。

2、得到商品页码数，模拟翻页，得到后续页面的商品列表。

3、利用PyQuery分析源码，解析得到商品列表。

4、将商品列表信息存储到数据库MongoDB。

环境：

win64位系统，python3.6,IDE为pycharm，已经安装MongoDB数据库，Selenium，chrome63版本以及chromedriver2.34版本。

预备知识：

首先就是selenium。。（本人还不会啊，要赶紧学了！），然后要会用CSS选择器，pyquery库（抓网页信息很好用），re正则表达式（必须会），以及MongoDB数据库等等。

代码：

这里需要pycharm在目录下新建一个项目，然后建两个py文件，一个是spider爬虫，另一个是config用来放MongoDB的一些信息，先是spider

from selenium import webdriver

from selenium.webdriver.support import expected_conditions as EC

from selenium.webdriver.support.ui import WebDriverWait

from selenium.webdriver.common.by import By

from selenium.common.exceptions import TimeoutException

import regex as re

from pyquery import PyQuery as pq

from config import *

import pymongo

client = pymongo.MongoClient(MONGO_URL)

db = client[MONGO_DB]

browser = webdriver.Chrome()

#browser = webdriver.Chrome(service_args=['--ignore-ssl-errors=true', '--ssl-protocol=TLSv1'])

wait = WebDriverWait(browser,10)

def search():

    try:

        browser.get('https://www.taobao.com')

        input = wait.until(

            EC.presence_of_element_located((By.CSS_SELECTOR,'#q'))

        )

        submit = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR,'#J_TSearchForm > div.search-button > button')))

        input.send_keys('美食')

        submit.click()

        total = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,'#mainsrp-pager > div > div > div > div.total')))

        get_products()

        return total.text

    except TimeoutException:

        return search()

def next_page(page_number):

    try:

        input = wait.until(

            EC.presence_of_element_located((By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > div.form > input'))

        )

        submit = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > div.form > span.btn.J_Submit')))

        input.clear()

        input.send_keys(page_number)

        submit.click()

        wait.until(EC.text_to_be_present_in_element((By.CSS_SELECTOR,'#mainsrp-pager > div > div > div > ul > li.item.active > span'),str(page_number)))

        get_products()

    except TimeoutException:

        next_page(page_number)

def get_products():

    wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,'#mainsrp-itemlist .items .item')))

    html = browser.page_source

    doc = pq(html)

    items = doc('#mainsrp-itemlist .items .item').items()

    for item in items:

        product = {

            'image': item.find('.pic .img').attr('src'),

            'price':item.find('.price').text(),

            'deal':item.find('.deal-cnt').text()[:-3],

            'title':item.find('.title').text(),

            'shop':item.find('.shop').text(),

            'location':item.find('.location').text()

        }

        print(product)

        save_to_mongo(product)

def save_to_mongo(result):

    try:

        if db[MONGO_TABLE].insert(result):

            print('存储成功',result)

    except Exception:

        print('存储失败',result)

def main():

    total = search()

    total = int(re.findall('(\d+)',total)[0])

    #print(total)

    for i in range(2,total+1):

        next_page(i)

if __name__ == '__main__':

    main()

然后是config

MONGO_URL = 'localhost'

MONGO_DB = 'taobao'

MONGO_TABLE = 'product'

先放着，等入门selenium之后再来注释，另外还可以用PhantomJS来代替Chrome，之后也会学习并且修改代码

Selenium模拟浏览器抓取淘宝美食信息的更多相关文章

使用selenium模拟浏览器抓取淘宝信息
通过Selenium模拟浏览器抓取淘宝商品美食信息,并存储到MongoDB数据库中. from selenium import webdriver from selenium.common.excep ...
3.使用Selenium模拟浏览器抓取淘宝商品美食信息
# 使用selenium+phantomJS模拟浏览器爬取淘宝商品信息 # 思路: # 第一步:利用selenium驱动浏览器,搜索商品信息,得到商品列表 # 第二步:分析商品页数,驱动浏览器翻页,并 ...
Python爬虫学习==>第十二章：使用 Selenium 模拟浏览器抓取淘宝商品美食信息
学习目的: selenium目前版本已经到了3代目,你想加薪,就跟面试官扯这个,你赢了,工资就到位了,加上一个脚本的应用,结局你懂的正式步骤需求背景:抓取淘宝美食 Step1:流程分析搜索关键字 ...
16-使用Selenium模拟浏览器抓取淘宝商品美食信息
淘宝由于含有很多请求参数和加密参数,如果直接分析ajax会非常繁琐,selenium自动化测试工具可以驱动浏览器自动完成一些操作,如模拟点击.输入.下拉等,这样我们只需要关心操作而不需要关心后台发生了 ...
使用Selenium模拟浏览器抓取淘宝商品美食信息
代码: import re from selenium import webdriver from selenium.webdriver.common.by import By from seleni ...
爬虫实战--使用Selenium模拟浏览器抓取淘宝商品美食信息
from selenium import webdriver from selenium.webdriver.common.by import By from selenium.common.exce ...
关于爬虫的日常复习（10）—— 实战：使用selenium模拟浏览器爬取淘宝美食
Selenium+Chrome/phantomJS模拟浏览器爬取淘宝商品信息
#使用selenium+Carome/phantomJS模拟浏览器爬取淘宝商品信息 # 思路: # 第一步:利用selenium驱动浏览器,搜索商品信息,得到商品列表 # 第二步:分析商品页数,驱动浏 ...
使用Selenium模拟浏览器抓取斗鱼直播间信息
获取斗鱼直播间每个房间的名称.观看人数.tag.主播名字代码: import time from multiprocessing import Pool from selenium import w ...

随机推荐

你应该更新的 Java 知识之常用程序库【转载】
在很多人眼中,Java 已经是一门垂垂老矣的语言,但并不妨碍 Java 世界依然在前进.如果你曾离开 Java,云游于其它世界,或是每日只在遗留代码中挣扎,或许是时候抬起头,看看老 Java 中的新东 ...
【Mac使用系列】常用软件及快捷键
Mac下配置ss: 下载地址:https://github.com/shadowsocks/shadowsocks-iOS/releases 旧版本:https://blog.csdn.net/vqh ...
MDX Cookbook 08 - 基于集合上的迭代递归
递归的应用有时是非常重要的,特别在迭代一个集合的时候.为什么这么说呢?原因在于迭代在MDX中的使用是基于集合函数的,像 GENERATE() 它们都需要遍历整个集合.但是如果这个集合非常的庞大,我们仅 ...
O_DIRECT与O_SYNC区别（转）
O_DIRECT和O_SYNC是系统调用open的flag参数.通过指定open的flag参数,以特定的文件描述符打开某一文件. 这两个flag会对写盘的性能有很大的影响,因此对这两个flag做一些详 ...
dos 批量重命名 bat
@echo off setlocal enabledelayedexpansion echo %var% set /a i = i + var for %%x in (*) do ( if not & ...
CAS Maven
https://wiki.jasig.org/display/CASUM/Best+Practice+-+Setting+Up+CAS+Locally+using+the+Maven2+WAR+Ove ...
More than the maximum number of request parameters
前些时间,我们的的一个管理系统出现了点问题,原本运行的好好的功能,业务方突然讲不行了,那个应用已经运行了好多年了,并且对应的代码最近谁也没改动过,好奇怪的问题,为了解决此问题,我们查看了日志,发现请求 ...
跟我学SharePoint2013视频培训课程——版本控制示例(15)
课程简介第15天,SharePoint 2013版本控制示例视频 SharePoint 2013 交流群 41032413
Nginx 目录结构
Nginx 目录结构 Nginx 安装后整体的目录结构及文件功能如下: [root@localhost ~]# tree /usr/local/nginx /usr/local/nginx ├── c ...
Linux查看CPU和内存的配置信息
CPU配置信息:frank@ubuntu:~/test/python$ cat /proc/cpuinfo processor : #系统中逻辑处理核的编号 vendor_id : GenuineIn ...

Selenium模拟浏览器抓取淘宝美食信息

前言：

环境：

预备知识：

代码：

Selenium模拟浏览器抓取淘宝美食信息的更多相关文章

随机推荐

热门专题