一个小demo 实用selenium 抓取淘宝搜索页面内的产品内容

废话少说,上代码

#conding:utf-8

import re

from selenium import webdriver

from selenium.webdriver.common.by import By

from selenium.webdriver.support.ui import WebDriverWait

from selenium.webdriver.support import expected_conditions as EC

from pyquery import PyQuery as pq

import pymongo

from config import *

browser=webdriver.Chrome()

wait=WebDriverWait(browser,10)

client=pymongo.MongoClient(MONGO_URL)   #创建mongo客户端对象

db=client[MONGO_DB]           #客户端建表

def search():

    try:

        browser.get('http://www.taobao.com')  #浏览器去get到预定的网址

        input=wait.until(

            EC.presence_of_element_located((By.CSS_SELECTOR,"#q"))  #等待浏览器出现某个选择框选项,赋值

        )

        submit=wait.until(

            EC.element_to_be_clickable((By.CSS_SELECTOR,"#J_TSearchForm > div.search-button > button"))

        )  #等待出现这个提交框框,赋值

        input.send_keys('美食')   #在输入框内,输入内容,此处规定了输入的内容

        submit.click()  #触发点击事件

        total=wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,"#mainsrp-pager > div > div > div > div.total")))

        #页码,赋值

        get_products() #获取产品

        return total.text #返回页码总大小

    except TimeoutError:return search()

def next_page(page_number):

    try:

        input = wait.until(

            EC.presence_of_element_located((By.CSS_SELECTOR, "#mainsrp-pager > div > div > div > div.form > input"))

        )  #页码输入框

        submit = wait.until(

            EC.element_to_be_clickable((By.CSS_SELECTOR, "#mainsrp-pager > div > div > div > div.form > span.btn.J_Submit"))

        )  #页码输入框旁边那个点击按钮

        input.clear()  #清空输入框内容

        input.send_keys(page_number)  #输入页码

        submit.click()  #点击确定

        wait.until(

            EC.text_to_be_present_in_element((By.CSS_SELECTOR,"#mainsrp-pager > div > div > div > ul > li.item.active > span"),str(page_number)))

        get_products()  #等所在页面为  page_number页面

    except TimeoutError:return next_page(page_number)

def get_products():  #获取信息的函数

    wait.until(

        EC.presence_of_element_located((By.CSS_SELECTOR, "#mainsrp-itemlist .items .item")))   #刷出了内容

    html=browser.page_source #可以拿到整个网页的源代码

    doc=pq(html)    #创建query对象

    items=doc("#mainsrp-itemlist .items .item").items() #所有产品

    for item in items:   #查找其中的各类元素

        products={

            'image':item.find('.pic .img').attr('src'),

            'price':item.find('.price').text(),

            'deal':item.find('.deal-cnt').text(),

            'title':item.find('.title').text(),

            'shop':item.find('.shop').text(),

            'location':item.find('.location').text()

        }

        print(products)   #将找到的元素打印一下

        save_to_mongo(products)   #调用保存的函数,保存一下

def save_to_mongo(result):

    try:

        if db[MONGO_TABLE].insert(result):

            print('存储到MONGODB成功',result)

    except Exception:print('存储到MONGODB失败',result)

def main():

    try:

        total=search()   #第一次?先去搜索的第一页,去爬取内容,并且返回页码总数   本来拿到的是   共 100 页，  这个东西

        total=int(re.compile('(\d+)').search(total).group(1))  #返回的是数字

        for i in range(2,total+1):  #从2开始往下  都执行下数字页面的提取操作

            next_page(i)

    except Exception:print('出错了')

    finally:

        browser.close()  #将这个浏览器关闭

if __name__ == '__main__':

    main()

config页面内容没什么,但是写上

#conding:utf-8

MONGO_URL='localhost'

MONGO_DB='taobaomeishi'

MONGO_TABLE='product'

一个小demo 实用selenium 抓取淘宝搜索页面内的产品内容的更多相关文章

Python爬虫实战八之利用Selenium抓取淘宝匿名旺旺
更新其实本文的初衷是为了获取淘宝的非匿名旺旺,在淘宝详情页的最下方有相关评论,含有非匿名旺旺号,快一年了淘宝都没有修复这个. 可就在今天,淘宝把所有的账号设置成了匿名显示,SO,获取非匿名旺旺号已经 ...
selenium+PhantomJS 抓取淘宝搜索商品
最近项目有些需求,抓取淘宝的搜索商品,抓取的品类还多.直接用selenium+PhantomJS 抓取淘宝搜索商品,快速完成. #-*- coding:utf-8 -*-__author__ =''i ...
使用selenium抓取淘宝的商品信息
淘宝的页面大量使用了js加载数据,所以采用selenium来进行爬取更为简单,selenum作为一个测试工具,主要配合无窗口浏览器phantomjs来使用. import re from seleni ...
学习用java基于webMagic+selenium+phantomjs实现爬虫Demo爬取淘宝搜索页面
由于业务需要,老大要我研究一下爬虫. 团队的技术栈以java为主,并且我的主语言是Java,研究时间不到一周.基于以上原因固放弃python,选择java为语言来进行开发.等之后有时间再尝试pytho ...
使用Pyquery+selenium抓取淘宝商品信息
配置文件,配置好数据库名称,表名称,要搜索的产品类目,要爬取的页数 MONGO_URL = 'localhost' MONGO_DB = 'taobao' MONGO_TABLE = 'phone' ...
selenium抓取淘宝数据报错:warnings.warn('Selenium support for PhantomJS has been deprecated, please use headless
ssh://root@192.168.33.12:22/root/anaconda3/bin/python3 -u /www/python3/maoyantop100/meishi_selenium. ...
selenium+chrome抓取淘宝搜索抓娃娃关键页面
最近迷上了抓娃娃,去富国海底世界抓了不少,完全停不下来,还下各种抓娃娃的软件,梦想着有一天买个抓娃娃的机器存家里~.~ 今天顺便抓了下马爸爸家抓娃娃机器的信息,晚辈只是觉得翻得手酸,本来100页的数据 ...
使用selenium抓取淘宝信息并存储mongodb
selenium模块简单小例子 Author:song import pyquery from selenium import webdriver from selenium.common.exce ...
16-使用Selenium模拟浏览器抓取淘宝商品美食信息
淘宝由于含有很多请求参数和加密参数,如果直接分析ajax会非常繁琐,selenium自动化测试工具可以驱动浏览器自动完成一些操作,如模拟点击.输入.下拉等,这样我们只需要关心操作而不需要关心后台发生了 ...

随机推荐

Java编程的分期步骤（一）
日期:2018.8.12 星期一博客期:005 不知不觉来到第五期了,先简单说一下Java环境!(虽然Java都自学完了才说....)首先,就是在网站上下载一个java包,之后把它下载到全英文的一个 ...
Spark SQL访问PostgreSQL
随着Spark SQL的正式发布,以及它对DataFrame的支持,它可能会取代HIVE成为越来越重要的针对结构型数据进行分析的平台.在博客文章What’s new for Spark SQL in ...
HTML5 缓存: cache manifest
---恢复内容开始--- 1:MIME TYPE:text/cache-manifest 服务器配置MIME类型2:需要由你创建的:NAME.manifest 创建manifest文件3:给 < ...
samba 二进制包 tar.gz 安装
一.下载 sudo wget https://download.samba.org/pub/samba/stable/samba-4.8.10.tar.gz 二.解压 sudu tar -xvzf s ...
kali 局域网嗅探
1.局域网图片嗅探工具 arpspoof arpspoof -i eth0 -t 192.1681.10(网卡目标地址) 192.168.1.1 局域网网关,如果在Windows中可以使用局域网 ...
微信小程序--代码构成---JS 交互逻辑
一个服务仅仅只有界面展示是不够的,还需要和用户做交互:响应用户的点击.获取用户的位置等等.在小程序里边,我们就通过编写 JS 脚本文件来处理用户的操作. <view>{{ msg }}&l ...
XAML绑定到资源文件字符串时失败
参考:https://stackoverflow.com/questions/19586401/error-in-binding-resource-string-with-a-view-in-wpf ...
dubbo负载均衡策略和集群容错策略都有哪些
dubbo负载均衡策略 random loadbalance 默认情况下,dubbo是random load balance随机调用实现负载均衡,可以对provider不同实例设置不同的权重,会按照权 ...
[转] AES,SHA1,DES,RSA,MD5区别
AES:更快,兼容设备,安全级别高: SHA1:公钥后处理回传 DES:本地数据,安全级别低 RSA:非对称加密,有公钥和私钥 MD5:防篡改相关: 公开密钥加密(英语:public-key cry ...
python之集合set
1.测试 # python2和python3方法列表相同 ops23 = ['add', 'clear', 'copy', 'difference', 'difference_update', 'di ...

一个小demo 实用selenium 抓取淘宝搜索页面内的产品内容

一个小demo 实用selenium 抓取淘宝搜索页面内的产品内容的更多相关文章

随机推荐

热门专题