selenium+phantomjs+pyquery 爬取淘宝商品信息

 from selenium import webdriver

 from selenium.common.exceptions import TimeoutException

 from selenium.webdriver.common.by import By

 from selenium.webdriver.support.ui import WebDriverWait

 from selenium.webdriver.support import expected_conditions as EC

 import re

 from pyquery import PyQuery as pq

 from config import *

 import pymongo

 client = pymongo.MongoClient(MONGO_URL)

 db =client[MONGO_DB]

 browser = webdriver.PhantomJS(service_args=SERVICE_ARGS)

 wait = WebDriverWait(browser, 10)# 等待时长10秒，默认0.5秒询问一次，等待页面加载完成，找到某个条件发生后再继续执行后续代码，如果超过设置时间检测不到则抛出异常

 browser.set_window_size(1400,900)

 def search():

     print("正在搜索")

     try:

         browser.get('https://www.taobao.com/')

         input = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, "#q")))#模拟输入框

         submit = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR,"#J_TSearchForm > div.search-button > button")))

         #模拟搜索按钮

         input.send_keys('美食')#添加input

         submit.click()#模拟按下搜索按钮

         total=wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, "#mainsrp-pager > div > div > div > div.total")))

         get_product()

         return total.text

     except TimeoutException:

         return search()

 def next_page(page_number):#翻页，把当前页码清除后，直接跳转到想去的页码

     print("正在翻页",page_number)

     try:

         input = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, "#mainsrp-pager > div > div > div > div.form > input")))

         submit = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR,"#mainsrp-pager > div > div > div > div.form > span.btn.J_Submit")))

         input.clear()

         input.send_keys(page_number)

         submit.click()

         wait.until(EC.text_to_be_present_in_element(

             (By.CSS_SELECTOR,"#mainsrp-pager > div > div > div > ul > li.item.active > span"),str(page_number)))

         get_product()

     except TimeoutException:

         next_page(page_number)

 def get_product():#获得每页商品内容，pyquery not understand

     wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, "#mainsrp-itemlist .items .item")))

     html =browser.page_source

     # print(html)

     doc = pq(html)

     items = doc("#mainsrp-itemlist .items .item").items()#注意class名字后空格！

     for item in items:

         product = {

             'image':item.find('.pic .img').attr('src'),

             'price':item.find('.price').text(),

             'deal':item.find('.deal-cnt').text()[:-3],

             'title':item.find('.title').text(),

             'shop':item.find('.shop').text(),

             'location':item.find('.location').text()#find 查找的是div class的名字 别的标签不可以

         }

         print(product)

         save_to_mongo(product)

 def save_to_mongo(result):#将数据存储到mongodb

     try:

         if db[MONGO_TABLE].insert(result):

             print('存储成功->',result)

     except Exception:

         print('存储失败->',result)

 def main():

     total = search()

     total = int(re.compile('\d+').search(total).group(0))

     for i in range(2,20):

         next_page(i)

     browser.close()

 if __name__ == '__main__':

     main()

MONGO_URL = 'localhost'

MONGO_DB = 'taobao'

MONGO_TABLE = 'product'

SERVICE_ARGS  = ['--load-images=false', '--disk-cache=true']

config

selenium+phantomjs+pyquery 爬取淘宝商品信息的更多相关文章

selenium＋pyquery爬取淘宝商品信息
import re from selenium import webdriver from selenium.common.exceptions import TimeoutException fro ...
Selenium+Chrome/phantomJS模拟浏览器爬取淘宝商品信息
#使用selenium+Carome/phantomJS模拟浏览器爬取淘宝商品信息 # 思路: # 第一步:利用selenium驱动浏览器,搜索商品信息,得到商品列表 # 第二步:分析商品页数,驱动浏 ...
利用Selenium爬取淘宝商品信息
一. Selenium和PhantomJS介绍 Selenium是一个用于Web应用程序测试的工具,Selenium直接运行在浏览器中,就像真正的用户在操作一样.由于这个性质,Selenium也是一 ...
python3编写网络爬虫16-使用selenium 爬取淘宝商品信息
一.使用selenium 模拟浏览器操作爬取淘宝商品信息之前我们已经成功尝试分析Ajax来抓取相关数据,但是并不是所有页面都可以通过分析Ajax来完成抓取.比如,淘宝,它的整个页面数据确实也是通过A ...
<day003>登录+爬取淘宝商品信息+字典用json存储
任务1:利用cookie可以免去登录的烦恼(验证码) ''' 只需要有登录后的cookie,就可以绕过验证码登录后的cookie可以通过Selenium用第三方(微博)进行登录,不需要进行淘宝的滑动 ...
爬取淘宝商品信息，放到html页面展示
爬取淘宝商品信息 import pymysql import requests import re def getHTMLText(url): kv = {'cookie':'thw=cn; hng= ...
Python 爬取淘宝商品信息和相应价格
!只用于学习用途! plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"',html) :获得商品价格和view_pri ...
3.使用Selenium模拟浏览器抓取淘宝商品美食信息
# 使用selenium+phantomJS模拟浏览器爬取淘宝商品信息 # 思路: # 第一步:利用selenium驱动浏览器,搜索商品信息,得到商品列表 # 第二步:分析商品页数,驱动浏览器翻页,并 ...
Python 爬取淘宝商品数据挖掘分析实战
Python 爬取淘宝商品数据挖掘分析实战项目内容本案例选择>> 商品类目:沙发: 数量:共100页 4400个商品: 筛选条件:天猫.销量从高到低.价格500元以上. 爬取淘宝商品 ...

随机推荐

【python深入】map/reduce/lambda 内置函数的使用
python中的内置函数里面,有map和reduce两个方法,这两个方法可以非常好的去做一些事情,但是之前都没有用过,下面是关于这两个方法的介绍: 一.map相关 map()会根据提供的函数对指定的序 ...
Python:a,*args,**kwargs的理解
1.何时用这些参数? 在任何时候继承类和重写方法时,应当用到’*args’和’**kwargs’将接收到的位置参数和键值参数给父类方法 . 2.一句话清晰说明: a是常规的变量类型,比如int,str ...
iOS.redefinition-of-struct-x
Error: Redefinition of struct x Reference
Linux内核基本装载卸载
Linux由两部分组成:内核核心+内核模块核心的命名通常是vmlinuz-VERSION-release,模块的放置于/lib/modules/VERSION-release/ 一旦系统运行起来,内核 ...
mycat读写分离性能测试
1. MySQL主从配置我们的方案设计基于Mysql的主从数据复制功能,以下是基于mysql5.5以上版本最新的主从配置. 开启mysql主从数据复制,主要在mysql的my.ini文件中设置 ...
H5获取原生传过来的值
项目开发中,可能会涉及到原生页面跳转到H5页面,然后H5页面要返回原生页面,通常使用的方法就会失效:this.$router.go(-1);怎么解决呢,这样就需要原生跳转H5页面的时候,在URL里传递 ...
【MySQL】初识数据库及简单操作
一.数据库概述 1.1 什么是数据(Data) 描述事物的符号记录称为数据,描述事物的符号既可以是数字,也可以是文字.图片,图像.声音.语言等,数据由多种表现形式,它们都可以经过数字化后存入计算机. ...
Jquery源码学习日记(1)
https://jquery.com/ 最新源码下载链接:jquery3.0 135-231定义了一些jquery的通用方法 233-301行定义了一些继承的方法 302-477定义了一些工具类方法 ...
[C#.Net]Window服务调用外部程序
最近遇到要做回传服务内增加开关,可以自定义运行一些脚本已方便收集PC状态,发现Bat始终无法运行,上网找了半天才发现和Session0有关,也就是程序有不同级别的访问权限,Vista以上版本为了安全因 ...
Java：ConcurrentHashMap是弱一致的
本文将用到Java内存模型的happens-before偏序关系(下文将简称为hb)以及ConcurrentHashMap的底层模型相关的知识.happens-before相关内容参见:JLS §17 ...

selenium+phantomjs+pyquery 爬取淘宝商品信息

selenium+phantomjs+pyquery 爬取淘宝商品信息的更多相关文章

随机推荐

热门专题