seleniun 爬取淘宝网

 import re

 from selenium import webdriver

 from selenium.common.exceptions import TimeoutException

 from selenium.webdriver.common.by import By

 from selenium.webdriver.support.ui import WebDriverWait

 from selenium.webdriver.support import expected_conditions as EC

 from pyquery import PyQuery as pq

 import pymongo

 MONGO_URL = 'localhost'

 MONGO_DB = 'taobao'

 MONGO_TABLE = 'product'

 SERVICE_ARGS = ['--load-images=false', '--disk-cache=true']

 KEYWORD = '美食'

 client = pymongo.MongoClient(MONGO_URL)

 db = client[MONGO_DB]

 browser = webdriver.PhantomJS(service_args=SERVICE_ARGS)

 wait = WebDriverWait(browser, 10)

 browser.set_window_size(1400, 900)

 def search():

     print('正在搜索')

     try:

         browser.get('https://www.taobao.com')

         input = wait.until(

             EC.presence_of_element_located((By.CSS_SELECTOR, '#q'))

         )

         submit = wait.until(

             EC.element_to_be_clickable((By.CSS_SELECTOR, '#J_TSearchForm > div.search-button > button')))

         input.send_keys(KEYWORD)

         submit.click()

         total = wait.until(

             EC.presence_of_element_located((By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > div.total')))

         get_products()

         return total.text

     except TimeoutException:

         return search()

 def next_page(page_number):

     print('正在翻页', page_number)

     try:

         input = wait.until(

             EC.presence_of_element_located((By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > div.form > input'))

         )

         submit = wait.until(EC.element_to_be_clickable(

             (By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > div.form > span.btn.J_Submit')))

         input.clear()

         input.send_keys(page_number)

         submit.click()

         wait.until(EC.text_to_be_present_in_element(

             (By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > ul > li.item.active > span'), str(page_number)))

         get_products()

     except TimeoutException:

         next_page(page_number)

 def get_products():

     wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '#mainsrp-itemlist .items .item')))

     html = browser.page_source

     doc = pq(html)

     items = doc('#mainsrp-itemlist .items .item').items()

     for item in items:

         product = {

             'image': item.find('.pic .img').attr('src'),

             'price': item.find('.price').text(),

             'deal': item.find('.deal-cnt').text()[:-3],

             'title': item.find('.title').text(),

             'shop': item.find('.shop').text(),

             'location': item.find('.location').text()

         }

         print(product)

         save_to_mongo(product)

 def save_to_mongo(result):

     try:

         if db[MONGO_TABLE].insert(result):

             print('存储到MONGODB成功', result)

     except Exception:

         print('存储到MONGODB失败', result)

 def main():

     try:

         total = search()

         total = int(re.compile('(\d+)').search(total).group(1))

         for i in range(2, total + 1):

             next_page(i)

     except Exception:

         print('出错啦')

     finally:

         browser.close()

 if __name__ == '__main__':

     main()

seleniun 爬取淘宝网的更多相关文章

使用scrapy+selenium爬取淘宝网
--***2019-3-27测试有效***---- 第一步: 打开cmd,输入scrapy startproject taobao_s新建一个项目. 接着cd 进入我们的项目文件夹内输入scrapy ...
利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇，超详细教程
项目内容本案例选择>> 商品类目:沙发: 数量:共100页 4400个商品: 筛选条件:天猫.销量从高到低.价格500元以上. 项目目的 1. 对商品标题进行文本分析词云可视化 2. ...
利用Selenium爬取淘宝商品信息
一. Selenium和PhantomJS介绍 Selenium是一个用于Web应用程序测试的工具,Selenium直接运行在浏览器中,就像真正的用户在操作一样.由于这个性质,Selenium也是一 ...
使用Python爬取淘宝两千款套套
各位同学们,好久没写原创技术文章了,最近有些忙,所以进度很慢,给大家道个歉. 警告:本教程仅用作学习交流,请勿用作商业盈利,违者后果自负!如本文有侵犯任何组织集团公司的隐私或利益,请告知联系猪哥删除! ...
Python 爬取淘宝商品数据挖掘分析实战
Python 爬取淘宝商品数据挖掘分析实战项目内容本案例选择>> 商品类目:沙发: 数量:共100页 4400个商品: 筛选条件:天猫.销量从高到低.价格500元以上. 爬取淘宝商品 ...
<day003>登录+爬取淘宝商品信息+字典用json存储
任务1:利用cookie可以免去登录的烦恼(验证码) ''' 只需要有登录后的cookie,就可以绕过验证码登录后的cookie可以通过Selenium用第三方(微博)进行登录,不需要进行淘宝的滑动 ...
Selenium+Chrome/phantomJS模拟浏览器爬取淘宝商品信息
#使用selenium+Carome/phantomJS模拟浏览器爬取淘宝商品信息 # 思路: # 第一步:利用selenium驱动浏览器,搜索商品信息,得到商品列表 # 第二步:分析商品页数,驱动浏 ...
selenium跳过webdriver检测并爬取淘宝我已购买的宝贝数据
简介上一个博文已经讲述了如何使用selenium跳过webdriver检测并爬取天猫商品数据,所以在此不再详细讲,有需要思路的可以查看另外一篇博文. 源代码 # -*- coding: utf-8 ...
python3编写网络爬虫16-使用selenium 爬取淘宝商品信息
一.使用selenium 模拟浏览器操作爬取淘宝商品信息之前我们已经成功尝试分析Ajax来抓取相关数据,但是并不是所有页面都可以通过分析Ajax来完成抓取.比如,淘宝,它的整个页面数据确实也是通过A ...

随机推荐

java img图片转pdf 工具类
package com.elitel.hljhr.comm.web.main.controller; import java.io.File; import java.io.FileNotFoundE ...
Myeclipes连接Mysql数据库配置
相信大家在网站上也找到了许多关于myeclipes如何连接mysql数据库的解决方案,虽然每一步都按照他的步骤来,可到最后还是提示连接失败,有的方案可能应个人设备而异,配置环境不同导致.经过个人多方探 ...
Angular2 前端代码规范
不要重置对象的引用!(重置只应该在组件或服务的初始化时) why:会使页面产生闪烁不要给图片绑定一个空的值或空的图片引用(如果值从服务器异步过来,那应该在初始化时给它一个默认值)why:会触发一个4 ...
DOS下常用命令
0,想进入某个驱动器,直接输入盘符即可.如:“d:”1,CD--进入指定目录 2,cls--清除显示器屏幕上的内容,使DOS提示符到屏幕左上角. 3,time--显示和设置DOS的系统时间 4,dir ...
文本处理三剑客之 Sed ——一般编辑命令
sed简介 sed (stream editor for filtering and transforming text) 是Linux上的文本处理三剑客之一,另外两个是grep和awk. sed又称 ...
Boost智能指针——weak_ptr
循环引用: 引用计数是一种便利的内存管理机制,但它有一个很大的缺点,那就是不能管理循环引用的对象.一个简单的例子如下: #include <string>#include <iost ...
js获取7天之前或之后的日期
function fun_date(aa){ var date1 = new Date(), time1=date1.getFullYear()+"-"+(date1.getMon ...
打印出类所在的jar包
ackage time; /** * Created by sheting on 10/20/2017 */ public class Test { public static void main(S ...
Hibernate映射Map属性2
Hibernate在映射Map属性时生成映射文件.需要注意的一些地方.下面是我的一个例子. Java类如下 public class NameAndNumber { private Integer i ...
php------中文出现乱码解决方法
中文出现乱码解决方法:原因编码格式不一致 [1] 建立数据库的时候,字符集选择utf-8 数据库,点表名,点右键,数据库属性…. [2] 修改myspl的配置,在[myspld]模块下面添加ch ...

seleniun 爬取淘宝网

seleniun 爬取淘宝网的更多相关文章

随机推荐

热门专题