使用selenium抓取淘宝信息并存储mongodb

selenium模块

简单小例子

 Author:song

import pyquery

from selenium import webdriver

from selenium.common.exceptions import TimeoutException

from selenium.webdriver.support.ui import WebDriverWait

from selenium.webdriver.support import expected_conditions as EC

from selenium.webdriver.common.by import By

from pyquery import PyQuery as pq

from config import *

import pymongo

client = pymongo.MongoClient(MONGO_URL)

db = client[MONGO_DB]

browser = webdriver.Chrome()

wait =WebDriverWait(browser,10)

def get_one_index():

    try:

        url = 'https://www.taobao.com/'

        browser.get(url)

        input = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,'#q')))

        submit = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR,'#J_TSearchForm > div.search-button > button')))

        input.send_keys('python')

        submit.click()

        get_informations()

    except TimeoutException:

        print('error')

        return get_one_index()

def get_more_indexs(page_number):

    input = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > div.form > input')))

    submit = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > div.form > span.btn.J_Submit')))

    input.clear()

    input.send_keys(page_number)

    submit.click()

    get_informations()

def get_informations():

    wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '#mainsrp-itemlist .items .item')))

    html = browser.page_source

    doc = pq(html)

    items = doc('#mainsrp-itemlist .items .item').items()

    for item in items:

        product = {

            'title' : item.find('.row.row-2.title').text(),

            'picture' : item.find('.J_ItemPic.img').attr('src'),

            'price' : item.find('.price.g_price.g_price-highlight').text(),

            'shop' : item.find('.shopname.J_MouseEneterLeave.J_ShopInfo').text(),

            'location' : item.find('.location').text(),

            'deal':item.find('.J_ClickStat').attr('href')

        }

        save_to_mongodb(product)

def save_to_mongodb(result):

        if db[MONGO_TABLE].insert(result):

            print('存储成功',result)

def main():

    get_one_index()

    for number in range(2,5):

        get_more_indexs(number)

if __name__ =='__main__':

    main()

使用selenium抓取淘宝信息并存储mongodb的更多相关文章

Python爬虫实战八之利用Selenium抓取淘宝匿名旺旺
更新其实本文的初衷是为了获取淘宝的非匿名旺旺,在淘宝详情页的最下方有相关评论,含有非匿名旺旺号,快一年了淘宝都没有修复这个. 可就在今天,淘宝把所有的账号设置成了匿名显示,SO,获取非匿名旺旺号已经 ...
使用selenium模拟浏览器抓取淘宝信息
通过Selenium模拟浏览器抓取淘宝商品美食信息,并存储到MongoDB数据库中. from selenium import webdriver from selenium.common.excep ...
使用selenium抓取淘宝的商品信息
淘宝的页面大量使用了js加载数据,所以采用selenium来进行爬取更为简单,selenum作为一个测试工具,主要配合无窗口浏览器phantomjs来使用. import re from seleni ...
使用Pyquery+selenium抓取淘宝商品信息
配置文件,配置好数据库名称,表名称,要搜索的产品类目,要爬取的页数 MONGO_URL = 'localhost' MONGO_DB = 'taobao' MONGO_TABLE = 'phone' ...
selenium抓取淘宝数据报错:warnings.warn('Selenium support for PhantomJS has been deprecated, please use headless
ssh://root@192.168.33.12:22/root/anaconda3/bin/python3 -u /www/python3/maoyantop100/meishi_selenium. ...
Selenium爬取淘宝商品概要入mongodb
准备: 1.安装Selenium:终端输入 pip install selenium 2.安装下载Chromedriver:解压后放在…\Google\Chrome\Application\:如果是M ...
一个小demo 实用selenium 抓取淘宝搜索页面内的产品内容
废话少说,上代码 #conding:utf-8 import re from selenium import webdriver from selenium.webdriver.common.by i ...
python3编写网络爬虫16-使用selenium 爬取淘宝商品信息
一.使用selenium 模拟浏览器操作爬取淘宝商品信息之前我们已经成功尝试分析Ajax来抓取相关数据,但是并不是所有页面都可以通过分析Ajax来完成抓取.比如,淘宝,它的整个页面数据确实也是通过A ...
Selenium模拟浏览器抓取淘宝美食信息
前言: 无意中在网上发现了静觅大神(崔老师),又无意中发现自己硬盘里有静觅大神录制的视频,于是乎看了其中一个,可以说是非常牛逼了,让我这个用urllib,requests用了那么久的小白,体会到sel ...

随机推荐

Java实现蓝桥杯VIP 算法训练采油区域
算法训练采油区域时间限制:2.0s 内存限制:512.0MB 提交此题查看参考代码采油区域 Siruseri政府决定将石油资源丰富的Navalur省的土地拍卖给私人承包商以建立油井.被拍卖的整 ...
Java实现蓝桥杯VIP 算法提高多项式输出
算法提高多项式输出时间限制:1.0s 内存限制:512.0MB 问题描述一元n 次多项式可用如下的表达式表示: f(x)=a[n]xn+a[n-1]x(n-1)+-+a[1]x+a[0], a[ ...
java实现扑克牌移动
/* 下面代码模拟了一套扑克牌(初始排序 A~K,共 13 张)的操作过程. 操作过程是: 手里拿着这套扑克牌,从前面拿一张放在后面,再从前面拿一张放桌子上,再从前面拿一张放在后面,.... 如此循环 ...
C++实现车轮轨迹
标题:车轮轴迹栋栋每天骑自行车回家需要经过一条狭长的林荫道.道路由于年久失修,变得非常不平整.虽然栋栋每次都很颠簸,但他仍把骑车经过林荫道当成一种乐趣. 由于颠簸,栋栋骑车回家的路径是一条上下起伏的 ...
Linux fdisk手动分区
查询系统中可以被识别的硬盘:fdisk -l 可以看到,我的服务器只有一块硬盘,容量是53.7GB,有1个分区,文件系统类型是Linux,Id 是83(82是Linux swap分区,相当于Windo ...
温故知新-Mysql索引结构&页&聚集索引&非聚集索
文章目录摘要索引索引概述索引优势劣势索引结构 BTREE 结构 B+TREE 结构页索引分类索引语法索引设计原则聚触索引 & 非聚触索引你的鼓励也是我创作的动力 Post ...
【转载】图解NumPy
目录 1. 读写文件 2. 内建向量/矩阵 3. 切片操作 4. 聚合函数 4.1. 向量 4.2. 矩阵 5. 矩阵的转置和重构 6. 常用操作API 7. 应用实例 7.1. 生成向量.矩阵 7. ...
Spring Cloud Alibaba系列（四）使用gateway作为服务网关
什么是网关在微服务架构里,服务的粒度被进一步细分,各个业务服务可以被独立的设计.开发.测试.部署和管理.这时,各个独立部署单元可以用不同的开发测试团队维护,可以使用不同的编程语言和技术平台进行设计, ...
国外一教授坦言，用这方法能迅速成为python程序员，但都不愿意说_编程小十
越来越多的人学习python,但你学习python用了多长的时间?#Python# 你知道如何才能迅速掌握并成为python程序员吗? 有这样的一位国外的教授说,要迅速成为python程序员,几乎 ...
C# 什么是泛型？以及对泛型各方面的一些知识点的整理
1.1 理解什么是泛型在.NET 2.0,可以成为革命性壮举的, 就是引入了激动人心的特性——泛型..NET泛型是CLR和高级语言共同支持的一种全新的结构,实现了一种将类型抽象化的通用处理方式.在泛 ...

使用selenium抓取淘宝信息并存储mongodb

使用selenium抓取淘宝信息并存储mongodb的更多相关文章

随机推荐

热门专题