selenium实现淘宝的商品爬取
一、问题
本次利用selenium自动化测试,完成对淘宝的爬取,这样可以避免一些反爬的措施,也是一种爬虫常用的手段。本次实战的难点:
1.如何利用selenium绕过淘宝的登录界面
2.获取淘宝的页面内容实现翻页,并判断是否翻页成功。
3.获取每一页的信息,实现数据的抓取工作。
4.环境python3.6,对应的Chrome的webdriver驱动网址:http://chromedriver.storage.googleapis.com/index.html,将自己对应的webdriver放入scripts的环境内。
二、解决
1.在登录淘宝界面的时候,会弹出界面窗口,需要捕捉当前的页面,判断是否有变化。
先用self.browser【驱动名称】.current_window_handle来捕获当前的界面信息。
用self.browser【驱动名称】.switch_to_window(now_handle),来进行页面变化的判断
self.browser.get(self.url)
input_content = self.wait.until(
EC.presence_of_element_located((By.CSS_SELECTOR, '#q'))
)
submit = self.wait.until(
EC.element_to_be_clickable((By.CSS_SELECTOR, "#J_TSearchForm > div.search-button > button"))
)
now_handle = self.browser.current_window_handle
input_content.send_keys(self.key)
submit.click()
self.browser.switch_to_window(now_handle)
2.在当前页码的判断,确定是否翻页成功。
获取输入标签的值,和点击按钮,完成翻页动作,再用EC.text_to_be_present_in_element来检测是否完成了翻页的动作。
print("正在翻第{0}页".format(number))
input_content = self.wait.until(
EC.presence_of_element_located((By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > div.form > input'))
)
submit = self.wait.until(
EC.element_to_be_clickable((By.CSS_SELECTOR, "#mainsrp-pager > div > div > div > div.form > span.btn.J_Submit"))
)
input_content.clear()
input_content.send_keys(number)
submit.click()
self.wait.until(
EC.text_to_be_present_in_element((By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > ul > li.item.active > span'), str(number))
)
self.get_content()
3.利用选择器获取整个页面的内容:
利用xpath进行解析,也可以利用pyquery等一系列的解析方式进行解析。
self.wait.until(
EC.presence_of_element_located((By.CSS_SELECTOR, '#mainsrp-itemlist > div > div > div:nth-child(1)'))
)
html = self.browser.page_source
content_text = etree.HTML(html)
names = content_text.xpath('*//div[@class="pic"]/a/img/@alt')
srcs = content_text.xpath('*//div[@class="pic"]/a/img/@data-src')
totals = [(name, src) for (name, src) in zip(names, srcs)]
三、结果呈现

四、总结
本项目利用了selenium来完成数据的自动爬取,需要注意获取的数据元素,以及数据信息。
重点在于弹出页面的判断以及对翻页成功的判断,其余的内容就是一般的数据爬取的方式。淘宝实战需要对webdriver有一定的基础和了解。才可以正确获取到标签内容。
webdriver的参考文档:
https://selenium-python.readthedocs.io/api.html#module-selenium.webdriver.common.action_chains
selenium实现淘宝的商品爬取的更多相关文章
- python 简单实现淘宝关键字商品爬取
本文有2个文件 1:taobao_re_xpath 2:taobao_re_xpath_setting # 1:taobao_re_xpath # -*- coding:utf-8 -*- # aut ...
- selenium跳过webdriver检测并爬取淘宝我已购买的宝贝数据
简介 上一个博文已经讲述了如何使用selenium跳过webdriver检测并爬取天猫商品数据,所以在此不再详细讲,有需要思路的可以查看另外一篇博文. 源代码 # -*- coding: utf-8 ...
- selenium+PhantomJS 抓取淘宝搜索商品
最近项目有些需求,抓取淘宝的搜索商品,抓取的品类还多.直接用selenium+PhantomJS 抓取淘宝搜索商品,快速完成. #-*- coding:utf-8 -*-__author__ =''i ...
- 简单的抓取淘宝关键字信息、图片的Python爬虫|Python3中级玩家:淘宝天猫商品搜索爬虫自动化工具(第一篇)
Python3中级玩家:淘宝天猫商品搜索爬虫自动化工具(第一篇) 淘宝改字段,Bugfix,查看https://github.com/hunterhug/taobaoscrapy.git 由于Gith ...
- 手把手教你写电商爬虫-第四课 淘宝网商品爬虫自动JS渲染
版权声明:本文为博主原创文章,未经博主允许不得转载. 系列教程: 手把手教你写电商爬虫-第一课 找个软柿子捏捏 手把手教你写电商爬虫-第二课 实战尚妆网分页商品采集爬虫 手把手教你写电商爬虫-第三课 ...
- python爬虫-京东商品爬取
京东商品爬取 仅供学习 一.使用selenium from selenium import webdriver from selenium.webdriver.common.keys import K ...
- iOS 集成阿里百川最新版(3.1.1.96) 实现淘宝授权登录以及调用淘宝客户端商品详情页
公司最近要做第三方登录,由于是做导购项目,必不可少的有淘宝的授权登录.本来就是一个授权登录,没什么大不了的.但淘宝的无线开放业务——阿里百川更新的最新版本3.1.1.96,开发文档不是不详细,是很 ...
- 使用selenium抓取淘宝的商品信息
淘宝的页面大量使用了js加载数据,所以采用selenium来进行爬取更为简单,selenum作为一个测试工具,主要配合无窗口浏览器phantomjs来使用. import re from seleni ...
- 使用Python 爬取 京东 ,淘宝。 商品详情页的数据。(避开了反爬虫机制)
以下是爬取京东商品详情的Python3代码,以excel存放链接的方式批量爬取.excel如下 代码如下 from selenium import webdriver from lxml import ...
随机推荐
- ZooKeeper和CAP理论及一致性原则
一.CAP理论概述CAP理论告诉我们,一个分布式系统不可能同时满足以下三种 一致性(C:Consistency)可用性(A:Available)分区容错性(P:Partition Tolerance) ...
- The perception and large margin classifiers
假设样例按照到来的先后顺序依次定义为.为样本特征,为类别标签.任务是到来一个样例,给出其类别结果的预测值,之后我们会看到真实值,然后根据真实值来重新调整模型参数,整个过程是重复迭代的过程,直到所有的样 ...
- 实验五:Xen环境下多虚拟机的桥接配置
实验名称: Xen环境下多虚拟机的桥接配置 实验环境: 这里我们首先需要有一台已经安装好的虚拟机机,能够正常运行,且网卡正常,如下图: 实验需求: 进行虚拟机的复制,并添加新的网桥配置,然后将两台虚拟 ...
- Tomcat、TongWeb5.0、TongWeb6.0部署solr
将solr,solr-4.7.2复制到某一路径下,比如F盘根目录. 1.tomcat中进行配置,配置如下: <Context docBase="F:/solr" reload ...
- QTP - 工作原理
1.QTP的工作原理测试对象是QTP在测试或组件中创建的用于表示应用程序中的实际对象的对象,并且QuickTest在对象库中存储有关该对象的信息,包括对象的属性.操作等.录制的时候,QTP将操作过的所 ...
- css学习2
1.垂直居中 -父元素高度确定的单行文本: 设置父元素的 height 和 line-height 高度一致来实现的.(height: 该元素的高度:line-height: 行高(行间距),指在文 ...
- spring学习1
1.<context:property-placeholder/> :用于从外部属性文件中获取Bean的配置 <context:property-placeholder locati ...
- leetcode104
/** * Definition for a binary tree node. * public class TreeNode { * public int val; * public TreeNo ...
- js对象拷贝遇到的坑
问题:通过拷贝赋值后,所有的对象的name居然都是C test(){ let person = [{'name':'danny'}] let names = ['A','B','C'] let tem ...
- 深度学习原理与框架-Tfrecord数据集的制作 1.tf.train.Examples(数据转换为二进制) 3.tf.image.encode_jpeg(解码图片加码成jpeg) 4.tf.train.Coordinator(构建多线程通道) 5.threading.Thread(建立单线程) 6.tf.python_io.TFR(TFR读入器)
1. 配套使用: tf.train.Examples将数据转换为二进制,提升IO效率和方便管理 对于int类型 : tf.train.Examples(features=tf.train.Featur ...