selenium五十行代码自动化爬取淘宝

先看一下代码，真的只是五十行：

 # coding=gbk

 from selenium import webdriver

 import time

 options = webdriver.ChromeOptions()

 options.add_argument(r'--user-data-dir=C:\Users\lwy\AppData\Local\Google\Chrome\User Data\Default')

 options.add_experimental_option('excludeSwitches', ['enable-automation'])

 driver = webdriver.Chrome(options=options)

 driver.get('https://www.taobao.com/')

 headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36',

            'Referer': 'https://www.taobao.com/'}

 def request_page():

     driver.find_element_by_xpath('//*[@id="q"]').send_keys('男装')

     time.sleep(3)

     driver.find_element_by_xpath('//*[@id="J_TSearchForm"]/div[1]/button').click()

     time.sleep(5)

     # 控制页数

     for i in range(5):

         # 获取每页存放所有商品的div

         all_thing_div = driver.find_element_by_xpath('//*[@id="mainsrp-itemlist"]/div/div/div[1]')

         # 获取每个商品的div列表

         thing_div_list = all_thing_div.find_elements_by_xpath('./div')

         # 依次获取每个商品的信息

         for thing_div in thing_div_list:

             info_div_list = thing_div.find_element_by_css_selector('.ctx-box').find_elements_by_xpath(

                 './div')  # 获取每个商品下面信息的4个div

             price = info_div_list[0].find_element_by_xpath('./div[1]/strong').text  # 单价

             customer = info_div_list[0].find_element_by_xpath('./div[@class="deal-cnt"]').text  # 购买数量

             thing_name = info_div_list[1].find_element_by_xpath('./a').text

             thing_lianjie = info_div_list[1].find_element_by_xpath('./a').get_attribute('href')

             store_name = info_div_list[2].find_element_by_xpath('./div[1]/a/span[2]').text

             store_where = info_div_list[2].find_element_by_xpath('./div[2]').text

             print("单价：", price, "购买数量：", customer, '商品名称:', thing_name, '店铺名称：', store_name, '店铺所在地', store_where,

                   '链接:', thing_lianjie)

         print('第{0}页爬取完成'.format(i+1))

         if i+1 == 5:

             break

         driver.find_element_by_xpath('//*[@id="mainsrp-pager"]/div/div/div/ul/li[8]/a/span[1]').click()

         time.sleep(10)

 if __name__ == '__main__':

     request_page()

     driver.close()

第七行用来加载chrome的配置文件，需要改成自己的路径，可以再chrome的地址栏里输入chrome://version查看，第八行用来绕过淘宝对selenium的检测，request_page是自定义的爬虫函数，主要是利用xpath语法，真的不要太方便，第一个for循环用来控制爬取的页数，第二个for循环用来爬取每一个商品。

（ps：还是正在努力的小菜鸡，希望大佬执教，，xixiiixi。。。。）

**********不积跬步无以至千里**********

selenium五十行代码自动化爬取淘宝的更多相关文章

Selenium+Chrome/phantomJS模拟浏览器爬取淘宝商品信息
#使用selenium+Carome/phantomJS模拟浏览器爬取淘宝商品信息 # 思路: # 第一步:利用selenium驱动浏览器,搜索商品信息,得到商品列表 # 第二步:分析商品页数,驱动浏 ...
学习用java基于webMagic+selenium+phantomjs实现爬虫Demo爬取淘宝搜索页面
由于业务需要,老大要我研究一下爬虫. 团队的技术栈以java为主,并且我的主语言是Java,研究时间不到一周.基于以上原因固放弃python,选择java为语言来进行开发.等之后有时间再尝试pytho ...
Python 爬取淘宝商品数据挖掘分析实战
Python 爬取淘宝商品数据挖掘分析实战项目内容本案例选择>> 商品类目:沙发: 数量:共100页 4400个商品: 筛选条件:天猫.销量从高到低.价格500元以上. 爬取淘宝商品 ...
利用Selenium爬取淘宝商品信息
一. Selenium和PhantomJS介绍 Selenium是一个用于Web应用程序测试的工具,Selenium直接运行在浏览器中,就像真正的用户在操作一样.由于这个性质,Selenium也是一 ...
python3编写网络爬虫16-使用selenium 爬取淘宝商品信息
一.使用selenium 模拟浏览器操作爬取淘宝商品信息之前我们已经成功尝试分析Ajax来抓取相关数据,但是并不是所有页面都可以通过分析Ajax来完成抓取.比如,淘宝,它的整个页面数据确实也是通过A ...
selenium跳过webdriver检测并爬取淘宝我已购买的宝贝数据
简介上一个博文已经讲述了如何使用selenium跳过webdriver检测并爬取天猫商品数据,所以在此不再详细讲,有需要思路的可以查看另外一篇博文. 源代码 # -*- coding: utf-8 ...
使用Python爬取淘宝两千款套套
各位同学们,好久没写原创技术文章了,最近有些忙,所以进度很慢,给大家道个歉. 警告:本教程仅用作学习交流,请勿用作商业盈利,违者后果自负!如本文有侵犯任何组织集团公司的隐私或利益,请告知联系猪哥删除! ...
甜咸粽子党大战，Python爬取淘宝上的粽子数据并进行分析
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 爬虫爬取淘宝数据,本次采用的方法是:Selenium控制Chrome浏览 ...
利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇，超详细教程
项目内容本案例选择>> 商品类目:沙发: 数量:共100页 4400个商品: 筛选条件:天猫.销量从高到低.价格500元以上. 项目目的 1. 对商品标题进行文本分析词云可视化 2. ...

随机推荐

Error 1327 Invalid Drive 的解决办法
出现场景: 当我在安装STM32公司的 STM32 ST-LINK Utility v4.5.0 软件时,弹出了这个错误.弹框的内容大体是说找不到D盘,这里忘记截图了. 我的电脑的硬盘是我另一 ...
Bert镜像制作及flask生产环境模式启动
一天搞定两大技术点,成就满满. 一,dockerfile FROM harbor.xxx.com.cn/3rd_part/tensorflow:1.14.0-gpu-py3-jupyter LABEL ...
Educational Codeforces Round 76 (Rated for Div. 2) B. Magic Stick 水题
B. Magic Stick Recently Petya walked in the forest and found a magic stick. Since Petya really likes ...
Python程序中的线程操作-守护线程
目录一.守护线程 1.1 详细解释 1.2 守护线程例1 1.3 守护线程例2 一.守护线程无论是进程还是线程,都遵循:守护xx会等待主xx运行完毕后被销毁.需要强调的是:运行完毕并非终止运行. ...
python--8大排序（原理+代码）
常用的排序方法:冒泡排序.选择排序.插入排序.快速排序.堆排序.归并排序冒泡排序(Bubble Sort): 比较相邻的元素.如果第一个比第二个大(升序),就交换他们两个. 对每一对相邻元素作同样的 ...
蓝牙Inquriy 过程详解
问题今天遇到了一个问题,就是自己的耳机产品,手机经常搜不到,从日志里面查看,发现原因是平时手机蓝牙发送的是inquiry mode =2 出问题的时候,inquiry mode =1 由于本设备很多 ...
详解JAVA8Stream 方法引用(基础){全}
1: Stream流 1.1 引言 1.2 流式思想概述 1.3 获取流 1.4 常用方法 1.5 练习:集合元素处理 2:方法引用 2.1 冗余的Lambda场景 2.2 方法引用符 2.3 通过对 ...
tensorflow查看使用的是cpu还是gpu
https://stackoverflow.com/questions/38009682/how-to-tell-if-tensorflow-is-using-gpu-acceleration-fro ...
DedeCMS V5.7 SP2后台代码执行漏洞复现(CNVD-2018-01221)
dedeCMS V5.7 SP2后台代码执行漏洞复现(CNVD-2018-01221) 一.漏洞描述织梦内容管理系统(Dedecms)是一款PHP开源网站管理系统.Dedecms V5.7 SP2 ...
新增SAP到OA接口，OA怎么更新WSDL给PI，怎么选择PI的IP地址（备忘）
1.首先定义个class. 弄完以后可以使用http://IP地址:8088/seeyon/services/sapService?wsdl 进行导出,部署在哪个服务器就用哪个服务器的IP地址 pr ...

selenium五十行代码自动化爬取淘宝

selenium五十行代码自动化爬取淘宝的更多相关文章

随机推荐

热门专题