python3[爬虫实战] 使用selenium，xpath爬取京东手机

使用selenium ，可能感觉用的并不是很深刻吧，可能是用scrapy用多了的缘故吧。不过selenium确实强大，很多反爬虫的都可以用selenium来解决掉吧。

思路：

入口：

关键字搜索入口

这里使用的Chrome 浏览器，方便能看到信息是否录入正确，
这里，我们首先找到输入框，然后填上 zuk z2 手机然后再找到搜索按钮，选中点击后，然后再找到zuk z2手机（蓝色的字体）

这样子点完之后，我们就会出现第一页的那个图片，显示的手机商品信息

这样子我们就把整个逻辑走完了，剩下的就交给代码了，里面的注释还算详细。

 # -*- coding: utf-8 -*-

 import re
 import time
 from selenium import webdriver
 import os
 from lxml import etree

 #如果没有配置chromedriver.exe的环境变量，要写完整路径
 # chromedriver = "C:\Program Files (x86)\Google\Chrome\Application\chromedriver.exe"
 chromedriver = "chromedriver.exe"
 browser = webdriver.Chrome(chromedriver)

 url = "https://www.jd.com/"
 browser.get(url)
 time.sleep(5)
 #手机号登录
 phoneLogin = browser.find_element_by_xpath('//*[@id="key"]')
 phoneLogin.send_keys('ZUK Z2手机')

 time.sleep(3)
 # 搜索
 btnNext = browser.find_element_by_xpath('//*[@id="search"]/div/div[2]/button')
 btnNext.click()

 #加上延迟时间，不然可能拿不到数据
 time.sleep(3)
 btnPhone = browser.find_element_by_xpath('//*[@id="J_searchWrap"]/div[2]/a')
 btnPhone.click()
 page = browser.page_source
 html = etree.HTML(page)

 links = html.xpath("//*[@id='J_goodsList']/ul[@class='gl-warp clearfix']")
 print('links',links)
 for link in links:
     # 通过xpath获取商品链接
     verlink = link.xpath("./li[@class='gl-item']/div[@class='gl-i-wrap']/div[@class='p-img']/a/@href")

     #通过xpath获取商品价格
     price = link.xpath("./li[@class='gl-item']/div[@class='gl-i-wrap']/div[@class='p-price']/strong")
     print(price)
     print(verlink)

 print(len(links))

这里控制台打印了一下链接信息（需求如此）：

python3[爬虫实战] 使用selenium，xpath爬取京东手机的更多相关文章

Python3爬虫：（一）爬取拉勾网公司列表
人生苦短,我用Python 爬取原因:了解一下Python工程师在北上广等大中城市的薪资水平与入职前要求. Python3基础知识 requests,pyquery,openpyxl库的使用爬取前的 ...
selenium+phantomjs爬取京东商品信息
selenium+phantomjs爬取京东商品信息今天自己实战写了个爬取京东商品信息,和上一篇的思路一样,附上链接:https://www.cnblogs.com/cany/p/10897618. ...
Java实现爬取京东手机数据
Java实现爬取京东手机数据最近看了某马的Java爬虫视频,看完后自己上手操作了下,基本达到了爬数据的要求,HTML页面源码也刚好复习了下,之前发布两篇关于简单爬虫的文章,也刚好用得上.项目没什么太 ...
爬虫实战(二) 用Python爬取网易云歌单
最近,博主喜欢上了听歌,但是又苦于找不到好音乐,于是就打算到网易云的歌单中逛逛本着 "用技术改变生活" 的想法,于是便想着写一个爬虫爬取网易云的歌单,并按播放量自动进行排序这篇 ...
Python3爬虫系列：理论+实验+爬取妹子图实战
Github: https://github.com/wangy8961/python3-concurrency-pics-02 ,欢迎star 爬虫系列: (1) 理论 Python3爬虫系列01 ...
爬虫实战(三) 用Python爬取拉勾网
目录 0.前言 1.初始化 2.爬取数据 3.保存数据 4.数据可视化 5.大功告成 0.前言最近,博主面临着选方向的困难(唉,选择困难症患者 >﹏<),所以希望了解一下目前不同岗位的就 ...
python+selenium+xpath 爬取天眼查工商基本信息
# -*- coding:utf-8 -*-# author: kevin# CreateTime: 2018/8/16# software-version: python 3.7 import ti ...
爬虫实战(一) 用Python爬取百度百科
最近博主遇到这样一个需求:当用户输入一个词语时,返回这个词语的解释我的第一个想法是做一个数据库,把常用的词语和词语的解释放到数据库里面,当用户查询时直接读取数据库结果但是自己又没有心思做这样一个数 ...
Python 爬虫-爬取京东手机页面的图片
具体代码如下: __author__ = 'Fred Zhao' import requests from bs4 import BeautifulSoup import os from urllib ...

随机推荐

Spring的声明式事务管理
在service类前加上@Transactional,声明这个service所有方法需要事务管理.每一个业务方法开始时都会打开一个事务. Spring默认情况下会对运行期例外(RunTimeExcep ...
OpenCV——RGB三通道分离
opencv 和 matlab 在处理彩色图像的时候,通道的存储顺序是不同的. matlab 的排列顺序是R,G,B: 而在opencv中,排列顺序是B,G,R. 下面通过一个小程序看看opencv中 ...
面试之路（8）-BAT面试题之数组和链表的区别
两种数据结构都是线性表,在排序和查找等算法中都有广泛的应用各自的特点: 数组: 数组是将元素在内存中连续存放,由于每个元素占用内存相同,可以通过下标迅速访问数组中任何元素.但是如果要在数组中增加一个 ...
关于java和c++中布尔量的比较
在c++中允许 bool 量和 int 整形常量相互转换,并且用cout<<true; 在控制台上可以输出为 1 int main(int argc, _TCHAR* argv[]) { ...
IoC和DI的基本概念的思维导图
最近在学习Spring开发,IoC这个概念让我有点儿迷糊,控制反转这四个字是在是无法做到望文生义,于是乎就找了一些材料来学习,研究了半天,绘制了下面这幅思维导图.仅供参考!
miniUI Grid添加汇总行，Grid绑定数据，IDEA免编译设置
坑1: 2017-6-5周二,上午解决了昨天摸索一下午的问题,使用miniui显示汇总行数据,要点有这么几个在创建Grid div的时候一定要加上以下两个属性: //显示汇总行开关 showSumm ...
Activiti初学问题，求解
<userTask id="writeReportTask" name="Write monthly financial report" > < ...
macOS High Sierra Terminal巨卡问题的解决
输入命令特别卡,拖拽窗口也特别卡,想到可能和界面渲染有关系,到设置里面把不透明度调成满值,问题解决. 真正的技术原因是看iOS开发相关的书的时候,书里面有这方面渲染消耗的提示说明.
OAuth 2.0中文译本
(一)背景知识 OAuth 2.0很可能是下一代的“用户验证和授权”标准,目前在国内还没有很靠谱的技术资料.为了弘扬“开放精神”,让业内的人更容易理解“开放平台”相关技术,进而长远地促进国内开放平台领 ...
七个人生工具：SWOT、PDCA、6W2H、SMART、WBS、时间管理、二八原则
本文为转载心理导读:今天为大家分享几个实用的工具,来源网络. SWOT分析法 Strengths:优势 Weaknesses:劣势 Opportunities:机会 Threats:威胁意义:帮您 ...

python3[爬虫实战] 使用selenium，xpath爬取京东手机

思路：

python3[爬虫实战] 使用selenium，xpath爬取京东手机的更多相关文章

随机推荐

热门专题