去年写的一个小功能，一年过得好快，好快！

目的：爬取京东商品详情页面的内容（商品名称、价格、评价数量）后存储到xls文档中，方便商家分析自己商品的动态。

软件：chrome（windows）、chromedriver.exe、phantomjs.exe 、anaconda、pycharm

实现：用selenium自动化工具实现内容抓取，模拟谷歌浏览器打开url，内容展示在浏览器后（js动态内容展示）定位到各个文本和按钮的位置，然后抓取内容和模拟人工点击按钮继续操作浏览器来展示动态的内容（滚动页面，点击“下一页”等按钮），最后写入excel中。

打包发布：整个程序需要python环境，这样不方便客户使用，最终打包成双击可运行的win程序，不用安装任何编译工具，方便妹子使用。

目前的问题:多线程没有实现，不晓得哪里的问题，求指导！！！

代码连接

chromedriver版本问题

Selenium 是什么？

ping监控网络状况

py2exe--打包成双击可用的程序

运行日志

D:\python\app\anaconda2\python.exe D:/python/workspace/京东爬虫.py

--

发现URL文件，准备开始爬虫

-- ::

#############   一共  条数据要爬虫   #############

http://item.jd.com/712579.html

#############   努力加载链接中，请耐心等待   #############

 debugprint@@@   打印url

False RETURN_CODE

#############   网页已经被打开，耗时：5秒   #############

 debugprint@@@   scrolldown1

 debugprint@@@   准备开始滚动500

 debugprint@@@   已向下滚动500

 debugprint@@@   scrolldown2

 debugprint@@@   start find name btn

#############   1名称：   #############

浪琴(Longines)瑞士手表 瑰丽系列机械男表L4.821.4.11.6

 debugprint@@@   start getprice

#############   1价格：   #############

7599.00

商品评价(+)

好评度： %

#############   多线程开始   #############

#############   MyThread_totalcom线程开始   #############

全部评价(+):

#############   多线程结束   #############

晒图():

好评(+):

中评(+):

差评(+):

test111111111

#############   准备插入第  条数据,一共：8列   #############

#############   写入如下数据   #############

链接 http://item.jd.com/712579.html

名称 浪琴(Longines)瑞士手表 瑰丽系列机械男表L4.821.4.11.6

价格 7599.00

晒图

好评

中评

差评

全部评价

#############   该条数据写入完成耗时：7秒，还剩3条数据待分析，即将开始下一个链接的抓取！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！   #############

https://item.jd.com/7275691.html

#############   努力加载链接中，请耐心等待   #############

 debugprint@@@   打印url

False RETURN_CODE

#############   网页已经被打开，耗时：4秒   #############

 debugprint@@@   scrolldown1

 debugprint@@@   准备开始滚动500

 debugprint@@@   已向下滚动500

 debugprint@@@   scrolldown2

 debugprint@@@   start find name btn

#############   1名称：   #############

荣耀 MagicBook 14英寸超轻薄窄边框笔记本电脑(i7-8550U 8G 256G MX150 2G独显 指纹识别 正版Office)冰河银

 debugprint@@@   start getprice

#############   3价格：   #############

5698.00

#############   无法获取xpath如下   #############

//*[@id="detail"]/div[1]/ul/li[5]

商品评价(+)

好评度： %

#############   多线程开始   #############

#############   MyThread_totalcom线程开始   #############

全部评价(+):

#############   多线程结束   #############

晒图():

好评(+):

中评():

差评():

test111111111

#############   准备插入第  条数据,一共：8列   #############

#############   写入如下数据   #############

链接 https://item.jd.com/7275691.html

名称 荣耀 MagicBook 14英寸超轻薄窄边框笔记本电脑(i7-8550U 8G 256G MX150 2G独显 指纹识别 正版Office)冰河银

价格 5698.00

晒图

好评

中评

差评

全部评价

#############   该条数据写入完成耗时：26秒，还剩2条数据待分析，即将开始下一个链接的抓取！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！   #############

http://www.qq.com

#############   努力加载链接中，请耐心等待   #############

 debugprint@@@   打印url

 RETURN_CODE

#############   页面被跳转   #############

test111111111

#############   准备插入第  条数据,一共：8列   #############

#############   写入如下数据   #############

链接 http://www.qq.com

名称 !!页面被跳转

价格

晒图

好评

中评

差评

全部评价

#############   该条数据写入完成耗时：0秒，还剩1条数据待分析，即将开始下一个链接的抓取！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！   #############

https://item.jd.com/3347170.html

#############   努力加载链接中，请耐心等待   #############

 debugprint@@@   打印url

False RETURN_CODE

#############   网页已经被打开，耗时：2秒   #############

 debugprint@@@   scrolldown1

 debugprint@@@   准备开始滚动500

 debugprint@@@   已向下滚动500

 debugprint@@@   scrolldown2

 debugprint@@@   start find name btn

#############   1名称：   #############

南极人（NanJiren）套件 全棉纯棉双人四件套 1.8/.0米床 被套220*240cm 抹茶花

 debugprint@@@   start getprice

#############   1价格：   #############

268.00

商品评价(+)

好评度： %

#############   多线程开始   #############

#############   MyThread_totalcom线程开始   #############

全部评价(+):

#############   多线程结束   #############

晒图():

好评(+):

中评(+):

差评(+):

test111111111

#############   准备插入第  条数据,一共：8列   #############

#############   写入如下数据   #############

链接 https://item.jd.com/3347170.html

名称 南极人（NanJiren）套件 全棉纯棉双人四件套 1.8/.0米床 被套220*240cm 抹茶花

价格 268.00

晒图

好评

中评

差评

全部评价

#############   该条数据写入完成耗时：3秒，还剩0条数据待分析，即将开始下一个链接的抓取！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！   #############

#############   @@@@@$$$$$$$$@@@@@            所有代码正常运行 无报错          @@@@@@@@@@@$$$$$$$$$$$$$$$@@@@@@@@@@@@@@@@   #############

#############   整个爬虫一共耗时：38秒,单条链接平均爬虫耗时:.5秒   #############

#############   sleep 10s后关闭浏览器   #############

我的第一个爬虫【python selenium】的更多相关文章

第一节：Python+Selenium环境搭建
一.selenium工作原理二.安装python Window系统下,python的安装很简单.访问python.org/download,下载最新版本,安装过程与其他windows软件类似.记得下 ...
Python爬虫之selenium的使用（八）
Python爬虫之selenium的使用一.简介二.安装三.使用一.简介 Selenium 是自动化测试工具.它支持各种浏览器,包括 Chrome,Safari,Firefox 等主流界面式浏 ...
使用Python + Selenium打造浏览器爬虫
Selenium 是一款强大的基于浏览器的开源自动化测试工具,最初由 Jason Huggins 于 2004 年在 ThoughtWorks 发起,它提供了一套简单易用的 API,模拟浏览器的各种操 ...
Python爬虫之selenium高级功能
Python爬虫之selenium高级功能原文地址表单操作元素拖拽页面切换弹窗处理表单操作表单里面会有文本框.密码框.下拉框.登陆框等. 这些涉及与页面的交互,比如输入.删除.点击等. ...
Python爬虫之selenium库使用详解
Python爬虫之selenium库使用详解本章内容如下: 什么是Selenium selenium基本使用声明浏览器对象访问页面查找元素多个元素查找元素交互操作交互动作执行JavaS ...
Python项目之我的第一个爬虫----爬取豆瓣图书网，统计图书数量
今天,花了一个晚上的时间边学边做,搞出了我的第一个爬虫.学习Python有两个月了,期间断断续续,但是始终放弃,今天搞了一个小项目,有种丰收的喜悦.废话不说了,直接附上我的全部代码. # -*- co ...
python爬虫__第一个爬虫程序
前言机缘巧合,最近在学习机器学习实战, 本来要用python来做实验和开发环境得到一个需求,要爬取大众点评中的一些商户信息, 于是开启了我的第一个爬虫的编写,里面有好多心酸,主要是第一次. 我的文 ...
Python爬虫小白---（二）爬虫基础--Selenium PhantomJS
一.前言前段时间尝试爬取了网易云音乐的歌曲,这次打算爬取QQ音乐的歌曲信息.网易云音乐歌曲列表是通过iframe展示的,可以借助Selenium获取到iframe的页面元素, 而QQ音乐采用的是 ...
[Python爬虫]使用Selenium操作浏览器订购火车票
这个专题主要说的是Python在爬虫方面的应用,包括爬取和处理部分 [Python爬虫]使用Python爬取动态网页-腾讯动漫(Selenium) [Python爬虫]使用Python爬取静态网页-斗 ...
Python 爬虫利器 Selenium 介绍
Python 爬虫利器 Selenium 介绍转 https://mp.weixin.qq.com/s/YJGjZkUejEos_yJ1ukp5kw 前面几节,我们学习了用 requests 构造页 ...

随机推荐

创建SSH keys用于添加到Git服务器上
SSH keys SSH key 可以让你在你的电脑和Git服务器之间建立安全的加密连接.先执行以下语句来判断是否已经存在本地公钥: cat ~/.ssh/id_rsa.pub 如果你看到一长串以 s ...
【PAT甲级】1008 Elevator (20 分)
题意: 电梯初始状态停在第0层,给出电梯要接人的层数和层序号,计算接到所有人需要的时间,接完人后电梯无需回到1层(1层不是0层).电梯上升一层需要6秒,下降一层需要4秒,接人停留时间为5秒. AAAA ...
treap（堆树）
# 2018-09-27 17:35:58 我实现的这个treap不能算是堆.有问题最近对堆这种结构有点感兴趣,然后想用指针的方式实现一个堆而不是利用数组这种结构,于是自己想到了一个用二叉树结构实现 ...
Centos7 设置自定义安装nginx的systemctl启动方式
一.systemctl方式启动设置过程 1.首先创建服务配置文件(名字和路径就是这个) vim /usr/lib/systemd/system/nginx.service 2.添加配置内容 [Unit ...
无线冲方案 WPC Qi v1.2.4 update
参考: 1. Qi标准v1.2.4最新版 2. Qi Baseline Power Profile (BPP) and Extended Power Profile (EPP) Wireless Ch ...
phpcms安装与使用
安装完wamp(或phpstudy)之后,将phpcms的安装文件复制入C:\wamp\www(或C:\phpStudy\PHPTutorial\WWW)文件夹下: 打开phpcms_v9_UTF8\ ...
《iOS设计模式解析》书籍目录
1.你好,设计模式 2.案例分析:设计一个应用程序 3.原型 4.工厂方法 5.抽象工厂 6.生成器 7.单例 8.适配器 9.桥接 10.外观 11.中介者 12.观察者 13.组合 14.迭代器 ...
SLT学习——leafes tree扩展【文艺平衡树】
这是一个全新的数据结构 md,别看这篇文章了,这篇已经废了. 百折不饶,再交一次,更新复杂度证明这里是HYF,蒟蒻一只,最近因某些原因开始学数据结构了,然后就写了这篇题解. 下面给大家介绍一个全新的 ...
Codeforces 1196D2 RGB Substring (Hard version) 题解
题面 \(q\) 个询问,每个询问给出一个字符串 \(s\),要你在 \(s\) 中用最小替换得到无穷字符串 RGBRGBRGB... 的长度为定值 \(k\) 的子串. 题解一眼看过去可能是编辑距 ...
python中metaclass的工作原理
class TMetaclass(type): def __new__(cls, name, bases, attrs): print(cls, name, bases, attrs) return ...

我的第一个爬虫【python selenium】

chromedriver版本问题

我的第一个爬虫【python selenium】的更多相关文章

随机推荐

热门专题