去年写的一个小功能,一年过得好快,好快!

目的:爬取京东商品详情页面的内容(商品名称、价格、评价数量)后存储到xls文档中,方便商家分析自己商品的动态。

软件:chrome(windows)、chromedriver.exe、phantomjs.exe 、anaconda、pycharm

实现:用selenium自动化工具实现内容抓取,模拟谷歌浏览器打开url,内容展示在浏览器后(js动态内容展示) 定位到各个文本和按钮的位置,然后抓取内容和模拟人工点击按钮继续操作浏览器来展示动态的内容(滚动页面,点击“下一页”等按钮),最后写入excel中。

打包发布:整个程序需要python环境,这样不方便客户使用,最终打包成双击可运行的win程序,不用安装任何编译工具,方便妹子使用。

目前的问题:多线程没有实现,不晓得哪里的问题,求指导!!!

代码连接

chromedriver版本问题

Selenium 是什么?

ping监控网络状况

py2exe--打包成双击可用的程序

运行日志

D:\python\app\anaconda2\python.exe D:/python/workspace/京东爬虫.py
--
发现URL文件,准备开始爬虫
-- :: ############# 一共 条数据要爬虫 #############
http://item.jd.com/712579.html ############# 努力加载链接中,请耐心等待 #############
debugprint@@@ 打印url
False RETURN_CODE
############# 网页已经被打开,耗时:5秒 #############
debugprint@@@ scrolldown1
debugprint@@@ 准备开始滚动500
debugprint@@@ 已向下滚动500
debugprint@@@ scrolldown2
debugprint@@@ start find name btn
############# 1名称: #############
浪琴(Longines)瑞士手表 瑰丽系列机械男表L4.821.4.11.6
debugprint@@@ start getprice
############# 1价格: #############
7599.00
商品评价(+)
好评度: %
############# 多线程开始 #############
############# MyThread_totalcom线程开始 #############
全部评价(+):
############# 多线程结束 #############
晒图():
好评(+):
中评(+):
差评(+):
test111111111
############# 准备插入第 条数据,一共:8列 #############
############# 写入如下数据 #############
链接 http://item.jd.com/712579.html
名称 浪琴(Longines)瑞士手表 瑰丽系列机械男表L4.821.4.11.6
价格 7599.00
晒图
好评
中评
差评
全部评价
############# 该条数据写入完成耗时:7秒,还剩3条数据待分析,即将开始下一个链接的抓取!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! #############
https://item.jd.com/7275691.html ############# 努力加载链接中,请耐心等待 #############
debugprint@@@ 打印url
False RETURN_CODE
############# 网页已经被打开,耗时:4秒 #############
debugprint@@@ scrolldown1
debugprint@@@ 准备开始滚动500
debugprint@@@ 已向下滚动500
debugprint@@@ scrolldown2
debugprint@@@ start find name btn
############# 1名称: #############
荣耀 MagicBook 14英寸超轻薄窄边框笔记本电脑(i7-8550U 8G 256G MX150 2G独显 指纹识别 正版Office)冰河银
debugprint@@@ start getprice
############# 3价格: #############
5698.00
############# 无法获取xpath如下 #############
//*[@id="detail"]/div[1]/ul/li[5]
商品评价(+)
好评度: %
############# 多线程开始 #############
############# MyThread_totalcom线程开始 #############
全部评价(+):
############# 多线程结束 #############
晒图():
好评(+):
中评():
差评():
test111111111
############# 准备插入第 条数据,一共:8列 #############
############# 写入如下数据 #############
链接 https://item.jd.com/7275691.html
名称 荣耀 MagicBook 14英寸超轻薄窄边框笔记本电脑(i7-8550U 8G 256G MX150 2G独显 指纹识别 正版Office)冰河银
价格 5698.00
晒图
好评
中评
差评
全部评价
############# 该条数据写入完成耗时:26秒,还剩2条数据待分析,即将开始下一个链接的抓取!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! #############
http://www.qq.com ############# 努力加载链接中,请耐心等待 #############
debugprint@@@ 打印url
RETURN_CODE
############# 页面被跳转 #############
test111111111
############# 准备插入第 条数据,一共:8列 #############
############# 写入如下数据 #############
链接 http://www.qq.com
名称 !!页面被跳转
价格
晒图
好评
中评
差评
全部评价
############# 该条数据写入完成耗时:0秒,还剩1条数据待分析,即将开始下一个链接的抓取!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! #############
https://item.jd.com/3347170.html
############# 努力加载链接中,请耐心等待 #############
debugprint@@@ 打印url
False RETURN_CODE
############# 网页已经被打开,耗时:2秒 #############
debugprint@@@ scrolldown1
debugprint@@@ 准备开始滚动500
debugprint@@@ 已向下滚动500
debugprint@@@ scrolldown2
debugprint@@@ start find name btn
############# 1名称: #############
南极人(NanJiren)套件 全棉纯棉双人四件套 1.8/.0米床 被套220*240cm 抹茶花
debugprint@@@ start getprice
############# 1价格: #############
268.00
商品评价(+)
好评度: %
############# 多线程开始 #############
############# MyThread_totalcom线程开始 #############
全部评价(+):
############# 多线程结束 #############
晒图():
好评(+):
中评(+):
差评(+):
test111111111
############# 准备插入第 条数据,一共:8列 #############
############# 写入如下数据 #############
链接 https://item.jd.com/3347170.html
名称 南极人(NanJiren)套件 全棉纯棉双人四件套 1.8/.0米床 被套220*240cm 抹茶花
价格 268.00
晒图
好评
中评
差评
全部评价
############# 该条数据写入完成耗时:3秒,还剩0条数据待分析,即将开始下一个链接的抓取!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! #############
############# @@@@@$$$$$$$$@@@@@ 所有代码正常运行 无报错 @@@@@@@@@@@$$$$$$$$$$$$$$$@@@@@@@@@@@@@@@@ #############
############# 整个爬虫一共耗时:38秒,单条链接平均爬虫耗时:.5秒 #############
############# sleep 10s后关闭浏览器 #############

我的第一个爬虫【python selenium】的更多相关文章

  1. 第一节:Python+Selenium环境搭建

    一.selenium工作原理 二.安装python Window系统下,python的安装很简单.访问python.org/download,下载最新版本,安装过程与其他windows软件类似.记得下 ...

  2. Python爬虫之selenium的使用(八)

    Python爬虫之selenium的使用 一.简介 二.安装 三.使用 一.简介 Selenium 是自动化测试工具.它支持各种浏览器,包括 Chrome,Safari,Firefox 等主流界面式浏 ...

  3. 使用Python + Selenium打造浏览器爬虫

    Selenium 是一款强大的基于浏览器的开源自动化测试工具,最初由 Jason Huggins 于 2004 年在 ThoughtWorks 发起,它提供了一套简单易用的 API,模拟浏览器的各种操 ...

  4. Python爬虫之selenium高级功能

    Python爬虫之selenium高级功能 原文地址 表单操作 元素拖拽 页面切换 弹窗处理 表单操作 表单里面会有文本框.密码框.下拉框.登陆框等. 这些涉及与页面的交互,比如输入.删除.点击等. ...

  5. Python爬虫之selenium库使用详解

    Python爬虫之selenium库使用详解 本章内容如下: 什么是Selenium selenium基本使用 声明浏览器对象 访问页面 查找元素 多个元素查找 元素交互操作 交互动作 执行JavaS ...

  6. Python项目之我的第一个爬虫----爬取豆瓣图书网,统计图书数量

    今天,花了一个晚上的时间边学边做,搞出了我的第一个爬虫.学习Python有两个月了,期间断断续续,但是始终放弃,今天搞了一个小项目,有种丰收的喜悦.废话不说了,直接附上我的全部代码. # -*- co ...

  7. python爬虫__第一个爬虫程序

    前言 机缘巧合,最近在学习机器学习实战, 本来要用python来做实验和开发环境 得到一个需求,要爬取大众点评中的一些商户信息, 于是开启了我的第一个爬虫的编写,里面有好多心酸,主要是第一次. 我的文 ...

  8. Python爬虫小白---(二)爬虫基础--Selenium PhantomJS

    一.前言   前段时间尝试爬取了网易云音乐的歌曲,这次打算爬取QQ音乐的歌曲信息.网易云音乐歌曲列表是通过iframe展示的,可以借助Selenium获取到iframe的页面元素, 而QQ音乐采用的是 ...

  9. [Python爬虫]使用Selenium操作浏览器订购火车票

    这个专题主要说的是Python在爬虫方面的应用,包括爬取和处理部分 [Python爬虫]使用Python爬取动态网页-腾讯动漫(Selenium) [Python爬虫]使用Python爬取静态网页-斗 ...

  10. Python 爬虫利器 Selenium 介绍

    Python 爬虫利器 Selenium 介绍 转 https://mp.weixin.qq.com/s/YJGjZkUejEos_yJ1ukp5kw 前面几节,我们学习了用 requests 构造页 ...

随机推荐

  1. python笔记14

    今日内容 带参数的装饰器: flask框架 + django缓存 + 写装饰器实现被装饰的函数要执行N次 模块 os sys time(三种类型) datetime 和 timezone[了解] 内容 ...

  2. Python - 代码片段,Snippets,Gist

    说明 代码片段来自网上搬运的或者自己写的 华氏温度转摄氏温度 f = float(input('请输入华氏温度: ')) c = (f - 32) / 1.8 print('%.1f华氏度 = %.1 ...

  3. Python压缩文件/文件夹

    [Python压缩文件夹]导入“zipfile”模块 def zip_ya(startdir,file_news): startdir = ".\\123" #要压缩的文件夹路径 ...

  4. git合并分支到主干

    1.从当前分支切换主干 git checkout master 2.更新主干内容到本地 git pull 4.提交分支,并将分支merge到主干 git merge dev 5: i键后输入备注  输 ...

  5. 笔记-python-standard library-8.3.collections

    笔记-python-standard library-8.3.collections 1.      collections简介 Source code: Lib/collections/__init ...

  6. python 基础之简单购物车小程序实现

    购物车 all_list = [ ('mac',9000), ('kindle',900), ('tesla',800), ('python',105), ('bile',2000), ] savin ...

  7. B: 最小代价

    B: 最小代价 题解:先用最小生成树求联通所有点的最小代价ans 在求度为1的时候权值最大的点mx ans-mx就是答案 #include<iostream> #include<al ...

  8. Python数据类型-1 数据类型介绍

    数据类型 在python这门语言中,数据类型分为两种. 内置的和自定义的. 内置的包括数字.字符串.布尔.列表.元组.字典.Bytes.集合这些常用的以及一些不太常用的数据类型.而自定义的,一般以类的 ...

  9. ISAP 算法

    Dinic 算法其实已经足够处理大多数的网络流了,但还不够快.接下来介绍的是最优秀的增广路最大流算法:ISAP(Improve Shortest Argumenting Path).它的时间复杂度上界 ...

  10. 七 MyBatis整合Spring,DAO开发(传统DAO&动态代理DAO)

    整合思路: 1.SQLSessionFactory对象应该放到Spring中作为单例存在 2.传统dao开发方式中,应该从Spring容器中获得SqlSession对象 3.Mapper代理行驶中,应 ...