python selenium爬虫工具
今天seo的同事需要一个简单的爬虫工具, 根据一个url地址,抓取改页面的a连接,然后进入a连接里面的页面再次抓取a连接
1.需要一个全局的set([])集合来保存抓取的url地址
2.由于现在单页面也来越多,所以我们借用selenium来抓取页面内容, 由于页面内容比较多, 我们程序需要将滚动条滚到最下面,如:driver.execute_script("return document.body.scrollHeight;")
3.需要查找页面的超链接 driver.find_elements_by_xpath("//a[@href]")
4.为了便于查看数据记录,每抓取一个地址就记录到日志中去(曾经尝试过爬网完毕后再记录,但是爬网时间太长,一旦出现异常就一条记录都没有了)
整个代码如下:
- from selenium import webdriver
- from selenium.webdriver.firefox.options import Options
- from selenium.common.exceptions import TimeoutException
- import time
- import datetime
- from urllib import parse
- import os
- urls = set([])
- def getUrl(url,host):
- driver = webdriver.Ie()
- try:
- #driver = webdriver.Firefox()
- driver.set_page_load_timeout()
- driver.get(url)
- #time.sleep()
- all_window_height = []
- all_window_height.append(driver.execute_script("return document.body.scrollHeight;"))
- while True:
- driver.execute_script("scroll(0,100000)")
- time.sleep()
- check_height = driver.execute_script("return document.body.scrollHeight;")
- if check_height == all_window_height[-]:
- print("我已下拉完毕")
- break
- else:
- all_window_height.append(check_height)
- print("我正在下拉")
- #for link in driver.find_elements_by_xpath("//*[@href]"):
- #for link in driver.find_elements_by_tag_name("a"):
- for link in driver.find_elements_by_xpath("//a[@href]"):
- try:
- tempurl1=link.get_attribute('href')
- if tempurl1.startswith("http"):
- if tempurl1 not in urls:
- urls.add(tempurl1)
- log(host,url+','+tempurl1)
- print(tempurl1)
- except:
- print(link)
- except Exception as e:
- print(e)
- finally:
- driver.quit()
- def log(name,msg):
- filename='D://'+name+'.csv'
- if not os.path.exists(filename):
- with open(filename,'w') as f:
- print('create file:'+filename)
- f.write('parentUrl,currenturl'+'\n')
- f.close()
- with open(filename,'a') as f:
- f.write(msg+'\n')
- f.close()
- url= input("Enter a url")
- try:
- urls.clear()
- url= url.strip()
- if len(url)>:
- host =parse.urlparse(url).netloc
- print(url+"下面的连接:")
- t1=datetime.datetime.now()
- getUrl(url,host)
- l=list(urls)
- for item in l:
- print(item+"下面的连接:")
- getUrl(item,host)
- t2=datetime.datetime.now()
- tt =(t2-t1).seconds
- minutes=tt//
- seconds=tt%
- print("total cost %d minutes %d seconds" % (minutes,seconds))
- except Exception as e:
- print(e)
然后运行pyinstaller -F a.py 打包
关于selenium 的IE 可以参考https://blog.csdn.net/ma_jiang/article/details/96022775
python selenium爬虫工具的更多相关文章
- Python selenium爬虫实现定时任务过程解析
现在需要启动一个selenium的爬虫,使用火狐驱动+多线程,大家都明白的,现在电脑管家显示CPU占用率20%,启动selenium后不停的开启浏览器+多线程, 好,没过5分钟,CPU占用率直接拉到9 ...
- Python+Selenium爬虫实战一《将QQ今日话题发布到个人博客》
前提条件: 1.使用Wamp Server部署WordPress个人博客,网上资料较多,这里不过多介绍 思路: 1.首先qq.com首页获取到今日话题的的链接: 2.通过今日话题链接访问到今日话题,并 ...
- Python 爬虫实例(12)—— python selenium 爬虫
# coding:utf- from common.contest import * def spider(): url = "http://www.salamoyua.com/es/sub ...
- python爬虫工具
一直都听说python写爬虫工具非常方便,为了获取数据,我也要写点爬虫,但是python太灵活了,不知道python爬虫要哪些框架,要了解,比如beatiful soup,scrapy, 爬虫的额主要 ...
- Python selenium自动化网页抓取器
(开开心心每一天~ ---虫瘾师) 直接入正题---Python selenium自动控制浏览器对网页的数据进行抓取,其中包含按钮点击.跳转页面.搜索框的输入.页面的价值数据存储.mongodb自动i ...
- Python selenium 滚动条 详解
在我们使用Python + selenium 爬虫的时候,会遇到如下报错,原因是 当页面上的元素超过一屏后,想操作屏幕下方的元素,是不能直接定位到,会报元素不可见的. selenium.common ...
- Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱(转)
原文:http://www.52nlp.cn/python-网页爬虫-文本处理-科学计算-机器学习-数据挖掘 曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开 ...
- 【Python】Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱
本文转载自:https://www.cnblogs.com/colipso/p/4284510.html 好文 mark http://www.52nlp.cn/python-%E7%BD%91%E9 ...
- python网络爬虫之自动化测试工具selenium[二]
目录 前言 一.获取今日头条的评论信息(request请求获取json) 1.分析数据 2.获取数据 二.获取今日头条的评论信息(selenium请求获取) 1.分析数据 2.获取数据 房源案例(仅供 ...
随机推荐
- sqlldr导入数据取消回显记录条数
之前在脚本中使用sqlldr导入数据时,如果表的数据量较大的话,会使日志文件变得极大,之后在网上查找了很久,才在一个偶然的机会找到这个参数 silent=all 但是最近发现这样写有个问题,就是加了这 ...
- VirtualBox打开VMware虚拟机
下载安装VirtualBox 打开VirtualBox,选择新建 设置如下: 之后就可以直接打开虚拟机了.
- Linux CentOS 6.5 ifconfig查询不到ip简单解决方法
最近有小伙伴表示在虚拟机中安装CentOS之后使用ifconfig以及ip addr指令无法查询到ip地址, 在此笔者提供一个简单有效的方法; 1. 切换为root用户登录 su root 2.进入配 ...
- C语言实现归并排序
#include<stdio.h> #define MAXN 100 //A[p,q] A[q+1,r]是两个有序数组,想办法把他们结合成一个有序数组 void merge(int A[] ...
- LOJ 2085: 洛谷 P1587: bzoj 4652: 「NOI2016」循环之美
题目传送门:LOJ #2085. 两个月之前做的傻题,还是有必要补一下博客. 题意简述: 求分子为不超过 \(n\) 的正整数,分母为不超过 \(m\) 的正整数的所有互不相等的分数中,有多少在 \( ...
- error: Libtool library used but 'LIBTOOL' is undefined
编译时出现: error: Libtool library used but ‘LIBTOOL’ is undefined 参考了一下: http://stackoverflow.com/questi ...
- pydev离线安装及安装后eclipse中不显示解决办法
eclipse插件安装方法(离线安装)pydev进入eclipse目录1.创建links目录2.复制压缩包到目录前解压3.在links目录下新建pydev.link文件(记事本修改后缀名即可)4.py ...
- 清理Linux 磁盘空间
1.执行 lsof | grep deleted发现有大量刚刚删除文件的进程存在,kill掉进程(或者重启进程) OK 2.查看磁盘信息:df -lh 3.循环定位最大文件目录:du -h - ...
- Educational Codeforces Round 78 (Rated for Div. 2) C. Berry Jam
链接: https://codeforces.com/contest/1278/problem/C 题意: Karlsson has recently discovered a huge stock ...
- 总结敏捷开发之Scrum
敏捷开发的概念 敏捷开发是一种以人为核心,迭代,循序渐进的开发方法. 为什么说是以人为核心?传统的瀑布模型是以文档驱动的,但是在敏捷中,只写少量的文档,注重的是人与人之间面对面的交流. 什么是迭代?迭 ...