今天seo的同事需要一个简单的爬虫工具, 根据一个url地址,抓取改页面的a连接,然后进入a连接里面的页面再次抓取a连接

1.需要一个全局的set([])集合来保存抓取的url地址

2.由于现在单页面也来越多,所以我们借用selenium来抓取页面内容, 由于页面内容比较多, 我们程序需要将滚动条滚到最下面,如:driver.execute_script("return document.body.scrollHeight;")

3.需要查找页面的超链接 driver.find_elements_by_xpath("//a[@href]")

4.为了便于查看数据记录,每抓取一个地址就记录到日志中去(曾经尝试过爬网完毕后再记录,但是爬网时间太长,一旦出现异常就一条记录都没有了)

整个代码如下:

  1. from selenium import webdriver
  2. from selenium.webdriver.firefox.options import Options
  3. from selenium.common.exceptions import TimeoutException
  4. import time
  5. import datetime
  6. from urllib import parse
  7. import os
  8.  
  9. urls = set([])
  10. def getUrl(url,host):
  11. driver = webdriver.Ie()
  12. try:
  13. #driver = webdriver.Firefox()
  14. driver.set_page_load_timeout()
  15. driver.get(url)
  16. #time.sleep()
  17.  
  18. all_window_height = []
  19. all_window_height.append(driver.execute_script("return document.body.scrollHeight;"))
  20. while True:
  21. driver.execute_script("scroll(0,100000)")
  22. time.sleep()
  23. check_height = driver.execute_script("return document.body.scrollHeight;")
  24. if check_height == all_window_height[-]:
  25. print("我已下拉完毕")
  26. break
  27. else:
  28. all_window_height.append(check_height)
  29. print("我正在下拉")
  30.  
  31. #for link in driver.find_elements_by_xpath("//*[@href]"):
  32. #for link in driver.find_elements_by_tag_name("a"):
  33. for link in driver.find_elements_by_xpath("//a[@href]"):
  34. try:
  35. tempurl1=link.get_attribute('href')
  36. if tempurl1.startswith("http"):
  37. if tempurl1 not in urls:
  38. urls.add(tempurl1)
  39. log(host,url+','+tempurl1)
  40. print(tempurl1)
  41. except:
  42. print(link)
  43. except Exception as e:
  44. print(e)
  45. finally:
  46. driver.quit()
  47.  
  48. def log(name,msg):
  49. filename='D://'+name+'.csv'
  50. if not os.path.exists(filename):
  51. with open(filename,'w') as f:
  52. print('create file:'+filename)
  53. f.write('parentUrl,currenturl'+'\n')
  54. f.close()
  55. with open(filename,'a') as f:
  56. f.write(msg+'\n')
  57. f.close()
  58.  
  59. url= input("Enter a url")
  60. try:
  61. urls.clear()
  62. url= url.strip()
  63. if len(url)>:
  64. host =parse.urlparse(url).netloc
  65. print(url+"下面的连接:")
  66. t1=datetime.datetime.now()
  67. getUrl(url,host)
  68. l=list(urls)
  69. for item in l:
  70. print(item+"下面的连接:")
  71. getUrl(item,host)
  72. t2=datetime.datetime.now()
  73. tt =(t2-t1).seconds
  74. minutes=tt//
  75. seconds=tt%
  76. print("total cost %d minutes %d seconds" % (minutes,seconds))
  77.  
  78. except Exception as e:
  79. print(e)

然后运行pyinstaller -F a.py 打包

关于selenium 的IE 可以参考https://blog.csdn.net/ma_jiang/article/details/96022775

python selenium爬虫工具的更多相关文章

  1. Python selenium爬虫实现定时任务过程解析

    现在需要启动一个selenium的爬虫,使用火狐驱动+多线程,大家都明白的,现在电脑管家显示CPU占用率20%,启动selenium后不停的开启浏览器+多线程, 好,没过5分钟,CPU占用率直接拉到9 ...

  2. Python+Selenium爬虫实战一《将QQ今日话题发布到个人博客》

    前提条件: 1.使用Wamp Server部署WordPress个人博客,网上资料较多,这里不过多介绍 思路: 1.首先qq.com首页获取到今日话题的的链接: 2.通过今日话题链接访问到今日话题,并 ...

  3. Python 爬虫实例(12)—— python selenium 爬虫

    # coding:utf- from common.contest import * def spider(): url = "http://www.salamoyua.com/es/sub ...

  4. python爬虫工具

    一直都听说python写爬虫工具非常方便,为了获取数据,我也要写点爬虫,但是python太灵活了,不知道python爬虫要哪些框架,要了解,比如beatiful soup,scrapy, 爬虫的额主要 ...

  5. Python selenium自动化网页抓取器

    (开开心心每一天~ ---虫瘾师) 直接入正题---Python selenium自动控制浏览器对网页的数据进行抓取,其中包含按钮点击.跳转页面.搜索框的输入.页面的价值数据存储.mongodb自动i ...

  6. Python selenium 滚动条 详解

    在我们使用Python + selenium 爬虫的时候,会遇到如下报错,原因是  当页面上的元素超过一屏后,想操作屏幕下方的元素,是不能直接定位到,会报元素不可见的. selenium.common ...

  7. Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱(转)

    原文:http://www.52nlp.cn/python-网页爬虫-文本处理-科学计算-机器学习-数据挖掘 曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开 ...

  8. 【Python】Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱

    本文转载自:https://www.cnblogs.com/colipso/p/4284510.html 好文 mark http://www.52nlp.cn/python-%E7%BD%91%E9 ...

  9. python网络爬虫之自动化测试工具selenium[二]

    目录 前言 一.获取今日头条的评论信息(request请求获取json) 1.分析数据 2.获取数据 二.获取今日头条的评论信息(selenium请求获取) 1.分析数据 2.获取数据 房源案例(仅供 ...

随机推荐

  1. sqlldr导入数据取消回显记录条数

    之前在脚本中使用sqlldr导入数据时,如果表的数据量较大的话,会使日志文件变得极大,之后在网上查找了很久,才在一个偶然的机会找到这个参数 silent=all 但是最近发现这样写有个问题,就是加了这 ...

  2. VirtualBox打开VMware虚拟机

    下载安装VirtualBox 打开VirtualBox,选择新建 设置如下: 之后就可以直接打开虚拟机了.

  3. Linux CentOS 6.5 ifconfig查询不到ip简单解决方法

    最近有小伙伴表示在虚拟机中安装CentOS之后使用ifconfig以及ip addr指令无法查询到ip地址, 在此笔者提供一个简单有效的方法; 1. 切换为root用户登录 su root 2.进入配 ...

  4. C语言实现归并排序

    #include<stdio.h> #define MAXN 100 //A[p,q] A[q+1,r]是两个有序数组,想办法把他们结合成一个有序数组 void merge(int A[] ...

  5. LOJ 2085: 洛谷 P1587: bzoj 4652: 「NOI2016」循环之美

    题目传送门:LOJ #2085. 两个月之前做的傻题,还是有必要补一下博客. 题意简述: 求分子为不超过 \(n\) 的正整数,分母为不超过 \(m\) 的正整数的所有互不相等的分数中,有多少在 \( ...

  6. error: Libtool library used but 'LIBTOOL' is undefined

    编译时出现: error: Libtool library used but ‘LIBTOOL’ is undefined 参考了一下: http://stackoverflow.com/questi ...

  7. pydev离线安装及安装后eclipse中不显示解决办法

    eclipse插件安装方法(离线安装)pydev进入eclipse目录1.创建links目录2.复制压缩包到目录前解压3.在links目录下新建pydev.link文件(记事本修改后缀名即可)4.py ...

  8. 清理Linux 磁盘空间

    1.执行   lsof | grep deleted发现有大量刚刚删除文件的进程存在,kill掉进程(或者重启进程)   OK 2.查看磁盘信息:df -lh 3.循环定位最大文件目录:du -h - ...

  9. Educational Codeforces Round 78 (Rated for Div. 2) C. Berry Jam

    链接: https://codeforces.com/contest/1278/problem/C 题意: Karlsson has recently discovered a huge stock ...

  10. 总结敏捷开发之Scrum

    敏捷开发的概念 敏捷开发是一种以人为核心,迭代,循序渐进的开发方法. 为什么说是以人为核心?传统的瀑布模型是以文档驱动的,但是在敏捷中,只写少量的文档,注重的是人与人之间面对面的交流. 什么是迭代?迭 ...