Python selenium自动化网页抓取器

（开开心心每一天~ ---虫瘾师）

直接入正题---Python selenium自动控制浏览器对网页的数据进行抓取，其中包含按钮点击、跳转页面、搜索框的输入、页面的价值数据存储、mongodb自动id标识等等等。

1、首先介绍一下 Python selenium ---自动化测试工具，用来控制浏览器来对网页的操作，在爬虫中与BeautifulSoup结合那就是天衣无缝，除去国外的一些变态的验证网页，对于图片验证码我有自己写的破解图片验证码的源代码，成功率在85%。

详情请咨询QQ群--607021567（这不算广告，群里有好多Python的资源分享，还有大数据的一些知识【hadoop】）

2、beautifulsoup就不需要详细的介绍了，直接上网址-https://www.crummy.com/software/BeautifulSoup/bs4/doc/（BeautifulSoup的官方文档）

3、关于mongodb的自动id的生成。mongodb中所有的存储数据都是有固定的id的，但是mongodb的id对于人类来讲是复杂的，对于机器来讲是小菜一碟的，所以在存入数据的同时，我习惯用新id来对每一条数据的负责！

在Python中使用mongodb的话需要引进模块 from pymongo import MongoClient,ASCENDING, DESCENDING ，该模块就是你的责任！

接下来开始讲程序，直接上实例（一步一步来）：

引入模块：

 from selenium import webdriver

 from bs4 import BeautifulSoup

 import requests

 from pymongo import MongoClient,ASCENDING, DESCENDING

 import time

 import re

其中的每一个模块都会说已经解释过了，其中的re、requests都是之前就有提过的，他们都是核心缺一不可！

首先，我举一个小例子，淘宝的自动模拟搜索功能（源码）：

先说一下selenium 的定位方法

find_element_by_id
find_element_by_name
find_element_by_xpath
find_element_by_link_text
find_element_by_partial_link_text
find_element_by_tag_name
find_element_by_class_name
find_element_by_css_selector

源码：

 from selenium import webdriver

 from bs4 import BeautifulSoup

 import requests

 from pymongo import MongoClient,ASCENDING, DESCENDING

 import time

 import re

 def TaoBao():

     try:

         Taobaourl = 'https://www.taobao.com/'

         driver = webdriver.Chrome()

         driver.get(Taobaourl)

         time.sleep(5)#通常这里需要停顿，不然你的程序很有可能被检测到是Spider

         text='Strong Man'#输入的内容

         driver.find_element_by_xpath('//input[@class="search-combobox-input"]').send_keys(text).click()

         driver.find_element_by_xpath('//button[@class="btn-search tb-bg"]').click()

         driver.quit()

     except Exception,e:

         print e

 if __name__ == '__main__':

     TaoBao()

效果的实现，你们可以直接复制后直接运行！我只用了xpath的这个方法，因为它最实在！橙色字体（如果我没有色盲的话），就是网页中定位的元素，可以找到的！

接下来就是与BeautifulSoup的结合了，但是我们看到的只是打开了网页，并没有源码，那么就需要 “变量名.page_source”这个方法，他会实现你的梦想，你懂得?

 ht =  driver.page_source

 #print ht 你可以Print出啦看看

 soup = BeautifulSoup(ht,'html.parser')

下面就是BeautifulSoup的一些语法操作了，对于数据的结构还有采集，在上一篇里面有详细的抓取操作！！！

算了！说一个最简单的定位抓取：

 soup = BeautifulSoup(ht,'html.parser')

 a = soup.find('table',id="ctl00_ContentMain_SearchResultsGrid_grid")

 if a:  #必须加判断，不然访问的网页或许没有这一元素，程序就会都停止！

class的标签必须是class_,一定要记住！

哈哈哈！mongodb了昂，细节细节，首先需要用到模块----from pymongo import MongoClient,ASCENDING, DESCENDING

因为在python，mongodb的语法仍然实用，所以需要定义一个库，并且是全局性的，还有链接你计算机的一个全局变量。

 if __name__ == '__main__':  

   global db#全局变量

   global table#全局数据库

   table = 'mouser_product'

   mconn=MongoClient("mongodb://localhost")#地址

   db=mconn.test

   db.authenticate('test','test')#用户名和密码

   Taobao()

定义这些后，需要我们的新id来对数据的跟踪加定义：

 db.sn.find_and_modify({"_id": table}, update={ "$inc": {'currentIdValue': 1}},upsert=True)

 dic = db.ids.find({"_id":table}).limit(1)

 return dic[0].get("currentIdValue")

这个方法是通用的，所以只要记住其中的mongodb的语法就可以了！因为这里是有返回值的，所以这个是个方法体，这里不需要太过于纠结是怎么实现的，理解就好，中心还是在存数据的过程中

 count = db[table].find({'数据':数据}).count() #是检索数据库中的数据

 if count <= 0:                               #判断是否有

     ids= getNewsn()                          #ids就是我们新定义的id，这里的id是1开始的增长型id

     db[table].insert({"ids":ids,"数据":数据})

这样我们的数据就直接存入到mongodb的数据库中了，这里解释一下为什么在大数据中这么喜欢mongodb，因为它小巧，速度佳！

最后来一个实例源码：

 from selenium import webdriver

 from bs4 import BeautifulSoup

 import requests

 from pymongo import MongoClient,ASCENDING, DESCENDING

 import time

 import re

 def parser():

     try:

         f = open('sitemap.txt','r')

         for i in  f.readlines():

             sorturl=i.strip()

             driver = webdriver.Firefox()

             driver.get(sorturl)

             time.sleep(50)

             ht =  driver.page_source

             #pageurl(ht)

             soup = BeautifulSoup(ht,'html.parser')

             a = soup.find('a',class_="first-last")

             if a:

                 pagenum = int(a.get_text().strip())

                 print pagenum

                 for i in xrange(1,pagenum):

                     element = driver.find_element_by_xpath('//a[@id="ctl00_ContentMain_PagerTop_%s"]' %i)

                     element.click()

                     html =  element.page_source

                     pageurl(html)

                     time.sleep(50)

                     driver.quit()

     except Exception,e:

         print e

 def pageurl(ht):

     try:

         soup = BeautifulSoup(ht,'html.parser')

         a = soup.find('table',id="ctl00_ContentMain_SearchResultsGrid_grid")

         if a:

             tr = a.find_all('tr',class_="SearchResultsRowOdd")

             if tr:

                     for i in tr:

                         td = i.find_all('td')

                         if td:

                             url = td[2].find('a')

                             if url:

                                 producturl = '网址'+url['href']

                                 print producturl

                                 count = db[table].find({"url":producturl}).count()

                                 if count<=0:

                                     sn = getNewsn()

                                     db[table].insert({"sn":sn,"url":producturl})

                                     print str(sn) + ' inserted successfully'

                                     time.sleep(3)

                                 else:

                                     print 'exists url'

             tr1 = a.find_all('tr',class_="SearchResultsRowEven")

             if tr1:

                     for i in tr1:

                         td = i.find_all('td')

                         if td:

                             url = td[2].find('a')

                             if url:

                                 producturl = '网址'+url['href']

                                 print producturl

                                 count = db[table].find({"url":producturl}).count()

                                 if count<=0:

                                     sn = getNewsn()

                                     db[table].insert({"sn":sn,"url":producturl})

                                     print str(sn) + ' inserted successfully'

                                     time.sleep(3)

                                 else:

                                     print 'exists url'

                                 #time.sleep(5)

     except Exception,e:

         print e

 def getNewsn():

     db.sn.find_and_modify({"_id": table}, update={ "$inc"{'currentIdValue': 1}},upsert=True)

     dic = db.sn.find({"_id":table}).limit(1)

     return dic[0].get("currentIdValue")

 if __name__ == '__main__':  

   global db

   global table

   table = 'mous_product'

   mconn=MongoClient("mongodb://localhost")

   db=mconn.test

   db.authenticate('test','test')

   parser()

这一串代码是破解一个老外的无聊验证码界面结缘的，我真的对他很无语了！破解方法还是实践中！这是完整的源码，无删改的哦！纯手工！

Python selenium自动化网页抓取器的更多相关文章

python爬虫前程无忧网页抓取
Python爬虫视频教程零基础小白到scrapy爬虫高手-轻松入门 https://item.taobao.com/item.htm?spm=a1z38n.10677092.0.0.482434a6E ...
Python实现简单的网页抓取
现在开源的网页抓取程序有很多,各种语言应有尽有. 这里分享一下Python从零开始的网页抓取过程第一步:安装Python 点击下载适合的版本https://www.python.org/ 我这里选择 ...
Python开发爬虫之动态网页抓取篇：爬取博客评论数据——通过Selenium模拟浏览器抓取
区别于上篇动态网页抓取,这里介绍另一种方法,即使用浏览器渲染引擎.直接用浏览器在显示网页时解析 HTML.应用 CSS 样式并执行 JavaScript 的语句. 这个方法在爬虫过程中会打开一个浏览器 ...
python网络爬虫-动态网页抓取（五）
动态抓取的实例在开始爬虫之前,我们需要了解一下Ajax(异步请求).它的价值在于在与后台进行少量的数据交换就可以使网页实现异步更新. 如果使用Ajax加载的动态网页抓取,有两种方法: 通过浏览器审查 ...
Python网络爬虫笔记（一）：网页抓取方式和LXML示例
(一) 三种网页抓取方法 1. 正则表达式: 模块使用C语言编写,速度快,但是很脆弱,可能网页更新后就不能用了. 2. Beautiful Soup 模块使用Python编写,速度慢. ...
Python爬虫之三种网页抓取方法性能比较
下面我们将介绍三种抓取网页数据的方法,首先是正则表达式,然后是流行的 BeautifulSoup 模块,最后是强大的 lxml 模块. 1. 正则表达式如果你对正则表达式还不熟悉,或是需要一些提 ...
Python之HTML的解析（网页抓取一）
http://blog.csdn.net/my2010sam/article/details/14526223 --------------------- 对html的解析是网页抓取的基础,分析抓取的 ...
Spider_基础总结6--动态网页抓取--selenium
# 有些网站使用 '检查元素'也不能够好使,它们会对地址进行加密,此时使用Selenium 调用浏览器渲染引擎可以模拟用户的操作,完成抓取: # 注:selenium既可以抓取静态网页也可以抓取动态网 ...
Java---网络蜘蛛-网页邮箱抓取器~源码
刚刚学完Socket,迫不及待的做了这个网页邮箱抓取~~~ 现在有越来越多的人热衷于做网络爬虫(网络蜘蛛),也有越来越多的地方需要网络爬虫,比如搜索引擎.资讯采集.舆情监测等等,诸如此类.网络爬虫涉及 ...

随机推荐

java做成windows服务,电子秤例子,开机自动启动
使用Java Service Wrapper工具制作 1.windows32位下载地址 https://sourceforge.net/projects/wrapper/files/ 2.window ...
java 正则学习
前言在网上找了许多关于正则解析 URL,结果不是很满意,所以自己学习正则: java url 那么解析 url 的代码如下: import java.util.regex.Matcher; impo ...
将自己的域名代理到Gitpages
相信有很多程序员都有自己的域名,甚至很多人还有自己的服务器.去年我也买了半年的阿里云,在tomcat里面发war包,相当于一个正式的项目.但是很多前端程序员应该要求很简单,就是能将静态的html发布就 ...
visual studio 2012打开提示未能将网站×××配置为使用 ASP.NET 4.5 和尚未在Web服务器上注册，您需要手动将Web服务器配置为使用ASP.NET 4.5
未能将网站×××配置为使用 ASP.NET 4.5.为了使此网站正确运行,您必须将它手动配置为使用ASP.NET 4.5. ASP.NET 4.5尚未在Web服务器上注册,您需要手动将Web服务器配置 ...
[转]winform 自动伸缩控件xpandercontrols 使用说明
链接地址:http://blog.sina.com.cn/s/blog_b5b004920101f5h3.html
C#中&与&&的区别
c#&是什么意思? 看过一些文章,关于这个的简单而容易被忽略的语法,说的总有点瑕疵. 贴代码15秒之内应该能知道c#中一个&和两个&&的区别,开始计数了........ ...
c#发送get请求
c#发送get请求爬取网页关键点:在控制台中发送一个get请求,将响应的内容写入文件流中保存html格式 static void Main(string[] args) { string url = ...
dd 命令详解
作用: dd 是一个Unix和类Unix系统中的命令, 主要功能为转换和赋值文件.在Unix和类Unix系统上, 硬件的设备驱动(如硬盘) 和特殊设备文件(如/dev/zero, /dev/rando ...
MySQL查询(进阶)(每个标点都是重点)
MySQL 是工作中很普遍的需要用到的,所以必须掌握,而之前我们一直说的都是怎么存. 你只会存不会取有个屁用.所以希望大家在如何查询读取数据这方面多下点功夫. 这篇和上一篇都是干货,我也是第一次学. ...
vue 自定义组件 v-model双向绑定、父子组件同步通信
父子组件通信,都是单项的,很多时候需要双向通信.方法如下: 1.父组件使用:msg.sync="aa" 子组件使用$emit('update:msg', 'msg改变后的值xxx ...

Python selenium自动化网页抓取器

Python selenium自动化网页抓取器的更多相关文章

随机推荐

热门专题