Python爬虫(十三)_案例：使用XPath的爬虫

本篇是使用XPath的案例，更多内容请参考:Python学习指南

案例：使用XPath的爬虫

现在我们用XPath来做一个简单的爬虫，我们尝试爬取某个贴吧里的所有帖子且将该帖子里每个楼层发布的图片下载到本地。

#-*- coding:utf-8 -*-

#tieba_xpath.py

"""

    作用：本案例使用XPath做一个简单的爬虫，我们尝试爬去某个贴吧的所有帖子

"""

import os

import urllib2

import urllib

from lxml import etree

class Spider:

    def __init__(self):

        self.tiebaName = raw_input("请输入需要访问的贴吧： ")

        self.beginPage = int(raw_input("请输入起始页： "))

        self.endPage = int(raw_input("请输入终止页： "))

        self.url = "http://tieba.baidu.com/f"

        self.ua_header = {"User-Agent":"Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1 Trident/5.0;"}

        #图片编号

        self.userName = 1

    def tiebaSpider(self):

        for page in range(self.beginPage, self.endPage+1):

            pn = (page-1) * 50   #page number

            word = {'pn':pn, 'kw':self.tiebaName}

            word = urllib.urlencode(word)   #转换成url编码格式(字符串)

            myUrl = self.url + "?" + word

            #示例：http://tieba.baidu.com/f?kw=%E7%BE%8E%E5%A5%B3 & pn=50

            #调用 页面处理函数load_Page

            #并且获取页面所有帖子链接

            links = self.loadPage(myUrl)  #urllib2_test3.py

    #获取页面内容

    def loadPage(self, url):

        req = urllib2.Request(url, headers = self.ua_header)

        html = urllib2.urlopen(req).read()

        #解析html为HTML DOM文档

        selector = etree.HTML(html)

        #抓取当前页面的所有帖子的url的后半部分，也就是帖子编号

        #http://tieba.baidu.com/p/4884069807里的"p/4884069807"

        links = selector.xpath('//div[@class="threadlist_lz clearfix"]/div/a[@rel="noreferrer"]/@href')

        #links类型为etreeElementString列表

        #遍历列表，并且合并为一个帖子地址，调用图片处理函数loadImage

        for link in links:

            link = "http://tieba.baidu.com" + link

            self.loadImage(link)

    #获取图片

    def loadImage(self, link):

        req = urllib2.Request(link, headers = self.ua_header)

        html = urllib2.urlopen(req).read()

        selector = etree.HTML(html)

        #获取这个帖子里面所有图片的src路径

        imageLinks = selector.xpath('//img[@class="BDE_Image"]/@src')

        #依次取出图片路径，下载保存

        for imageLink in imageLinks:

            self.writeImages(imageLink)

    #保存页面内容

    def writeImages(self, imageLink):

        """

            将images里的二进制内容存入到userName文件中

        """

        print(imageLink)

        print "正在存储文件 %d..."%self.userName

        #1.打开一个文件，返回一个文件对象

        file = open('./images/'+str(self.userName) + '.png', 'wb')

        #获取图片里内容

        images = urllib2.urlopen(imageLink).read()

        #调用文件对象write()方法，将page_html的内容写入到文件里

        file.write(images)

        #最后关闭文件

        file.close()

        #计数器自增1

        self.userName += 1

#模拟__main__函数：

if __name__ == '__main__':

    #首先创建爬虫对象

    mySpider = Spider()

    #调用爬虫对象的方法，开始工作

    mySpider.tiebaSpider()

Python爬虫(十三)_案例：使用XPath的爬虫的更多相关文章

PYTHON爬虫实战_垃圾佬闲鱼爬虫转转爬虫数据整合自用二手急速响应捡垃圾平台_3(附源码持续更新)
说明文章首发于HURUWO的博客小站,本平台做同步备份发布. 如有浏览或访问异常图片加载失败或者相关疑问可前往原博客下评论浏览. 原文链接 PYTHON爬虫实战_垃圾佬闲鱼爬虫转转爬虫数据整合自用二 ...
Python爬虫(十一)_案例：使用正则表达式的爬虫
本章将结合先前所学的爬虫和正则表达式知识,做一个简单的爬虫案例,更多内容请参考:Python学习指南现在拥有了正则表达式这把神兵利器,我们就可以进行对爬取到的全部网页源代码进行筛选了. 下面我们一起 ...
[b0028] python 归纳 (十三)_队列Queue在多线程中使用
# -*- coding: UTF-8 -*- """ 多线程同时读队列总结: 1. 会阻塞 if self._jobq.qsize() > 0 进入逻辑,此时被 ...
洗礼灵魂，修炼python（71）--爬虫篇—【转载】xpath/lxml模块，爬虫精髓讲解
Xpath,lxml模块用法转载的原因和前面的一样,我写的没别人写的好,所以我也不浪费时间了,直接转载这位崔庆才大佬的原帖链接:传送门以下为转载内容: --------------------- ...
案例_(单线程)使用xpath爬取糗事百科
案例_(单线程)使用xpath爬取糗事百科步骤如下: 首先通过xpath插件找出我们要爬取的信息的匹配规则 url = "https://www.qiushibaike.com/8hr/p ...
Python 爬虫解析库的使用 --- XPath
一.使用XPath XPath ,全称XML Path Language,即XML路径语言,它是一门在XML文档中查找信息的语言.它最初是用来搜寻XML文档的,但是它同样适用于HTML文档的搜索. 所 ...
小白学 Python 爬虫（20）：Xpath 进阶
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
python爬虫(一)_爬虫原理和数据抓取
本篇将开始介绍Python原理,更多内容请参考:Python学习指南为什么要做爬虫著名的革命家.思想家.政治家.战略家.社会改革的主要领导人物马云曾经在2015年提到由IT转到DT,何谓DT,DT ...
python爬虫主要就是五个模块：爬虫启动入口模块，URL管理器存放已经爬虫的URL和待爬虫URL列表，html下载器，html解析器，html输出器同时可以掌握到urllib2的使用、bs4（BeautifulSoup）页面解析器、re正则表达式、urlparse、python基础知识回顾（set集合操作）等相关内容。
本次python爬虫百步百科,里面详细分析了爬虫的步骤,对每一步代码都有详细的注释说明,可通过本案例掌握python爬虫的特点: 1.爬虫调度入口(crawler_main.py) # coding: ...

随机推荐

input光标高度问题
input输入框光标高度问题IE:不管该行有没有文字,光标高度与font-size大小一致 FF:该行没有文字时,光标大小与input的 height 大小一致:该行有文字时,光标大小与font-si ...
Android打开/data/目录以及导出文件
打开logcat和和file Explorer Tools-->Android-->Android Device Monitor 如果右侧没有出现,Windows-->Show Vi ...
大家好，我是ZCDHJ
大家好,我是ZCDHJ.CJ C2017级的一名Oier.
技嘉 gigabyte b75m d3v 主板定时开机无效问题解决
BIOS 里面设置定时开机后发现到点并没有正常启动~~~ 百思不得解.后来发现原来是WIN8系统下的控制面板的关机并非正常关机,而是不保存设置的非正常关机,在开始菜单右键——关闭或注销——关闭计算机 ...
selenim之ActionChains（一）
大家好,来介绍下,今天要分享的是小编学ActionChains的经验. 先来说一下今天要用到的方法: click(element=null) ...
5. 监视和ZooKeeper操作
ZooKeeper中的写入(write)操作是原子性和持久性的. 写入到大多数ZooKeeper服务器上的持久性存储中,可以保证写操作成功. 无论如何,ZooKeeper的最终一致性模型允许读取(re ...
深入理解java虚拟机_第二章_读书笔记
1.本章内容目录: 概述运行时数据区域程序计数器 java虚拟机栈本地方法栈 java堆方法区运行时常量池直接内存 HotSpot虚拟机对象探秘对象的创建对象的内存布局对象的访问定位 ...
.net core2 发送电子邮件封装
在.net core2 如何发送电子邮件呢,我们选择使用自带的System.Net.Mail,下面我们将如何使用封装成一个函数,供大家参考. /// <summary> /// 发送电子邮 ...
C#实现的apache htpasswd加密
一.VisualSvn Server 这个软件大家都知道,具体使用时创建用户名密码和组时,每次都要登陆到VisualSvn Server所在的机器上,次次如此... 由于一些原因要把这个用户管理的功能 ...
MSSQL-并发控制-1-Transaction
MSSQL并发控制原先打算分为两个部分写:隔离级别及锁,写的过程中,发现需要提及下事务的相关内容,故加多一篇博文,共3篇. 如果转载,请注明博文来源: www.cnblogs ...

Python爬虫(十三)_案例：使用XPath的爬虫

案例：使用XPath的爬虫

Python爬虫(十三)_案例：使用XPath的爬虫的更多相关文章

随机推荐

热门专题