案例：使用XPath的爬虫

现在我们用XPath来做一个简单的爬虫，我们尝试爬取某个贴吧里的所有帖子，并且将该这个帖子里每个楼层发布的图片下载到本地。

# tieba_xpath.py

#!/usr/bin/env python

# -*- coding:utf-8 -*-

import os

import urllib

import urllib2

from lxml import etree

class Spider:

    def __init__(self):

        self.tiebaName = raw_input("请需要访问的贴吧：")

        self.beginPage = int(raw_input("请输入起始页："))

        self.endPage = int(raw_input("请输入终止页："))

        self.url = 'http://tieba.baidu.com/f'

        self.ua_header = {"User-Agent" : "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1 Trident/5.0;"}

        # 图片编号

        self.userName = 1

    def tiebaSpider(self):

        for page in range(self.beginPage, self.endPage + 1):

            pn = (page - 1) * 50 # page number

            word = {'pn' : pn, 'kw': self.tiebaName}

            word = urllib.urlencode(word) #转换成url编码格式（字符串）

            myUrl = self.url + "?" + word

            # 示例：http://tieba.baidu.com/f? kw=%E7%BE%8E%E5%A5%B3 & pn=50

            # 调用 页面处理函数 load_Page

            # 并且获取页面所有帖子链接,

            links = self.loadPage(myUrl)  # urllib2_test3.py

    # 读取页面内容

    def loadPage(self, url):

        req = urllib2.Request(url, headers = self.ua_header)

        html = urllib2.urlopen(req).read()

        # 解析html 为 HTML 文档

        selector=etree.HTML(html)

        #抓取当前页面的所有帖子的url的后半部分，也就是帖子编号

        # http://tieba.baidu.com/p/4884069807里的 “p/4884069807”

        links = selector.xpath('//div[@class="threadlist_lz clearfix"]/div/a/@href')

        # links 类型为 etreeElementString 列表

        # 遍历列表，并且合并成一个帖子地址，调用 图片处理函数 loadImage

        for link in links:

            link = "http://tieba.baidu.com" + link

            self.loadImages(link)

    # 获取图片

    def loadImages(self, link):

        req = urllib2.Request(link, headers = self.ua_header)

        html = urllib2.urlopen(req).read()

        selector = etree.HTML(html)

        # 获取这个帖子里所有图片的src路径

        imagesLinks = selector.xpath('//img[@class="BDE_Image"]/@src')

        # 依次取出图片路径，下载保存

        for imagesLink in imagesLinks:

            self.writeImages(imagesLink)

    # 保存页面内容

    def writeImages(self, imagesLink):

        '''

            将 images 里的二进制内容存入到 userNname 文件中

        '''

        print imagesLink

        print "正在存储文件 %d ..." % self.userName

        # 1. 打开文件，返回一个文件对象

        file = open('./images/' + str(self.userName)  + '.png', 'wb')

        # 2. 获取图片里的内容

        images = urllib2.urlopen(imagesLink).read()

        # 3. 调用文件对象write() 方法，将page_html的内容写入到文件里

        file.write(images)

        # 4. 最后关闭文件

        file.close()

        # 计数器自增1

        self.userName += 1

# 模拟 main 函数

if __name__ == "__main__":

    # 首先创建爬虫对象

    mySpider = Spider()

    # 调用爬虫对象的方法，开始工作

    mySpider.tiebaSpider()

爬虫之Xpath案例的更多相关文章

Python爬虫之xpath语法及案例使用
Python爬虫之xpath语法及案例使用 ---- 钢铁侠的知识库 2022.08.15 我们在写Python爬虫时,经常需要对网页提取信息,如果用传统正则表达去写会增加很多工作量,此时需要一种对数 ...
爬虫常用Xpath和CSS3选择器对比
爬虫常用Xpath和CSS3选择器对比 1. 简介 CSS是来配合HTML工作的,和Xpath对比起来,CSS选择器通常都比较短小,但是功能不够强大.CSS中的空白符' '和Xpath的'//'都表示 ...
中国爬虫违法违规案例汇总github项目介绍
中国爬虫违法违规案例汇总github项目介绍 GitHub - 本项目用来整理所有中国大陆爬虫开发者涉诉与违规相关的新闻.资料与法律法规.致力于帮助在中国大陆工作的爬虫行业从业者了解我国相关法律,避免 ...
python爬虫：XPath语法和使用示例
python爬虫:XPath语法和使用示例 XPath(XML Path Language)是一门在XML文档中查找信息的语言,可以用来在XML文档中对元素和属性进行遍历. 选取节点 XPath使用路 ...
非常全的一份Python爬虫的Xpath博文
非常全的一份Python爬虫的Xpath博文 Xpath 是 python 爬虫过程中非常重要的一个用来定位的一种语法. 一.开始使用首先我们需要得到一个 HTML 源代码,用来模拟爬取网页中的源代 ...
Python爬虫(十三)_案例：使用XPath的爬虫
本篇是使用XPath的案例,更多内容请参考:Python学习指南案例:使用XPath的爬虫现在我们用XPath来做一个简单的爬虫,我们尝试爬取某个贴吧里的所有帖子且将该帖子里每个楼层发布的图片下载 ...
爬虫神器xpath的用法(三)
xpath的多线程爬虫 #encoding=utf-8 ''' pool = Pool(4) cpu的核数为4核 results = pool.map(爬取函数,网址列表) ''' from mult ...
爬虫神器XPath，程序员带你免费获取周星驰等明星热门电影
本教程由"做全栈攻城狮"原创首发,本人大学生一枚平时还需要上课,但尽量每日更新文章教程.一方面把我所习得的知识分享出来,希望能对初学者有所帮助.另一方面总结自己所学,以备以后查看. ...
互联网金融爬虫怎么写－第一课 p2p网贷爬虫（XPath入门）
版权声明:本文为博主原创文章,未经博主允许不得转载. 相关教程: 手把手教你写电商爬虫-第一课找个软柿子捏捏手把手教你写电商爬虫-第二课实战尚妆网分页商品采集爬虫手把手教你写电商爬虫-第三课 ...

随机推荐

Client IP Address Client Identification
HTTP The Definitive Guide Early web pioneers tried using the IP address of the client as a form of i ...
python爬虫系列（1）——一个简单的爬虫实例
本文主要实现一个简单的爬虫,目的是从一个百度贴吧页面下载图片. 1. 概述本文主要实现一个简单的爬虫,目的是从一个百度贴吧页面下载图片.下载图片的步骤如下: 获取网页html文本内容:分析html中 ...
使用selenium
1.安装谷歌浏览器 2.安装谷歌浏览器驱动 3.安装selenium包 4.测试 1.安装谷歌浏览器 2.安装谷歌浏览器驱动打开 http://blog.csdn.net/huilan_ ...
windows安装oracle client 18c 和plsql工具
安装须知: (1)安装平台选择.linux/windows (2)软件位数选择.32/64,如果你的plsql工具是32位,那么你就安装32位客户端,如果是64位,你就安装64位客户端. 安装过程: ...
学会JS的this这一篇就够了
转自:http://www.imooc.com/article/1758 以前看某本书上讲: 掌握了JS中this的用法才算真正的跨过了JS的门槛我深以为是!但是JS的this却并不是那么简单的内容 ...
命令查看java的class字节码文件
源代码: public class Math { public static void main(String[] args){ int a=1; int b=2; int c=(a+b)*10; } ...
Miller_Rabbin大素数测试
伪素数: 如果存在和n互素的正整数a满足a^(n-1)≡1(mod n),则n是基于a的伪素数. 是伪素数但不是素数的个数是非常非常少的,所以如果一个数是伪素数,那么他几乎是素数. Miller_Ra ...
什么是“HTML”？HTML的“标记”是什么？
①文本标记语言即HTML(Hypertext Markup Language),是用于描述网页文档的一种标记语言. ②HTML 标记标签通常被称为 HTML 标签 (HTML tag). ③HTM ...
ansible一些基本操作
一.介绍特性 (1).no agents:不需要在被管控主机上安装任何客户端: (2).no server:无服务器端,使用时直接运行命令即可: (3).modules in any languag ...
session与cookie的详解
在PHP面试中经常碰到请阐述session与cookie的区别与联系,以及如何修改两者的有效时间. 大家都知道,session是存储在服务器端的,cookie是存储在客户端的,session依赖于c ...

爬虫之Xpath案例

案例：使用XPath的爬虫

爬虫之Xpath案例的更多相关文章

随机推荐

热门专题