用xpath来爬图

# xpath语法可参考http://www.w3school.com.cn/xpath/xpath_syntax.asp
# 本博客引用于https://zhuanlan.zhihu.com/something-python?topic=Python

# coding:utf-8

import requests

from lxml import html

import os

import time

def header(referer):

    headers = {

        'Host': 'i.meizitu.net',

        'Pragma': 'no-cache',

        'Accept-Encoding': 'gzip, deflate',

        'Accept-Language': 'zh-CN,zh;q=0.8,en;q=0.6',

        'Cache-Control': 'no-cache',

        'Connection': 'keep-alive',

        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_5) AppleWebKit/537.36 (KHTML, like Gecko) '

                      'Chrome/59.0.3071.115 Safari/537.36',

        'Accept': 'image/webp,image/apng,image/*,*/*;q=0.8',

        'Referer': '{}'.format(referer),

    }

    return headers

# 获取主页列表, 解析 html 的话最好使用html.fromstring(),它有xpath函数，可用于定位元素。

def getPage(pageNum):

    baseUrl = 'http://www.mzitu.com/page/{}'.format(pageNum)

    selector = html.fromstring(requests.get(baseUrl).content)

    urls = []

    for i in selector.xpath('//ul[@id="pins"]/li/a/@href'):

        urls.append(i)

        print(i)

    return urls

# 图片链接列表， 标题

# url是详情页链接

def getPiclink(url):

    sel = html.fromstring(requests.get(url).content)

    # 图片总数,xpath 表达式应该返回元素的话，总是返回一个数组，即使只有一个元素;其中@class表示属性class；last()函数表示最后一个a标签

    total = sel.xpath('//div[@class="pagenavi"]/a[last()-1]/span/text()')[0]

    # 标题

    title = sel.xpath('//h2[@class="main-title"]/text()')[0]

    # 文件夹格式

    dirName = u"【{}P】{}".format(total, title)

    # 新建文件夹

    os.mkdir(dirName)

    n = 1

    for i in range(int(total)):

        # 每一页

        try:

            link = '{}/{}'.format(url, i+1)

            s = html.fromstring(requests.get(link).content)

            # 图片地址在src标签中

            jpgLink = s.xpath('//div[@class="main-image"]/p/a/img/@src')[0]

            # print(jpgLink)

            # 文件写入的名称：当前路径／文件夹／文件名

            filename = '%s/%s/%s.jpg' % (os.path.abspath('.'), dirName, n)

            print(u'开始下载图片:%s 第%s张' % (dirName, n))

			#"wb+" 以二进制写方式打开，可以读、写文件， 如果文件不存在，创建该文件

            with open(filename, "wb+") as jpg:

                jpg.write(requests.get(jpgLink, headers=header(jpgLink)).content)

            n += 1

        except:

            pass

#下面一行代码的作用：文件作为脚本直接执行才会被执行下面代码，而import到其他脚本中是不会被执行的，http://www.dengfeilong.com/post/60.html

if __name__ == '__main__':

    pageNum = input(u'请输入页码：')

    p = getPage(pageNum)

    for e in p:

        print(e)

        getPiclink(e)

        # lxml的报错

        time.sleep(2)

# 执行的时候用python3, 并且要安装pip install lxml requests

#虚拟环境中装python3

#sudo apt-get install python-pip

#sudo apt-get install python-virtualenv #安装本地虚拟环境管理工具

#mkdir ~/django # 创建目录

#cd ~/django virtualenv venv #在~/django目录下，创建一个venv的虚拟环境

#source venv/bin/activate #开启虚拟环境

用xpath来爬图的更多相关文章

Python多线程爬图&Scrapy框架爬图
一.背景对于日常Python爬虫由于效率问题,本次测试使用多线程和Scrapy框架来实现抓取斗图啦表情.由于IO操作不使用CPU,对于IO密集(磁盘IO/网络IO/人机交互IO)型适合用多线程,对于 ...
requests+xpath+map爬取百度贴吧
# requests+xpath+map爬取百度贴吧 # 目标内容:跟帖用户名,跟帖内容,跟帖时间 # 分解: # requests获取网页 # xpath提取内容 # map实现多线程爬虫 impo ...
python学习之BeautifulSoup模块爬图
BeautifulSoup模块爬图学习HTML文本解析标签定位网上教程多是爬mzitu,此网站反爬限制多了.随意找了个网址,解析速度有些慢.脚本流程:首页获取总页数-->拼接每页URL--> ...
【个人】爬虫实践，利用xpath方式爬取数据之爬取虾米音乐排行榜
实验网站:虾米音乐排行榜网站地址:http://www.xiami.com/chart 难度系数:★☆☆☆☆ 依赖库:request.lxml的etree (安装lxml:pip install ...
爬虫（Xpath）——爬tieba.baidu.com
工具:python3 核心知识点: 1)lxml包不能用pip下载,因为里面有其他语言编写的文件 2)urlopen返回的请求是html文件,要使用 content = etree.HTML(html ...
一起学爬虫——使用xpath库爬取猫眼电影国内票房榜
之前分享了一篇使用requests库爬取豆瓣电影250的文章,今天继续分享使用xpath爬取猫眼电影热播口碑榜 XPATH语法 XPATH(XML Path Language)是一门用于从XML文件中 ...
Java - XPath解析爬取内容
code { margin: 0; padding: 0; white-space: pre; border: none; background: transparent; } pre { backg ...
Scrapy中用xpath/css爬取豆瓣电影Top250：解决403HTTP status code is not handled or not allowed
好吧,我又开始折腾豆瓣电影top250了,只是想试试各种方法,看看哪一种的方法效率是最好的,一直进行到这一步才知道 scrapy的强大,尤其是和selector结合之后,速度飞起.... 下面我就采用 ...
Python 2.7_利用xpath语法爬取豆瓣图书top250信息_20170129
大年初二,忙完家里一些事,顺带有人交流爬取豆瓣图书top250 1.构造urls列表 urls=['https://book.douban.com/top250?start={}'.format(st ...

随机推荐

PHPStorm+XDEBUG 调试Laravel
首先输出phpinfo(); https://xdebug.org/wizard.php 打开然后查看适合你的调试扩展版本 ,目前支持到php7.2 整个页面ctrl+a 复制进去然后下载扩展文 ...
磁盘io测试工具
1. ATTO Disk Benchmark 2.DiskSpd磁盘性能测试工具
Python一行代码搞定的事情
python -m SimpleHTTPServer 8000 http://127.0.0.1:8000/ 有了这一行代码分享本地盘内容就不需要FTP了. pydoc:Python文档工具 pyth ...
easyui图标大全
.icon-blank{ background:url('icons/blank.gif') no-repeat; } .icon-add{ background:url('icons/edit_ad ...
C++11中的tuple应用：让函数返回多个值
在没有tuple之前,如果函数需要返回多个值,则必须定义一个结构体,有了C++11,可以基于tuple直接做了,下面是个示例: // 编译:g++ -std=c++11 -g -o x x.cpp # ...
ObjC正则表达式验证
试过ObjC的regkit这个框架. 也用过内置的正则表达式验证. 最后发现有个非常简单的方法就可以做到验证正则表达式.那就是NSPredicte这个类提供的方法. 这里有验证邮箱地址的正则为例: N ...
编写高质量代码改善C#程序的157个建议——建议123：程序集不必与命名空间同名
建议123:程序集不必与命名空间同名程序集一般会和命名空间同名,但这并不是必须的.事实上,不同名的命名空间和程序集是很常见的. 程序集表示的是一种物理上的分组,而命名空间是逻辑上的分组,两者没有必然 ...
编写高质量代码改善C#程序的157个建议——建议89：在并行方法体中谨慎使用锁
建议89:在并行方法体中谨慎使用锁除了建议88所提到的场合,要谨慎使用并行的情况还包括:某些本身就需要同步运行的场合,或者需要较长时间锁定共享资源的场合. 在对整型数据进行同步操作时,可以使用静态类 ...
sqlplus 简单的几个查询语句
sqlplus 是用来和oracle进行交互的工具,可以在电脑端使用,也可以在服务器使用常用命令 show 显示SQL Plus中的信息 connect 先无条件断 ...
fwrite与fread
函数原型 size_t fread(void *buffer, size_t size, size_t count, FILE *stream); size_t fwrite(const void ...

用xpath来爬图

用xpath来爬图的更多相关文章

随机推荐

热门专题