Python 2.7_爬取妹子图网站单页测试图片

1、url= http://www.mzitu.com/74100/x，2为1到23的值

2、用到模块 os 创建文件目录; re模块正则匹配目录名图片下载地址; time模块限制下载时间;requests模块获取网页源代码;urllib模块 urllib.urlretrieve(图片url,保存的带扩展名的文件名x.jpg)方法下载图片

3、知识点文件目录处理函数封装调用全局变量

4、代码

#coding:utf-8

import os

import re

import requests as rq

import urllib

import time

#创建目录函数 保存文件位置

def create_catename():

    #取出网页的上层目录名称

    url=urls[0]

    html=rq.get(url).text

    cate_name=re.findall(r'<a href="http://www.mzitu.com/xinggan" rel="category tag">(.*?)</a>',html)[0]

    path='D:\\%s' % cate_name

    return path

#下载图片 定义n为全局变量 以n计数为图片的文件名n.jpg  定义n全面变量 以免for循环时候上次循环n的值被重新赋值

def getimg():

    global n

    n=1

    for url in urls:

        html = rq.get(url).text

        regex = re.compile('<img src="(.*?.jpg)" alt=')

        img_url = re.findall(regex, html)[0]

        urllib.urlretrieve(img_url,'%s.jpg' % n)

        n+=1

#main函数 调用上面的两个函数  urls是个全局变量 取23张页面 下载23张图

def main():

    global urls

    urls = ['http://www.mzitu.com/74100/{}'.format(str(i)) for i in range(1, 24)]

    path=create_catename()

    #创建文件目录

    os.mkdir(path)

    # 切换到该目录

    os.chdir(path)

    time.sleep(2)

    getimg()

main()

Python 2.7_爬取妹子图网站单页测试图片_20170114的更多相关文章

Python 2.7和3.6爬取妹子图网站单页测试图片
1.url= http://www.mzitu.com/74100/x,2为1到23的值 2.用到模块 os 创建文件目录; re模块正则匹配目录名图片下载地址; time模块限制下载时间;req ...
Python协程爬取妹子图(内有福利，你懂得~)
项目说明: 1.项目介绍本项目使用Python提供的协程+scrapy中的选择器的使用(相当好用)实现爬取妹子图的(福利图)图片,这个学会了,某榴什么的.pow(2, 10)是吧! 2.用到的知 ...
Python网络爬虫 | Scrapy爬取妹子图网站全站照片
根据现有的知识,写了一个下载妹子图(meizitu.com)Scrapy脚本,把全站两万多张照片下载到了本地. 网站的分析网页的网址分析打开网站,发现网页的网址都是以 http://www.mei ...
Python3爬虫系列：理论+实验+爬取妹子图实战
Github: https://github.com/wangy8961/python3-concurrency-pics-02 ,欢迎star 爬虫系列: (1) 理论 Python3爬虫系列01 ...
Python爬虫入门教程 2-100 妹子图网站爬取
妹子图网站爬取---前言从今天开始就要撸起袖子,直接写Python爬虫了,学习语言最好的办法就是有目的的进行,所以,接下来我将用10+篇的博客,写爬图片这一件事情.希望可以做好. 为了写好爬虫,我们 ...
python爬取妹子图全站全部图片-可自行添加-线程-进程爬取，图片去重
from bs4 import BeautifulSoupimport sys,os,requests,pymongo,timefrom lxml import etreedef get_fenlei ...
利用python实现爬虫爬取某招聘网站，北京地区岗位名称包含某关键字的所有岗位平均月薪
#通过输入的关键字,爬取北京地区某岗位的平均月薪 # -*- coding: utf-8 -*- import re import requests import time import lxml.h ...
Python 2.7_爬取CSDN单页面博客文章及url(二)_xpath提取_20170118
上次用的是正则匹配文章title 和文章url,因为最近在看Scrapy框架爬虫需要了解xpath语法学习了下拿这个例子练手 1.爬取的单页面还是这个rooturl:http://blog.csd ...
Python 2.7_爬取CSDN单页面利用正则提取博客文章及url_20170114
年前有点忙,没来的及更博,最近看爬虫正则的部分巩固下 1.爬取的单页面:http://blog.csdn.net/column/details/why-bug.html 2.过程解析url获得网站 ...

随机推荐

asp.net 移除Server, X-Powered-By, 和X-AspNet-Version头
我们在开发Asp.net中,最后部署在IIS上. 然后发送HTTP请求,返回的HTTP头中包含Server, X-Powered-By, 和 X-AspNet-Version信息. 这些信息有时给攻击 ...
$git学习总结系列（1）——基本用法
廖雪峰的官方网站:http://www.liaoxuefeng.com/ 本文是学习廖雪峰的官方网站上git教程git基本用法的总结,详细内容可以进入廖雪峰的官方网站查看. 注:本文中的主要内容都是基 ...
layer关闭弹窗
一.关闭弹出窗这是layer官网给出的帮助手册,讲解的比较详细分成两种情况: 1.弹出层不是新的页面的时候,直接获得该弹窗的索引,然后执行close方法 layer.close(); 2.弹出窗是 ...
1000M链路的理论值计算
1000M约等于(1秒/(1纳秒))/ (1024*1024) ============================================================== 1.什么是 ...
Nginx配置中last和break及permanent和redirect的区别
一.不写last和break 流程就是依次执行这些rewrite rewrite break - url重写后,直接使用当前资源,不再执行location里余下的语句,完成本次请求,地址栏url不变 ...
读完这篇文章，就基本搞定了Redis数据库
简单来说Redis就是一个数据库,不过与传统的数据库不同的是Redis的数据是存在内存中的,所以存写速度非常快,因此Redis被广泛应用于缓存方向. 另外,Redis也经常用来做分布式锁.Redis提 ...
linux usb简介
参考书:<linux device drivers>.<usb 2.0规范> <usb3.1规范><usb白皮书> 以linux为例来说明usb系统. ...
cocos2dx打飞机项目笔记一：项目结构介绍
最近在学习cocos2dx引擎,版本是2.1.3,开发环境是win7 + vs2010,模仿微信打飞机游戏,开发中参考了 csdn 偶尔e网事的系列文章:http://blog.csdn.net/c ...
JavaWeb Cookie
1. Cookie 1.1. Cookie概述 Cookie译为小型文本文件或小甜饼,Web应用程序利用Cookie在客户端缓存服务器端文件.Cookie是以键值对形式存储在客户端主机硬盘中,由服务器 ...
INSPIRED启示录读书笔记 - 前言
好的产品具备三个基本条件价值.可用性.可行性,三者缺一不可产品经理日常工作 1.人员是指负责定义和开发产品的团队成员的角色和职责 2.流程是指探索.开发富有创意的产品时,反复应用的和成功的实践经验 ...

Python 2.7_爬取妹子图网站单页测试图片_20170114

Python 2.7_爬取妹子图网站单页测试图片_20170114的更多相关文章

随机推荐

热门专题