python3.5学习笔记--一个简单的图片爬虫

参考资料：http://v.qq.com/boke/page/q/g/t/q01713cvdgt.html

目的：爬取网站图片

实际上以上链接的视频中已经将整个过程说的非常明白了，稍微有点计算机基础的人想来都不难实现。

所以，废话不多说，直接粘我写的脚本了事，有问题看视频即可。

#################################################################3

import os,requests,urllib.request
from bs4 import BeautifulSoup

header = {'User-Agent':'XXXXXXXXXXXXXXXXXXXXXXXXXXXXXX',  #这两个参数user-agent以及cookie，随便找一个有“开发者工具”功能的浏览器都可以看到，视频里有讲到，这我就不暴露了
          'Cookie':'XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX'}
folter_path = 'E://temp/xxxxxx/'

def make_file(path):            #创建文件夹的函数，并返回一个图片存贮路径
    if not os.path.isdir(folter_path):
        os.mkdir(folter_path)
    t = os.path.join(folter_path,str(path) + '/')
    if not os.path.isdir(t):
        os.mkdir(t)
    return t

def down_pic(start_num,end_num,type):  #爬取图片的函数，参数是：起始页，结束页，下载类型
    for num in range(int(start_num),int(end_num)):
        url = 'http://xxxxxx.net/ooxx/page-{}'.format(num)  #具体网址见视频吧，或者自己找一个也可以，这个随意。
        source_code =  requests.get(url,headers = header)
        plain_txt = source_code.text
        Soup = BeautifulSoup(plain_txt)
        download_link = []
        print('get' + str(num))

        for pic_tag in Soup.find_all('img'):
            pic_link = pic_tag.get(str(type))
            download_link.append(pic_link)

        while None in download_link:   #这块实际上用处不大，因为用type做了区分，不会产生垃圾数据，不过懒得去掉了。
            download_link.remove(None)

        for item in download_link:    #下载图片
            urllib.request.urlretrieve(item,pic_path + item[-10:])

start_num = 1760
end_time = 1767
type = {'jpg':'src','gif':'org_src'}    #类型字典

pic_path = make_file(type['gif'])
down_pic(start_num,end_time,type['gif'])

##################################################################################
代码比视频教程多的东西，是以下几个方面：
1、增加了创建图片存贮路径的函数和功能，并对下载类型做了区分。
2、分类型下载图片，如果你使用src区分，是下载不了完整的gif图的，这个自行发现吧。
3、额，感谢视频作者吧，既然视频作者是公开发出的，我这发出链接应该还OK吧

python3.5学习笔记--一个简单的图片爬虫的更多相关文章

python3.4学习笔记(十七) 网络爬虫使用Beautifulsoup4抓取内容
python3.4学习笔记(十七) 网络爬虫使用Beautifulsoup4抓取内容 Beautiful Soup 是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖 ...
python3.4学习笔记(十三) 网络爬虫实例代码，使用pyspider抓取多牛投资吧里面的文章信息，抓取政府网新闻内容
python3.4学习笔记(十三) 网络爬虫实例代码,使用pyspider抓取多牛投资吧里面的文章信息PySpider:一个国人编写的强大的网络爬虫系统并带有强大的WebUI,采用Python语言编写 ...
python3.4学习笔记(十四) 网络爬虫实例代码，抓取新浪爱彩双色球开奖数据实例
python3.4学习笔记(十四) 网络爬虫实例代码,抓取新浪爱彩双色球开奖数据实例新浪爱彩双色球开奖数据URL:http://zst.aicai.com/ssq/openInfo/ 最终输出结果格 ...
JSP学习笔记(三):简单的Tomcat Web服务器
注意:每次对Tomcat配置文件进行修改后,必须重启Tomcat 在E盘的DATA文件夹中创建TomcatDemo文件夹,并将Tomcat安装路径下的webapps/ROOT中的WEB-INF文件夹复 ...
python3.4学习笔记(十八) pycharm 安装使用、注册码、显示行号和字体大小等常用设置
python3.4学习笔记(十八) pycharm 安装使用.注册码.显示行号和字体大小等常用设置Download JetBrains Python IDE :: PyCharmhttp://www. ...
python3.4学习笔记(二十四) Python pycharm window安装redis MySQL-python相关方法
python3.4学习笔记(二十四) Python pycharm window安装redis MySQL-python相关方法window安装redis,下载Redis的压缩包https://git ...
python3.4学习笔记(十六) windows下面安装easy_install和pip教程
python3.4学习笔记(十六) windows下面安装easy_install和pip教程 easy_install和pip都是用来下载安装Python一个公共资源库PyPI的相关资源包的首先安 ...
python3.4学习笔记(十五) 字符串操作（string替换、删除、截取、复制、连接、比较、查找、包含、大小写转换、分割等）
python3.4学习笔记(十五) 字符串操作(string替换.删除.截取.复制.连接.比较.查找.包含.大小写转换.分割等) python print 不换行(在后面加上,end=''),prin ...
python3.4学习笔记(十二) python正则表达式的使用，使用pyspider匹配输出带.html结尾的URL
python3.4学习笔记(十二) python正则表达式的使用,使用pyspider匹配输出带.html结尾的URL实战例子:使用pyspider匹配输出带.html结尾的URL:@config(a ...

随机推荐

Adaboost 算法
一 Boosting 算法的起源 boost 算法系列的起源来自于PAC Learnability(PAC 可学习性).这套理论主要研究的是什么时候一个问题是可被学习的,当然也会探讨针对可学习的问题的 ...
android中所有颜色大全
< ?xml version="1.0" encoding="utf-8" ?> < resources>< colo ...
第10章嵌入式Linux的调试技术
printk函数运行在内核空间,printf函数运行在用户空间.也就是说像Linux驱动这样的Linux内核程序只能使用printk函数输出调试信息.printk函数在控制台(也称终端)显示消息是通过 ...
Android系统启动过程
首先Android框架架构图: Linux内核启动之后就到Android Init进程,进而启动Android相关的服务和应用. 启动的过程如下图所示:(图片来自网上,后面有地址) 下面将从And ...
C# 使用IEnumerable，yield 返回结果，同时使用foreach时，在循环内修改变量的值无效(二)
前言在上篇文章中我得出结论,遍历迭代器修改迭代器中项目的值未生效,是因为使用了yield return,并且每次遍历迭代器都执行返回迭代器的方法.这篇文章是接着上篇文章,从代码实现的角度来验证出现这 ...
BackTrack5-r3汉化
进入BT系统图形模式,将语言包1和2拖进BT图形桌面. 所需文件包地址:http://pan.baidu.com/s/1i3ouc9v(64位更新包)将语言包1里的全部文件复制粘贴到:/var/cac ...
Protobuf - 使用scons编译proto文件
使用protobuf过程中,需要先对消息结构进行定义,文件以.proto格式结尾.然后要使用google提供的protoc命令行,把.proto文件转成对应的代码文件. protoc --proto_ ...
关于ajax请求返回类型问题
昨天遇到一个问题,是关于请求到的json数据没有正确渲染,打开谷歌调试器里面的network中的response,看到的是正常返回的json数据,打开json.cn,复制返回的数据,也能正常解析,但是 ...
Kmeans++算是DONet实现
using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.D ...
Block对象
背景:回调机制中回调设置代码和回调方法的具体实现无法写在同一段代码中.Mac OS X 10.6和iOS4种引入了Block对象.Block对象看上去是一段代码,但是可以当作数据来传递. 定义Bloc ...

python3.5学习笔记--一个简单的图片爬虫

python3.5学习笔记--一个简单的图片爬虫的更多相关文章

随机推荐

热门专题