Python 爬虫实例（1）—— 爬取百度图片

爬取百度图片在Python 2.7上运行

#!/usr/bin/env python

# -*- coding: utf-8 -*-

# @Author: loveNight

import json

import itertools

import urllib

import requests

import os

import re

import sys

str_table = {

    '_z2C$q': ':',

    '_z&e3B': '.',

    'AzdH3F': '/'

}

char_table = {

    'w': 'a',

    'k': 'b',

    'v': 'c',

    '': 'd',

    'j': 'e',

    'u': 'f',

    '': 'g',

    'i': 'h',

    't': 'i',

    '': 'j',

    'h': 'k',

    's': 'l',

    '': 'm',

    'g': 'n',

    '': 'o',

    'r': 'p',

    'q': 'q',

    '': 'r',

    'f': 's',

    'p': 't',

    '': 'u',

    'e': 'v',

    'o': 'w',

    '': '',

    'd': '',

    'n': '',

    '': '',

    'c': '',

    'm': '',

    '': '',

    'b': '',

    'l': '',

    'a': ''

}

# str 的translate方法需要用单个字符的十进制unicode编码作为key

# value 中的数字会被当成十进制unicode编码转换成字符

# 也可以直接用字符串作为value

char_table = {ord(key): ord(value) for key, value in char_table.items()}

# 解码图片URL

def decode(url):

    # 先替换字符串

    for key, value in str_table.items():

        url = url.replace(key, value)

    # 再替换剩下的字符

    return url.translate(char_table)

# 生成网址列表

def buildUrls(word):

    word = urllib.quote(word)

    url = r"http://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&ct=201326592&fp=result&queryWord={word}&cl=2&lm=-1&ie=utf-8&oe=utf-8&st=-1&ic=0&word={word}&face=0&istype=2nc=1&pn={pn}&rn=60"

    urls = (url.format(word=word, pn=x) for x in itertools.count(start=0, step=60))

    return urls

# 解析JSON获取图片URL

re_url = re.compile(r'"objURL":"(.*?)"')

def resolveImgUrl(html):

    imgUrls = [decode(x) for x in re_url.findall(html)]

    return imgUrls

def downImg(imgUrl, dirpath, imgName):

    filename = os.path.join(dirpath, imgName)

    try:

        res = requests.get(imgUrl, timeout=15)

        if str(res.status_code)[0] == "":

            print(str(res.status_code), ":" , imgUrl)

            return False

    except Exception as e:

        print("抛出异常：", imgUrl)

        print(e)

        return False

    with open(filename, "wb") as f:

        f.write(res.content)

    return True

def mkDir(dirName):

    dirpath = os.path.join(sys.path[0], dirName)

    if not os.path.exists(dirpath):

        os.mkdir(dirpath)

    return dirpath

if __name__ == '__main__':

    word = raw_input("请输入你要下载的图片关键词：\n")

    word = str(word)

    dirpath = mkDir("results")

    urls = buildUrls(word)

    index = 0

    for url in urls:

        print("正在请求：", url)

        html = requests.get(url, timeout=10).content.decode('utf-8')

        imgUrls = resolveImgUrl(html)

        if len(imgUrls) == 0:  # 没有图片则结束

            break

        for url in imgUrls:

            if downImg(url, dirpath, str(index) + ".jpg"):

                index += 1

                print("已下载 %s 张" % index)

Python 爬虫实例（1）—— 爬取百度图片的更多相关文章

Python爬虫实战之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标对百度贴吧的任意帖子进行抓取指定是否只抓取楼主发帖 ...
Python爬虫实例：爬取B站《工作细胞》短评——异步加载信息的爬取
很多网页的信息都是通过异步加载的,本文就举例讨论下此类网页的抓取. <工作细胞>最近比较火,bilibili 上目前的短评已经有17000多条. 先看分析下页面右边 li 标签中的就是短 ...
Python爬虫实例：爬取猫眼电影——破解字体反爬
字体反爬字体反爬也就是自定义字体反爬,通过调用自定义的字体文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容的. 现在貌似不少网 ...
Python爬虫实例：爬取豆瓣Top250
入门第一个爬虫一般都是爬这个,实在是太简单.用了 requests 和 bs4 库. 1.检查网页元素,提取所需要的信息并保存.这个用 bs4 就可以,前面的文章中已经有详细的用法阐述. 2.找到下一 ...
Python 爬虫练习：爬取百度贴吧中的图片
背景:最近开始看一些Python爬虫相关的知识,就在网上找了一些简单已与练习的一些爬虫脚本实现功能:1,读取用户想要爬取的贴吧 2,读取用户先要爬取某个贴吧的页数范围 3,爬取每个贴吧中用户输入的页 ...
python 爬虫之requests爬取页面图片的url，并将图片下载到本地
大家好我叫hardy 需求:爬取某个页面,并把该页面的图片下载到本地思考: img标签一个有多少种类型的src值?四种:1.以http开头的网络链接.2.以“//”开头网络地址.3.以“/”开头绝对 ...
芝麻HTTP:Python爬虫实战之爬取百度贴吧帖子
本篇目标 1.对百度贴吧的任意帖子进行抓取 2.指定是否只抓取楼主发帖内容 3.将抓取到的内容分析并保存到文件 1.URL格式的确定首先,我们先观察一下百度贴吧的任意一个帖子. 比如:http:// ...
【python爬虫】之爬取百度首页
刚开始学习爬虫,照着教程手打了一遍,还是蛮有成就感的.使用版本:python2.7 注意:python2的默认编码是ASCII编码而python3默认编码是utf-8 import urllib2 u ...
百度图片爬虫-python版-如何爬取百度图片?
上一篇我写了如何爬取百度网盘的爬虫,在这里还是重温一下,把链接附上: http://www.cnblogs.com/huangxie/p/5473273.html 这一篇我想写写如何爬取百度图片的爬虫 ...

随机推荐

chm TO html 另类方法
因为网上下了很多chmtohtml ,都是试用版的, 转成html网页格式,总是有限制,或是不完整,我现在找到了一种折中方法,供大家参考一,我的资源里有工具word to chm 里面有转成网页的 ...
angular2组件通信
父到子父组件: ts部分: @Component({ selector: 'app-info', templateUrl: './info.component.html', styleUrls: [ ...
Windows平台下如何使用Android NDK
鉴于有些同学想要学习NDK,但在网上很难找到一个讲解比较清楚.按照步骤操作可以比较顺利学会NDK的文章,所以写了此篇教程. 一．学习本篇教程需要具备的条件: 1. 了解JAVA中JNI的概念.好处以及 ...
minor gc和full gc
Minor GC ,Full GC 触发条件 Minor GC触发条件:当Eden区满时,触发Minor GC. Full GC触发条件: (1)调用System.gc时,系统建议执行Full GC, ...
arm交叉编译opencv
问题:undefined reference to `pthread_spin_init'解:修改CMakeCache.txt,CMAKE_EXE_LINKER_FLAGS原来为空,加上-lpthre ...
Power Desginer系列02【转载】
在概念模型中主要有以下几个操作和设置的对象:实体(Entity).实体属性 (Attribute).实体标识(Identifiers).关系(Relationship).继承(Inheritance) ...
input 输入框默认获得焦点
JavaScript实现默认焦点: 如下写<body>标签: <body onload="window.formLogin.user.focus()"> & ...
Node.js：EventEmitter类
一.EventEmitter 类 Node.js 所有的异步 I/O 操作在完成时都会发送一个事件到事件队列. Node.js里面的许多对象都会分发事件:一个net.Server对象会在每次有新连接时 ...
eclipse启动tomcat, http://localhost:8080无法访问的解决方案
问题:: tomcat在eclipse里面能正常启动,但在浏览器中访问http://localhost:8080/不能访问tomcat管理页面,且报404错误.同时其他项目页面也不能访问.访问的时候出 ...
【SSH 基础】SSH框架--struts深入具体解释（一）
学习了struts,可是对于它的由来,以及为什么使用action和struts.xml的方式而不採用曾经的servlet方式.有些疑问,究竟之前的方式有什么弊端,struts又给我们带来了什么便利? ...

Python 爬虫实例（1）—— 爬取百度图片

Python 爬虫实例（1）—— 爬取百度图片的更多相关文章

随机推荐

热门专题