前几天刚学了python网络编程,书里没什么实践项目,只好到网上找点东西做。

一直对爬虫很好奇,所以不妨从爬虫先入手吧。

Python版本:3.6

这是我看的教程:Python - Jack -Cui -CSDN

大概学了一下urllib,beautifulsoup这两个库,也看了一些官方文档,学会了这两个库的大概的用法。

urllib用来爬取url的内容,如html文档等。beautifulsoup是用来解析html文档,就像js的DOM操作一样。简单流程如下:

from urllib import request
from bs4 import BeautifulSoup
#urllib操作
url = 'http://blog.csdn.net/'
#编辑header,至少要把User-Agent写上,否则python会自动加上,导致直接被有反爬虫机制的网站识别
#有很多网站会有个Content-Encoding=gzip,进行后面的输出时一定要gzip解压缩,具体怎么解压缩,看看这个:https://www.jianshu.com/p/2c2781462902
headers = {
'Connection' : 'keep-alive',
'Cache-Control' : 'max-age=0',
'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.89 Safari/537.36'
}
req = request.Request(url, headers=headers)
response = request.urlopen(req)
html = response.read()
#输出html内容
print(html)
#beautifulsoup操作
soup = BeautifulSoup(html, 'lxml')
#选取所有a标签
a_tags = soup.find_all('a')
#获得a标签中的内容(string属性)
for item in a_tags:
print(item.string)

基础内容差不多就这些,下面来爬一下煎蛋。

先看一下其源代码,发现源html中并没有图片的链接,而是只有一个没有url的img标签和一个有img-hash属性的span标签

查看js文件,寻找jandan_load_img()函数

分析可知,由span的img-hash属性的值和一个固定的hash作为参数,传入一个f_开头的函数,将返回值直接插入html文档中的a的href中,可见,返回值就是图片的真实url。所以思路有了:用python模拟js的函数,先取img-hash的值,再传入一个解密函数(对应f_开头函数),得到图片url。再看一下jandan_load_img()函数,取回url之后,如果文件后缀名为.gif,则在其中加入'thumb180'字符串,这个好做。

下面直接贴个源码吧:

#!/usr/bin/env python3
from bs4 import BeautifulSoup
from urllib import request
import argparse
import hashlib
import base64
import gzip
import time
import os
import io
import re headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.89 Safari/537.36',
'Accept-Encoding':'gzip, deflate',
'Accept-Language':'zh-CN,zh;q=0.9',
} def md5(src):
m = hashlib.md5()
m.update(src.encode('utf-8'))
return m.hexdigest() def decode_base64(data):
missing_padding=4-len(data)%4
if missing_padding:
data += '='* missing_padding
return base64.b64decode(data) def calculate_url(img_hash, constant):
k = 'DECODE'
q = 4
constant = md5(constant)
o = md5(constant[0:16])
#n = md5(constant[16:16])
n = md5(constant[16:32]) l = img_hash[0:q]
c = o+md5(o + l) img_hash = img_hash[q:]
k = decode_base64(img_hash)
h = []
for g in range(256):
h.append(g) b = []
for g in range(256):
b.append(ord(c[g % len(c)])) f = 0
for g in range(256):
f = (f + h[g] + b[g]) % 256
tmp = h[g]
h[g] = h[f]
h[f] = tmp t = ""
f = 0
p = 0
for g in range(len(k)):
p = (p + 1) % 256
f = (f + h[p]) % 256
tmp = h[p]
h[p] = h[f]
h[f] = tmp
t += chr(k[g] ^ (h[(h[p] + h[f]) % 256]))
t = t[26:] return t def get_raw_html(url):
req = request.Request(url=url, headers=headers)
response = request.urlopen(req)
text = response.read()
encoding = response.getheader('Content-Encoding')
if encoding == 'gzip':
buf = io.BytesIO(text)
translated_raw = gzip.GzipFile(fileobj=buf)
text = translated_raw.read() text = text.decode('utf-8')
return text def get_soup(html):
soup = BeautifulSoup(html, 'lxml')
return soup def get_preurl(soup):
preurl = 'http:'+soup.find(class_='previous-comment-page').get('href')
return preurl def get_hashesAndConstant(soup, html):
hashes = []
for each in soup.find_all(class_='img-hash'):
hashes.append(each.string) js = re.search(r'<script\ssrc=\"\/\/(cdn.jandan.net\/static\/min\/.*?)\">.*?<\/script>', html)
jsFileURL = 'http://'+js.group(1)
jsFile = get_raw_html(jsFileURL) target_func = re.search(r'f_\w*?\(e,\"(\w*?)\"\)', jsFile)
constant_hash = target_func.group(1) return hashes, constant_hash def download_images(urls):
if not os.path.exists('downloads'):
os.makedirs('downloads')
for url in urls:
filename = ''
file_suffix = re.match(r'.*(\.\w+)', url).group(1)
filename = md5(str(time.time()))+file_suffix
request.urlretrieve(url, 'downloads/'+filename)
time.sleep(3) def spider(url, page):
#get hashes, constant-hash, previous page's url
html = get_raw_html(url)
soup = get_soup(html) params = get_hashesAndConstant(soup, html)
hashes = params[0]
constant_hash = params[1] preurl = get_preurl(soup) urls = []
index = 1
for each in hashes:
real_url = 'http:'+calculate_url(each, constant_hash)
replace = re.match(r'(\/\/w+\.sinaimg\.cn\/)(\w+)(\/.+\.gif)', real_url)
if replace:
real_url = replace.group(1)+'thumb180'+replace.group(3)
urls.append(real_url)
index += 1 download_images(urls) page -= 1
if page > 0:
spider(preurl, page) if __name__ == '__main__':
#user interface
parser = argparse.ArgumentParser(description='download images from Jandan.net')
parser.add_argument('-p', metavar='PAGE', default=1, type=int, help='the number of pages you want to download (default 1)')
args = parser.parse_args() #start crawling
url = 'http://jandan.net/ooxx/'
spider(url, args.p)

防止被识别,采取了以下措施:

运行的时候可以加个-p参数,是要下载的页数,默认是1。
每爬一张图片暂停3s,为了防止被服务器识别,你们嫌慢的话可以改短一点。

下载的图片保存在当前目录的downloads文件夹下(没有则创建)。

ps:用Windows的同学请注意!这里说的当前目录不是指这个python文件的路径,而是cmd中的当前路径!我一开始是在Linux上做的,后来在Windows测试的时候一直找不到downloads文件夹,把源代码检查了好久,最后才发现是路径问题。。

pps:此项目也可以在我的Github中找到(更有.exe文件等你来发现~滑稽)。

参考:

http://blog.csdn.net/c406495762/article/details/71158264

http://blog.csdn.net/van_brilliant/article/details/78723878

python爬虫–爬取煎蛋网妹子图片的更多相关文章

  1. python爬虫爬取煎蛋网妹子图片

    import urllib.request import os def url_open(url): req = urllib.request.Request(url) req.add_header( ...

  2. Python Scrapy 爬取煎蛋网妹子图实例(一)

    前面介绍了爬虫框架的一个实例,那个比较简单,这里在介绍一个实例 爬取 煎蛋网 妹子图,遗憾的是 上周煎蛋网还有妹子图了,但是这周妹子图变成了 随手拍, 不过没关系,我们爬图的目的是为了加强实战应用,管 ...

  3. Python 爬虫 爬取 煎蛋网 图片

    今天, 试着爬取了煎蛋网的图片. 用到的包: urllib.request os 分别使用几个函数,来控制下载的图片的页数,获取图片的网页,获取网页页数以及保存图片到本地.过程简单清晰明了 直接上源代 ...

  4. Python 爬取煎蛋网妹子图片

    #!/usr/bin/env python # -*- coding: utf-8 -*- # @Date : 2017-08-24 10:17:28 # @Author : EnderZhou (z ...

  5. Python Scrapy 爬取煎蛋网妹子图实例(二)

    上篇已经介绍了 图片的爬取,后来觉得不太好,每次爬取的图片 都在一个文件下,不方便区分,且数据库中没有爬取的时间标识,不方便后续查看 数据时何时爬取的,所以这里进行了局部修改 修改一:修改爬虫执行方式 ...

  6. python3爬虫爬取煎蛋网妹纸图片(上篇)

    其实之前实现过这个功能,是使用selenium模拟浏览器页面点击来完成的,但是效率实际上相对来说较低.本次以解密参数来完成爬取的过程. 首先打开煎蛋网http://jandan.net/ooxx,查看 ...

  7. python3爬虫爬取煎蛋网妹纸图片(下篇)2018.6.25有效

    分析完了真实图片链接地址,下面要做的就是写代码去实现了.想直接看源代码的可以点击这里 大致思路是:获取一个页面的的html---->使用正则表达式提取出图片hash值并进行base64解码--- ...

  8. selenium爬取煎蛋网

    selenium爬取煎蛋网 直接上代码 from selenium import webdriver from selenium.webdriver.support.ui import WebDriv ...

  9. python爬虫---爬取王者荣耀全部皮肤图片

    代码: import requests json_headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win ...

随机推荐

  1. 利用pytesser识别图形验证码

    简单识别 1.一般思路 验证码识别的一般思路为: 图片降噪 图片切割 图像文本输出 1.1 图片降噪 所谓降噪就是把不需要的信息通通去除,比如背景,干扰线,干扰像素等等,只剩下需要识别的文字,让图片变 ...

  2. 无service.bat的tomcat服务怎么设置自启动

    在正式环境中,经常需要设置tomcat自启动,这样在重启系统服务器后就不需要再手动去开启tomcat服务器了.通过设置tomcat下的service.bat可以实现自启动的目的,但有时候会发现自己的t ...

  3. BZOJ_3996_[TJOI2015]线性代数_最大权闭合子图

    BZOJ_3996_[TJOI2015]线性代数_最大权闭合子图 Description 给出一个N*N的矩阵B和一个1*N的矩阵C.求出一个1*N的01矩阵A.使得 D=(A*B-C)*A^T最大. ...

  4. vue中引入babel步骤

    vue中引入babel步骤 vue项目中普遍使用es6语法,但有时我们的项目需要兼容低版本浏览器,这时就需要引入babel插件,将es6转成es5. 1.安装babel-polyfill插件 npm ...

  5. 目标检测之YOLO V1

    前面介绍的R-CNN系的目标检测采用的思路是:首先在图像上提取一系列的候选区域,然后将候选区域输入到网络中修正候选区域的边框以定位目标,对候选区域进行分类以识别.虽然,在Faster R-CNN中利用 ...

  6. MIP 问题解决方案大全(2018-06更新)

    在 MIP 推出后,我们收到了一些站长的疑问.现将常见问题整理出来,帮助大家了解 MIP 的知识. 一.MIP 认知类问题 二.改造前准备 三.前端改造,组件使用 四.提交生效 五.MIPCache ...

  7. Brown Mood Median Test

    Brown-Mood Median Test 对于两独立样本尺度中的位置参数(中位数)检验问题: \(H_0: med_x = med_y\)   \(H_1=med_x > med_y\) 在 ...

  8. 基于Raft深度优化,腾讯云金融级消息队列CMQ高可靠算法详解

    背景介绍 分布式系统是指一组独立的计算机,通过网络协同工作的系统,客户端看来就如同单台机器在工作.随着互联网时代数据规模的爆发式增长,传统的单机系统在性能和可用性上已经无法胜任,分布式系统具有扩展性强 ...

  9. C#ComboBox控件“设置 DataSource 属性后无法修改项集合”的解决方法

    在使用ComboBox控件时,遇到了重新绑定赋值出问题的情况.正常情况下,对于数据重新赋值的或者绑定数据源的时候,为了防止数据出现问题,都会先清空原来数据,所以就这样写了,但是没有相当恰恰这样写就出现 ...

  10. .NET中的状态机库Stateless

    标题:.NET中的状态机库Stateless 作者:Lamond Lu 地址:https://www.cnblogs.com/lwqlun/p/10674018.html 介绍 什么是状态机和状态模式 ...