python爬煎蛋妹子图

 # python3

 # jiandan meizi tu

 import urllib

 import urllib.request as req

 import os

 import time

 import random

 def url_open(url):

     req1 = urllib.request.Request(url, headers={'User-Agent': 'Mozilla/4.0'})

     req2 = urllib.request.Request(url, headers={'User-Agent': 'Mozilla/4.1'})

     req3 = urllib.request.Request(url, headers={'User-Agent': 'Mozilla/4.5'})

     req4 = urllib.request.Request(url, headers={'User-Agent': 'Mozilla/5.1'})

     req_list = [req1, req2,req3, req4]

     response = urllib.request.urlopen(random.choice(req_list))

     html = response.read()

     # print ('url_open done!')

     return html

 def url_open2(url):

     req1 = urllib.request.Request(url, headers={'User-Agent': 'Mozilla/4.0'})

     req2 = urllib.request.Request(url, headers={'User-Agent': 'Mozilla/4.1'})

     req3 = urllib.request.Request(url, headers={'User-Agent': 'Mozilla/4.5'})

     req4 = urllib.request.Request(url, headers={'User-Agent': 'Mozilla/5.1'})

     req_list = [req1, req2,req3, req4]

     ip_list = ['117.135.251.136:82']

     ip = random.choice(ip_list)

     print (ip)

     proxy = req.ProxyHandler({'http': ip})

     # auth = req.HTTPBasicAuthHandler()

     opener = req.build_opener(proxy, req.HTTPHandler)

     req.install_opener(opener)

     conn = req.urlopen(random.choice(req_list))

     return_str = conn.read()

     return return_str

 def get_current_page(url):

     html = url_open2(url).decode('utf-8')

     a = html.find('current-comment-page') + 23

     b = html.find(']',a)

     return html[a:b]

 def find_imgs(url):

     html = url_open2(url).decode('utf-8')

     img_addrs = []

     a = html.find('img src="http')

     while a != -1:

         b = html.find('.jpg',a, a+255)

         if b != -1:

             img_addrs.append(html[a+9:b+4])

         else:

             b = a + 13

         a = html.find('img src="http', b)

     return img_addrs

 def save_imgs(folder,img_addrs):

     for each in img_addrs:

         filename = each.split('/')[-1]

         with open(filename,'wb') as f:

             img = url_open2(each)

             f.write(img)

 def download_mm(folder = 'xx',pages = 300):

     # os.mkdir(folder)

     os.chdir(folder)

     url = 'http://jandan.net/ooxx/'

     current_page_num = int(get_current_page(url))

     for i in range(pages):

         print (time.strftime("%Y-%m-%d %H:%M:%S",time.localtime()),'current_page_num', current_page_num)

         if i%3 == 0:

             print (time.strftime("%Y-%m-%d %H:%M:%S",time.localtime()),"sleep 2 seconds...")

             time.sleep(2)

         current_page_num -= 1

         page_url = url + 'page-' + str(current_page_num) + '#comments'

         img_addrs = find_imgs(page_url)

         save_imgs(folder, img_addrs)

 if __name__ == '__main__':

     download_mm()

python爬煎蛋妹子图的更多相关文章

[Java]使用HttpClient实现一个简单爬虫，抓取煎蛋妹子图
第一篇文章,就从一个简单爬虫开始吧. 这只虫子的功能很简单,抓取到”煎蛋网xxoo”网页(http://jandan.net/ooxx/page-1537),解析出其中的妹子图,保存至本地. 先放结果 ...
手把手教你用Python爬虫煎蛋妹纸海量图片
我们的目标是用爬虫来干一件略污事情最近听说煎蛋上有好多可爱的妹子,而且爬虫从妹子图抓起练手最好,毕竟动力大嘛.而且现在网络上的妹子很黄很暴力,一下接受太多容易营养不量,但是本着有人身体就比较好的套路 ...
python爬煎蛋妹子图--20多行代码搞定煎蛋妹子图库
如果说一个人够无聊的话... 就会做一些十分美(wei)丽(suo)的事情啦哈哈哈... 好的,话不多说,进入正题. 正如标题所示,我们今天的目标很简单: 代码要少,妹子要好. 步骤如下: 1. 首先 ...
「玩转Python」突破封锁继续爬取百万妹子图
前言从零学 Python 案例,自从提交第一个妹子图版本引来了不少小伙伴的兴趣.最近,很多小伙伴发来私信说,妹子图不能爬了!? 趁着周末试了一把,果然爬不动了,爬下来的都是些 0kb 的假图片,然后 ...
[Python爬虫]煎蛋网OOXX妹子图爬虫（1）——解密图片地址
之前在鱼C论坛的时候,看到很多人都在用Python写爬虫爬煎蛋网的妹子图,当时我也写过,爬了很多的妹子图片.后来煎蛋网把妹子图的网页改进了,对图片的地址进行了加密,所以论坛里面的人经常有人问怎么请求的 ...
py3+urllib+bs4+反爬，20+行代码教你爬取豆瓣妹子图
0.准备所用到的模块: urllib.request,获取源码 beautifulsoup4(bs4),网页抓取数据安装bs4,python3 -m pip install beautiful ...
python爬虫之一---------豆瓣妹子图
#-*- coding:utf-8 -*- __author__ = "carry" import urllib import urllib2 from bs4 import Be ...
python 爬虫煎蛋网
import urllib.request import os from urllib import error import re import base64 def url_open(url): ...
python 爬取图片
使用python的requests库爬取网页时,获取文本一般使用text方法,如果要获取图片并保存要用content 举个栗子,爬煎蛋网的图: #!/usr/bin/env python #-*- c ...

随机推荐

代码编译方式 ant +ivy
Apache Ant,是一个将软件编译.测试.部署等步骤联系在一起加以自动化的一个工具,大多用于Java环境中的软件开发.由Apache软件基金会所提供. 没用过ant,了解一下,无非就这些功能, 编 ...
shell 函数
1 shell函数的定义及其调用 shell函数有两种格式: function name { commands } name() { commands } 其中,name为函数名,commands为函 ...
SPA examples
http://webdesignledger.com/inspiration/40-excellent-examples-of-single-page-websites https://onepage ...
文件操作的openmode
C中文件的openmode如下: r 只读为输入打开一个文本文件 w 只写为输出打开一个文本文件 a 追加向文本文件尾添加数据 rb 只读为输入打开一个二进制文件 wb 只写为输出打开一个二 ...
php 设计API之优化记
服务器端可以考虑使用rest实现,清晰url:put http://aa.com/news 客户端 curl实现muliti机制,实现多线程并发,节省多接口调用的时间 curl实现keepalive ...
Extjs 选择元素涉及方法总结
本文主要是解释Extjs在使用过程中使用的相关选择方法: 1.首先解释第一组概念: Ext.get(String/HTMLElement/Ext.Element el) Ext.getCmp(Stri ...
02.Hibernate映射基础
前言:Hibernate的核心功能是根据数据库到实体类的映射,自动从数据库绑定数据到实体类.使我们操作实体类(Java对象)就能对数据库进行增.删.查.改,而不用调用JDBC API使数据操作变得简单 ...
java 验证电话号码（手机和固话）
Leetcode#128 Longest Consecutive Sequence
原题地址 1. 把所有元素都塞到集合里2. 遍历所有元素,对于每个元素,如果集合里没有,就算了,如果有的话,就向左向右拓展,找到最长的连续范围,同时在每次找的时候都把找到的删掉.这样做保证了同样的连续 ...
NYOJ-20 吝啬的国度 AC 分类： NYOJ 2014-01-23 12:18 200人阅读评论(0) 收藏
#include<cstdio> #include<cstring> #include<vector> using namespace std; int pre[1 ...

python爬煎蛋妹子图

python爬煎蛋妹子图的更多相关文章

随机推荐

热门专题