python爬取煎蛋图片



py2版本：

#-*- coding:utf-8 -*-

#from __future__ import unicode_liter

import urllib,urllib2,time

import re,sys,os

headers={

'Referer':'http://jandan.net/',

'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36',



}

def getimg(n=''):

    req=urllib2.Request('http://jandan.net/ooxx'+n,headers=headers)



    html=urllib2.urlopen(req).read()

    if n=='':

    #print html

        reg= '''<div class="text"><span class="righttext"><a href="//jandan.net/ooxx/page-(.*?)#comment-.*?">[\d]*</a></span><p><a href="//.*?"'''

    else:

        reg= '''<div class="text"><span class="righttext"><a href="//jandan.net/ooxx/page-.*?#comment-.*?">[\d]*</a></span><p><a href="//(.*?)"'''

    reg=re.compile(reg)

    img=re.findall(reg,html)

    return img

a=1

#创建下载图片的文件夹

#dirpath=os.path.splitext(path)  分离文件名与扩展名；默认返回(fname,fextension)元组，可做分片操作

dirpath=os.getcwd()+'/img'

if not os.path.exists(dirpath):

    os.mkdir(dirpath)

#下载图片

nu=raw_input('你想获取多少页（每页大概11张图片）:')

nowpage=getimg()[0]

print nowpage



for n in range(int(nowpage)-int(nu)+1,int(nowpage)+1):

    print '获取第%s页'%n



    for i in getimg('/page-%s'%n):

        print '正在下载第%s张图片'%a

        k=r'http://'+i

        print k

        urllib.urlretrieve(k, 'img/%s' %i.split('/')[-1])

        #time.sleep(2) #出现响应超时的情况时加上这句

        a+=1



'''

        try:

        #urllib.urlretrieve(i,'img/%s'%str(i)[-8:-1])

            urllib.urlretrieve(i,'img/%s.png'%a)

            a+=1

        except:

            print "Unexpected error:", sys.exc_info()[0]

'''

print '总共下载%s张图片'%(int(a)-1)

py3版本：



#from __future__ import unicode_liter

import urllib.request

import re,sys,os

headers={

# 'Cookie':'__cfduid=df3295a9ee824f447e48bcda4f871d50f1505877948; _ga=GA1.2.1288199068.1505877788; _gid=GA1.2.1501836844.1505877789; _gat=1',

'Referer':'http://jandan.net/',

'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36',



}

def getimg(n=''):

    req=urllib.request.Request('http://jandan.net/ooxx'+n,headers=headers)



    html=urllib.request.urlopen(req).read().decode('utf-8')

    if n=='':

    #print html

        reg= '''<div class="text"><span class="righttext"><a href="//jandan.net/ooxx/page-(.*?)#comment-.*?">[\d]*</a></span><p><a href="//.*?"'''

    else:

        reg= '''<div class="text"><span class="righttext"><a href="//jandan.net/ooxx/page-.*?#comment-.*?">[\d]*</a></span><p><a href="//(.*?)"'''

    reg=re.compile(reg)

    img=re.findall(reg,html)

    return img



a=1

#创建下载图片的文件夹

#dirpath=os.path.splitext(path)  分离文件名与扩展名；默认返回(fname,fextension)元组，可做分片操作

dirpath=os.getcwd()+'/img'

if not os.path.exists(dirpath):

    os.mkdir(dirpath)

#下载图片

nu=input('你想获取多少页（每页大概21张图片）:')

nowpage=getimg()[0]

print(nowpage)



for n in range(int(nowpage)-int(nu),int(nowpage)):

    print('获取第%s页'%n)



    for i in getimg('/page-%s'%n):

        print('正在下载第%s张图片'%a)

        k=r'http://'+i

        print(k)

        urllib.request.urlretrieve(k, 'img/%s' %i.split('/')[-1])

        a+=1

'''

        try:

        #urllib.urlretrieve(i,'img/%s'%str(i)[-8:-1])

            urllib.urlretrieve(i,'img/%s.png'%a)

            a+=1

        except:

            print "Unexpected error:", sys.exc_info()[0]

'''

print('总共下载%s张图片'%(int(a)-1))

python爬取煎蛋图片的更多相关文章

Python 爬取煎蛋网妹子图片
#!/usr/bin/env python # -*- coding: utf-8 -*- # @Date : 2017-08-24 10:17:28 # @Author : EnderZhou (z ...
python爬取煎蛋网图片
``` py2版本: #-*- coding:utf-8 -*-#from __future__ import unicode_literimport urllib,urllib2,timeimpor ...
Python 爬取煎蛋
这个我是拿来参考的 import requests def url_open(url): response = requests.get(url) html = response.content re ...
python3爬虫爬取煎蛋网妹纸图片（上篇）
其实之前实现过这个功能,是使用selenium模拟浏览器页面点击来完成的,但是效率实际上相对来说较低.本次以解密参数来完成爬取的过程. 首先打开煎蛋网http://jandan.net/ooxx,查看 ...
python爬虫学习(1)__抓取煎蛋图片
#coding=utf-8 #python_demo 爬取煎蛋妹子图在本地文件夹 import requests import threading import time import os from ...
Python Scrapy 爬取煎蛋网妹子图实例（一）
前面介绍了爬虫框架的一个实例,那个比较简单,这里在介绍一个实例爬取煎蛋网妹子图,遗憾的是上周煎蛋网还有妹子图了,但是这周妹子图变成了随手拍, 不过没关系,我们爬图的目的是为了加强实战应用,管 ...
selenium爬取煎蛋网
selenium爬取煎蛋网直接上代码 from selenium import webdriver from selenium.webdriver.support.ui import WebDriv ...
python爬虫–爬取煎蛋网妹子图片
前几天刚学了python网络编程,书里没什么实践项目,只好到网上找点东西做. 一直对爬虫很好奇,所以不妨从爬虫先入手吧. Python版本:3.6 这是我看的教程:Python - Jack -Cui ...
Python 爬虫爬取煎蛋网图片
今天, 试着爬取了煎蛋网的图片. 用到的包: urllib.request os 分别使用几个函数,来控制下载的图片的页数,获取图片的网页,获取网页页数以及保存图片到本地.过程简单清晰明了直接上源代 ...

随机推荐

linux使用bbswitch+nvidia-xrun取代bumblebee
nvidia-xrun的比bumblebee使用nvidia optimus的性能更好,关键是xrun支持Vulkan. 本文保存并更新在github:levinit/itnotes/linux/ar ...
Maven（四）之Maven在IntelliJ IDEA的配置与使用
前面介绍了Maven的一些基本知识,这一篇讲一下在IntelliJ IDEA配置和使用Maven 一.配置Maven 在File->Settings->Build,Execution,De ...
[自制操作系统] BMP格式文件读取&图形界面系统框架/应用接口设计
本文将介绍在本人JOS中实现的简单图形界面应用程序接口,应用程序启动器,以及一些利用了图形界面的示例应用程序. 本文主要涉及以下部分: 内核/用户RW/RW调色板framebuffer共享区域 8bi ...
即时作图新工具—ProcessOn【推荐】…
www.processon.com 推荐这个在线作图网站:免费登录,云端存储,面向对象,最重要的是提供了丰富模板! 在线软件的人气会越来越高,这是趋势啊~
【★】RSA-什么是不对称加密算法？
不对称加密算法RSA浅析本文主要介绍不对称加密算法中最精炼的RSA算法.我们先说结论,也就是RSA算法怎么算,然后再讲为什么. 随便选取两个不同的大素数p和q,N=p*q,r=(p-1)*(q-1) ...
团队作业4——第一次项目冲刺（Alpha版本）4.24
·本次会议为第三次Scrum Meeting会议~ ·本次会议项目经理召开时间为15:00,在教学楼教室召开,召开时长约30分钟,探讨了昨日任务的进展.遇到的困难以及后续所要开展的工作. 1.站立式会 ...
201521123069 《Java程序设计》第5周学习总结
1. 本章学习总结 1.1 尝试使用思维导图总结有关多态与接口的知识点. 1.2 可选:使用常规方法总结其他上课内容. 参考资料: 百度脑图 XMind 1.1 1.2 (1)用Arrays.sort ...
201521123029《java程序设计》第2周学习总结
1. 本周学习总结 (1)完成了课后习题,对所学知识进一步巩固. (2)学会了JAVA中的选择结构,循环结构,其中条件必须为布尔表达式,与C++非0即真不同. (3)学会java中的break和con ...
201521123085 《Java程序设计》第一周学习总结
一本周学习总结学习了Java,又和老师见面了,这学期要好好学习Java了.Java这个东西刚刚接触很难懂,其实现在还是不懂,但是我会慢慢地努力地好好学,上机课第一次在黑色的框框弄出Hello wo ...
201521123097《Java程序设计》第九周学习总结
1. 本周学习总结 1.1 以你喜欢的方式(思维导图或其他)归纳总结异常相关内容. 2. 书面作业本次PTA作业题集异常 1.常用异常题目5-1 1.1 截图你的提交结果(出现学号) 1.2 自己 ...

python爬取煎蛋图片

python爬取煎蛋图片的更多相关文章

随机推荐

热门专题