python基础学习1-第一个网络爬虫程序

#!/usr/bin/env python

# -*- coding:utf-8 -*- 煎蛋网抓妹子图

import urllib.request

import  os

import random

def url_open(url): #定义打开网络连接函数

    req = urllib.request.Request(url)#创建Request对象

    #给Request对象添加伪装头文件

    req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36')

    #定义个代理IP列表 用于随机选择代理IP

    iplist=['218.240.53.54:81','123.7.78.157:9999','112.95.105.26:9999','61.174.10.22:8080','115.52.204.30:9999']

    #创建代理对象

    proxy_support = urllib.request.ProxyHandler({'http':random.choice(iplist)})

    opener = urllib.request.build_opener(proxy_support)

    #设置代理对象伪装头文件

    opener.addheaders=[("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36")]

    #安装代理文件

    urllib.request.install_opener(opener)

    #打开对应URL

    respons = urllib.request.urlopen(url)

    #接收对应URL的html代码

    html = respons.read()

    return  html

def get_page(url):#定义查找图片页面函数

    html=url_open(url)#打开URL页面或的html代码

    html=html.decode('utf-8')#用utf-8反编码

    a=html.find('current-comment-page')+23#查找html代码中current-comment-page标志+23偏移量 得到图片页码 <span class="current-comment-page">[2110]</span>其中的2110

    b=html.find(']',a) #定义结束位置

    return (html[a:b])#返回取得的页码

def find_img(url):

   html= url_open(url).decode('utf-8')#打开URL文件 把返回的html文件utf-8反编译

   img_addrs=[]#定义图片地址列表

   a=html.find('img src=')#在html文件中查找所有img src开头的 图片文件

   while a!=-1: #a=-1时表示find完毕

       b=html.find('.jpg',a,a+255)#查询到 img_src开头 和.jpg结尾的

       if b != -1:

          img_addrs.append(html[a+9:b+4])#查询到满足条件的html代码信息 就保存在图片列表中

       else:

          b=a+9

       a=html.find('img src=',b)

   return img_addrs

def save_imgs(folder,img_adds):

    for each in img_adds:

        filename = each.split('/')[-1]

        with open(filename,'wb') as f:

            img=url_open(each)

            f.write(img)

def down_mm(folder='downloadimg',pages=10):

    os.mkdir(folder)#新建文件夹

    os.chdir(folder)#切换到当前文件夹

    url="http://jandan.net/ooxx/"

    page_num=int(get_page(url))#取得开始页面号

    print(str(page_num))

    for i in range(pages):#依次页面号递减 返回前10页的图片

        page_num -=i

        page_url=url+'page-'+str(page_num)+'#comments'#拼出页面URL+图片页面号 http://jandan.net/ooxx/page-2110#comments

        img_adds= find_img(page_url)#查找出当前打开页面的所有图片路径和文件名称信息保存在列表中

        save_imgs(folder,img_adds)#根据列表中保存的文件路径和名称 通过网络下载图片到指定文件夹下面

down_mm()

python基础学习1-第一个网络爬虫程序的更多相关文章

使用Python写的第一个网络爬虫程序
今天尝试使用python写一个网络爬虫代码,主要是想訪问某个站点,从中选取感兴趣的信息,并将信息依照一定的格式保存早Excel中. 此代码中主要使用到了python的以下几个功能,因为对python不 ...
Day1 Python基础学习
一.编程语言分类 1.简介机器语言:站在计算机的角度,说计算机能听懂的语言,那就是直接用二进制编程,直接操作硬件汇编语言:站在计算机的角度,简写的英文标识符取代二进制去编写程序,本质仍然是直接操作 ...
Day1 Python基础学习——概述、基本数据类型、流程控制
一.Python基础学习一.编程语言分类 1.简介机器语言:站在计算机的角度,说计算机能听懂的语言,那就是直接用二进制编程,直接操作硬件汇编语言:站在计算机的角度,简写的英文标识符取代二进制去编 ...
【网络爬虫入门01】应用Requests和BeautifulSoup联手打造的第一条网络爬虫
[网络爬虫入门01]应用Requests和BeautifulSoup联手打造的第一条网络爬虫广东职业技术学院欧浩源 2017-10-14 1.引言在数据量爆发式增长的大数据时代,网络与用户的沟 ...
python3.4学习笔记(十四) 网络爬虫实例代码，抓取新浪爱彩双色球开奖数据实例
python3.4学习笔记(十四) 网络爬虫实例代码,抓取新浪爱彩双色球开奖数据实例新浪爱彩双色球开奖数据URL:http://zst.aicai.com/ssq/openInfo/ 最终输出结果格 ...
0003.5-20180422-自动化第四章-python基础学习笔记--脚本
0003.5-20180422-自动化第四章-python基础学习笔记--脚本 1-shopping """ v = [ {"name": " ...
Web基础学习---HTML 第一天
Web基础学习---HTML 第一天 1 HTML标签 2.CSS Web开发基础HTML好吧离开Python几天...如何学好前端?? 多去看别人的网站.多看.多写.多练,(知乎.36Kr.)多练就 ...
python基础学习（起步）
目录 python基础学习(起步) 变量常量变量的内存管理 python垃圾回收机制变量的其他赋值方式今日编程小题本人能力有限,若有偏颇之处请读者大大不吝赐教! 祝大家每天都在成长! pyt ...
Python基础学习二
Python基础学习二 1.编码 utf-8编码:自动将英文保存为1个字符,中文3个字符.ASCll编码被囊括在内. unicode:将所有字符保存为2给字符,容纳了世界上所有的编码. 2.字符串内置 ...
Python基础学习之环境搭建
Python如今成为零基础编程爱好者的首选学习语言,这和Python语言自身的强大功能和简单易学是分不开的.今天我们将带领Python零基础的初学者完成入门的第一步——环境搭建.本文会先来区分几个在P ...

随机推荐

Oracle EBS 查询客户报错查询已超出 200 行。可能存在更多的行,请限制查询。
ReadWriteLock ReentrantReadWriteLock
ReadWriteLock管理一组锁,一个是只读的锁,一个是写锁.读锁可以在没有写锁的时候被多个线程同时持有,写锁是独占的. 所有读写锁的实现必须确保写操作对读操作的内存影响.换句话说,一个获得了读锁 ...
C#获取文件路径的几种方法
//获取启动了应用程序的可执行文件的路径,不包括可执行文件的名称. string str5=Application.StartupPath;//可获得当前执行的exe的文件名. string str1 ...
Programming Assignment 5: Burrows–Wheeler Data Compression
编程作业五作业链接:Burrows-Wheeler Data Compression & Checklist 我的代码:MoveToFront.java & CircularSuff ...
PHP设计模式系列 - 外观模式
外观模式通过在必需的逻辑和方法的集合前创建简单的外观接口,外观设计模式隐藏了调用对象的复杂性. 外观设计模式和建造者模式非常相似,建造者模式一般是简化对象的调用的复杂性,外观模式一般是简化含有很多逻 ...
ajax跨域请求在IE8中存在的问题
从没打算怎么去兼容老版本IE,毕竟微软自己都放弃了,可是最近做好的东西在所有的IE下都会出问题:GetJson不执行本来觉得挺简单的,度娘也给出了一大堆的解决方案,可惜,基本上都是在说缓存,实际上并 ...
2、基于wsgiref模块DIY一个web框架
一 web框架 Web框架(Web framework)是一种开发框架,用来支持动态网站.网络应用和网络服务的开发.这大多数的web框架提供了一套开发和部署网站的方式,也为web行为提供了一套通用的方 ...
JavaScript-2.内置对象---简单脚本之弹出对话框显示当前时间 ---ShinePans
<html> <head> <meta http-equiv="content-type" content="text/html; char ...
1084. [SCOI2005]最大子矩阵【网格DP】
Description 这里有一个n*m的矩阵,请你选出其中k个子矩阵,使得这个k个子矩阵分值之和最大.注意:选出的k个子矩阵不能相互重叠. Input 第一行为n,m,k(1≤n≤100,1≤m≤ ...
Android学习路线总结，绝对干货(转)
转自:https://www.cnblogs.com/yishaochu/p/5436094.html 一.前言不知不觉自己已经做了几年开发了,由记得刚出来工作的时候感觉自己能牛逼,现在回想起来感觉 ...

python基础学习1-第一个网络爬虫程序

python基础学习1-第一个网络爬虫程序的更多相关文章

随机推荐

热门专题