Python学习之爬虫

又被老师要求去搞Python ,曰,,下午回顾了一下Python的基础知识,写了个爬取图片的程序,在此做个分享吧。不喜勿喷

import requests

import time

from bs4 import BeautifulSoup

import uuid

# 下载单个页面的一些图片

def downLoader(url,page):

    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.4843.400 QQBrowser/9.7.13021.400'}

    if(page == 1):

        res = requests.get(url + "index.html", headers=headers)  # 第一页

    if(page != 1):

        page = str(page)

        res = requests.get(url + "index_" + page + ".html", headers=headers)

    res.encoding = 'gbk'

    soup = BeautifulSoup(res.text, 'lxml')

    for i in range(1,22):

        i = str(i)

        if page == 1:

            add = soup.select('#main > div.slist > ul > li:nth-child(' + i + ') > a > span > img')

        else:

            add = soup.select('#main > div.slist > ul > li:nth-child(' + i + ') > a > img')

        #在下面写下载到本地的代码

        # print(url + add[0].get('src'))

        down(url + add[0].get('src'), str(uuid.uuid1()))

    #for index in add:

        #print(url + add[index].get('src'))

        # return url + add[index].get('src')  # 返回url

    pass

def down(url, name):

    with open('G:\学习\PyCharm\PyCharm2017\py工作环境\爬虫\壁纸'+ name+'.png', 'wb+') as f:

        f.write(requests.get(url).content)

        f.flush()

    pass

if __name__ == '__main__':

    url = 'http://pic.netbian.com/'

    print('请骚等````')

    for i in range(1,11):

        time.sleep(0.5)

        downLoader(url,i)

Python学习之爬虫的更多相关文章

Python学习网络爬虫--转
原文地址:https://github.com/lining0806/PythonSpiderNotes Python学习网络爬虫主要分3个大的版块:抓取,分析,存储另外,比较常用的爬虫框架Scra ...
python 学习之爬虫练习
通过学习python,写两个简单的爬虫,没用线程,本地抓取速度还不错,有些瑕疵就是抓的图片有些显示不出来,代码做个笔记记录下: # -*- coding:utf-8 -*- import re imp ...
python学习之爬虫(一) ——————爬取网易云歌词
接触python也有一段时间了,一提到python,可能大部分pythoner都会想到爬虫,没错,今天我们的话题就是爬虫!作为一个小学生,关于爬虫其实本人也只是略懂,怀着"Done is b ...
【Python学习】爬虫报错处理bs4.FeatureNotFound
[BUG回顾] 在学习Python爬虫时,运Pycharm中的文件出现了这样的报错: bs4.FeatureNotFound: Couldn’t find a tree builder with th ...
python学习之爬虫初体验
作业来源: "https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2851" ** 1.简述爬虫原理通用爬虫即(搜索 ...
python学习笔记——爬虫学习中的重要库urllib
1 urllib概述 1.1 urllib库中的模块类型 urllib是python内置的http请求库其提供了如下功能: (1)error 异常处理模块 (2)parse url解析模块 (3)r ...
python学习笔记——爬虫中提取网页中的信息
1 数据类型网页中的数据类型可分为结构化数据.半结构化数据.非结构化数据三种 1.1 结构化数据常见的是MySQL,表现为二维形式的数据 1.2 半结构化数据是结构化数据的一种形式,并不符合关系 ...
Python学习---网页爬虫[下载图片]
爬虫学习--下载图片 1.主要用到了urllib和re库 2.利用urllib.urlopen()函数获得页面源代码 3.利用正则匹配图片类型,当然正则越准确,下载的越多 4.利用urllib.url ...
Python学习之爬虫
目标:下载贴吧或空间中所有图片步骤:(1)获取页面代码 (2)获取图片URL,下载图片代码如下: #!/usr/bin/python import re import urllib def get ...
python学习笔记——爬虫的抓取策略
1 深度优先算法 2 广度/宽度优先策略 3 完全二叉树遍历结果深度优先遍历的结果:[1, 3, 5, 7, 9, 4, 12, 11, 2, 6, 14, 13, 8, 10] 广度优先遍历的结果 ...

随机推荐

mysql 删除数据所有表
SELECT CONCAT('drop table ',table_name,';') FROM information_schema.`TABLES` WHERE table_schema='car ...
学习笔记||Vue踩过的坑3.0
11.VUE之const,var,let VUE-var 用var命令声明的变量,是在全局范围内有效的 VUE-let let声明的变量,只是在当前循环的代码块中有效. let不允许在相同的作用域内重 ...
在Unity3D中开发的Dissolve Shader
Swordmaster Dissolve Shaders 特点本插件共包含两种Dissolve Shader: (1).一种类型是Bumped Specular工作流的Dissolve Shader ...
PHP Redis 基本命令
连接到 redis 服务 //连接本地的 Redis 服务 $redis = new Redis(); $redis->connect('127.0.0.1', 6379);//查看服务是否运行 ...
Java基础|01.基础语法(1)
目录 00x1 基本语法 1.类的语法 2.对象的语法 3.方法的声明 4.小例子 00x2 类和对象的关系 1.堆.栈和元空间 2.基本数据类型和引用数据类型的区别 3. 空对象(null) 00x ...
sql 字符串末尾空格不占长度
print len('qwer ');--4 print len('qwer ');--4 print len('qwer ' + 't');-- ...
pandas的groupby.apply和直接apply效果是不一样的
GroupBy.apply(func, *args, **kwargs)[source] Apply function func group-wise and combine the results ...
QTreewidget树状列表右击事件
树状列表右击事件(添加删除修改等操作) 思路:首先我们需要一个void contextMenuEvent(QContextMenuEvent * event); 管理Menu事件的一个接口此接口 ...
Python调用钉钉群机器人发送群消息
1.首先需要一个钉钉群,群才有机器人 2.群设置->智能群助手->添加机器人->自定义机器人 3.添加自定义机器人,配置如下:给机器人命名,选择加签.保存机器人的秘钥.Webhook ...
python 添加文件模板，默认添加作者时间等必要信息
1.模板设置配置路径:Setting-Editor-File and Code Templates-Python-Script 2.示例输入代码如下(示例): #!/usr/bin/env pyt ...

Python学习之爬虫

Python学习之爬虫的更多相关文章

随机推荐

热门专题