前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理

如何使用python去实现一个爬虫？

模拟浏览器
请求并获取网站数据
在原始数据中提取我们想要的数据数据筛选
将筛选完成的数据做保存

完成一个爬虫需要哪些工具

Python3.6
pycharm 专业版

目标网站

图片之家

https://www.tupianzj.com/

爬虫代码

导入工具

python 自带的标准库

import ssl

系统库自动创建保存文件夹

import os

下载包

import urllib.request

网络库第三方包

import requests

网页选择器

from bs4 import BeautifulSoup

默认请求https网站不需要证书认证

ssl._create_default_https_context = ssl._create_unverified_context

模拟浏览器

headers = {

    'User-Agent':

        'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36',

}

自动创建文件夹

if not os.path.exists('./插画素材/'):

    os.mkdir('./插画素材/')

else:

    pass

请求操作

url = 'https://www.tupianzj.com/meinv/mm/meizitu/'

html = requests.get(url, headers=headers).text

对页面原始数据做数据提取

soup = BeautifulSoup(html, 'lxml')

images_data = soup.find('ul', class_='d1 ico3').find_all_next('li')

for image in images_data:

    image_url = image.find_all('img')

    for _ in image_url:

        print(_['src'], _['alt'])

下载

try:

    urllib.request.urlretrieve(_['src'], './插画素材/' + _['alt'] + '.jpg')

except:

    pass

效果图

Python爬虫实战详解：爬取图片之家的更多相关文章

Python爬虫实战二之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 前言亲爱的们,教程比较旧了,百度贴吧页面可能改版,可能代码不 ...
Python爬虫实战一之爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...
转 Python爬虫实战二之爬取百度贴吧帖子
静觅 » Python爬虫实战二之爬取百度贴吧帖子大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标 ...
转 Python爬虫实战一之爬取糗事百科段子
静觅 » Python爬虫实战一之爬取糗事百科段子首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致 ...
简单的python爬虫教程：批量爬取图片
python编程语言,可以说是新型语言,也是这两年来发展比较快的一种语言,而且不管是少儿还是成年人都可以学习这个新型编程语言,今天南京小码王python培训机构变为大家分享了一个python爬虫教程. ...
python爬虫知识点详解
python爬虫知识点总结(一)库的安装 python爬虫知识点总结(二)爬虫的基本原理 python爬虫知识点总结(三)urllib库详解 python爬虫知识点总结(四)Requests库的基本使 ...
python爬虫：利用BeautifulSoup爬取链家深圳二手房首页的详细信息
1.问题描述: 爬取链家深圳二手房的详细信息,并将爬取的数据存储到Excel表 2.思路分析: 发送请求--获取数据--解析数据--存储数据 1.目标网址:https://sz.lianjia.com ...
Python爬虫实战三之爬取嗅事百科段子
一.前言俗话说,上班时间是公司的,下班了时间才是自己的.搞点事情,写个爬虫程序,每天定期爬取点段子,看着自己爬的段子,也是一种乐趣. 二.Python爬取嗅事百科段子 1.确定爬取的目标网页首先我 ...
8.Python爬虫实战一之爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...

随机推荐

Spring AOP系列（五）—反射
前言前面我们进行了代理模式.静态代理.动态代理的学习.而动态代理就是利用Java的反射技术(Java Reflection),在运行时创建一个实现某些给定接口的新类(也称"动态代理类&qu ...
go分库分表主从分离例子
网上有很多介绍分库分表的文章,方法很多: 分区表切分垂直切分水平切分区间切分取模切分这里不细说分库分表简单,但后期会带来一系列的难题: 事务 Join 分页数据库: master和sla ...
Linux I2C驱动框架
Linux的I2C体系结构分为3个组成部分: I2C核心( i2c-core.c ): I2C核心提供了I2C总线驱动和设备驱动的注册.注销方法.I2C通信方法("algorithm&qu ...
makefile实验一 make的基本原则、伪目标、以及不使用.PHONY确实现和伪目标一样功能的一种方法
target: echo "hello_Makefile" .PHONY: clean clean: echo "clean Done .2019" 使用伪目标 ...
Java知识系统回顾整理01基础02面向对象02属性
一.根据实例给出"属性"的定义一个英雄有姓名,血量,护甲等等状态这些状态就叫做一个类的属性二.属性的类型属性的类型可以是基本类型,比如int整数,float 浮点数也可以 ...
C++中cout和cerr
参考:https://blog.csdn.net/garfield2005/article/details/7639833 之前一直在用,但就是没在意两者到底有啥却别,今天又想到这个问题,总结下吧(以 ...
JVM内存布局（又叫Java运行时数据区）
JVM 堆中的数据是共享的,是占用内存最大的一块区域. 可以执行字节码的模块叫作执行引擎. 执行引擎在线程切换时怎么恢复?依靠的就是程序计数器. JVM 的内存划分与多线程是息息相关的.像我们程序中运 ...
ORA-00001: unique constraint (string.string) violated 违反唯一约束条件(.)
ORA-00001: unique constraint (string.string) violated ORA-00001: 违反唯一约束条件(.) Cause: An UPDATE or I ...
初探电波钟(A Brief Introduction Of Radio Controlled Clock AND Its Appliciations)
文档标识符:Radio_Controlled_Clock_T-D-P11 作者:DLHC 最后修改日期:2020.10.12 本文链接:https://www.cnblogs.com/DLHC-TEC ...
手写一个HTTP框架：两个类实现基本的IoC功能
jsoncat: 仿 Spring Boot 但不同于 Spring Boot 的一个轻量级的 HTTP 框架国庆节的时候,我就已经把 jsoncat 的 IoC 功能给写了,具体可以看这篇文章&l ...

Python爬虫实战详解：爬取图片之家

前言

爬虫代码

Python爬虫实战详解：爬取图片之家的更多相关文章

随机推荐

热门专题