Day04_网络爬虫图片收获

#所需模块 requests 、Beautifulsoup、urllib

1. response = requests.get('www.baidu.com') #获取网站响应

2.html = response.text #获取网页内容

3.soup = Beautifulsoup(html,'html.parser') #创建对象，对网页进行解析

4.girl = soup.find_all('img') #根据img标签进行查找，形成列表

5.imgsrc = i.get('src') #根据src字段进行获取src路径

6.urllib.request.urlretrieve(imgsrc,'./iamge/%s.jpg'%x) #下载图片

附代码：

#Author_Liukai 2018年8月13日07:43:35

import requests
import urllib.request
from bs4 import BeautifulSoup

x = 1

def getgirlimg(page):
    response = requests.get('https://www.dbmeinv.com/index.htm?cid={}'.format(page+1))
    html = response.text
    soup = BeautifulSoup(html,'html.parser')
    girl = soup.find_all('img')
    global x
    for i in girl:
        imgsrc = i.get('src')
        print('下载第{}张图片'.format(x))
        urllib.request.urlretrieve(imgsrc,'./image1/%s.jpg'%x)
        x+=1

for i in range(1,11):
    print('+++++++++++++++++++++')
    print('正在准备下载第{}页图片'.format(i))
    print('+++++++++++++++++++++')
    getgirlimg(i)

Day04_网络爬虫图片收获的更多相关文章

java假设模拟请求重新启动路由器(网络爬虫经常使用)，还有java怎样下载图片
我们假设在公司或家里使用网络爬虫去抓取自己索要的一些数据的时候,经常对方的站点有defence机制,会给你的http请求返回500错误,仅仅要是同样IP就请求不到数据,这时候我们仅仅能去重新启动路由器 ...
手把手教你写基于C++ Winsock的图片下载的网络爬虫
手把手教你写基于C++ Winsock的图片下载的网络爬虫先来说一下主要的技术点: 1. 输入起始网址,使用ssacnf函数解析出主机号和路径(仅处理http协议网址) 2. 使用socket套接字 ...
php 网络爬虫，爬一下花瓣的图片
今天无聊看在知乎上看到有人写网络爬虫爬图片(￣▽ ￣) 传送门: 福利 - 不过百行代码的爬虫爬取美女图:https://zhuanlan.zhihu.com/p/24730075 福利 - 不过十行 ...
使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip install ...
python网络爬虫之解析网页的正则表达式(爬取4k动漫图片)[三]
前言 hello,大家好本章可是一个重中之重,因为我们今天是要爬取一个图片而不是一个网页或是一个json 所以我们也就不用用到selenium模块了,当然有兴趣的同学也一样可以使用selenium去 ...
python网络爬虫之解析网页的BeautifulSoup(爬取电影图片)[三]
目录前言一.BeautifulSoup的基本语法二.爬取网页图片扩展学习后记前言本章同样是解析一个网页的结构信息在上章内容中(python网络爬虫之解析网页的正则表达式(爬取4k动漫图 ...
吴裕雄--天生自然python学习笔记：编写网络爬虫代码获取指定网站的图片
我们经常会在网上搜索井下载图片,然而一张一张地下载就太麻烦了,本案例就是通过网络爬虫技术, 一次性下载该网站所有的图片并保存 . 网站图片下载并保存将指定网站的 .jpg 和 .png 格式的图片 ...
ASP.NET网络爬虫小研究 HtmlAgilityPack基础，爬取数据保存在数据库中再显示再自己的网页中
1.什么是网络爬虫关于爬虫百度百科这样定义的:网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些 ...
第3次作业-MOOC学习笔记：Python网络爬虫与信息提取
1.注册中国大学MOOC 2.选择北京理工大学嵩天老师的<Python网络爬虫与信息提取>MOOC课程 3.学习完成第0周至第4周的课程内容,并完成各周作业 4.提供图片或网站显示的学习进 ...

随机推荐

跟踪mqttv3源码（一）
Spring整合MQTT pom.xml  <dependency> <groupId>org.eclipse.paho</ ...
爬虫（四）requests模块1
引入 Requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用. 警告:非专业使用其他 HTTP 库会导致危险的副作用,包括:安全缺陷症.冗余代码症.重新发明轮子症.啃文档 ...
ajax 提交数组泛型集合
ajax 提交数组泛型集合发表于2015/12/31 14:26:29 5117人阅读分类: mvc asp.net webapi ORM 转载:http://blog.csdn.net/li ...
QT：创建一个widget，包含源文件，头文件，以及ui文件
1. 安装QT 2. 在QT Welcome画面,点击 New Project 3. 选择Application--Qt Widgets Application 4. 按提示创建即可文件目录如下: ...
python - 闭包，迭代器
一.第一类对象 1.函数名的运用函数名是一个变量,但它是一个特殊的变量,与括号配合可以执行函数的变量 1.函数名的内存地址 def func1(): print('你是谁,你来自哪里 ...
【cogs247】售票系统【线段树】
售票系统输入文件:railway.in 输出文件:railway.out 时间限制:1 s 内存限制:128 MB [问题描述] 某次列车途经C个城市,城市编号依次为1到C,列车上共有S个座位,铁路 ...
MobX 学习
资源汇集帖: https://github.com/mobxjs/awesome-mobx/blob/master/README-CN.md 中文文档: http://cn.mobx.js.org/ ...
element-ui的那些坑与总结
tags: 默认情况下,下划线是文本宽度如果要加宽,则可以设置文本(label)的padding, 常规情况下,无法改label宽度,因为他是动态计算的不过,可以通过自定义,把label拿出来,自 ...
python之路-----前端之css
本篇内容 CSS 语法 css的四种引入方式 css选择器 css属性操作 Caution! 后台管理布局 css响应式布局一.CSS语法 CSS 规则由两个主要的部分构成:选择器,以及一条或多条声 ...
Python爬虫入门之Urllib库的高级用法
1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性. 首先,打开我们的浏览 ...

Day04_网络爬虫图片收获

Day04_网络爬虫图片收获的更多相关文章

随机推荐

热门专题