Python爬虫抓取糗百的图片，并存储在本地文件夹

思路：

1.观察网页，找到img标签

2.通过requests和BS库来提取网页中的img标签

3.抓取img标签后，再把里面的src给提取出来，接下来就可以下载图片了

4.通过urllib的urllib.urlretrieve来下载图片并且放进文件夹里面（第一之前的准备工作就是获取当前路径然后新建一个文件夹）

5.如果有多张图片，不断的重复3-4

由于爬虫写得少，通过自己的调试，终于写了出来了

下面直接上代码：

 #coding = 'utf-8'

 import requests

 from bs4 import BeautifulSoup

 import urllib

 import os

 import sys

 reload(sys)

 sys.setdefaultencoding("utf-8")

 if __name__ == '__main__':

     url = 'http://www.qiushibaike.com/'

     res = requests.get(url)

     res.encoding = 'utf-8'

     soup = BeautifulSoup(res.text, 'html.parser')

     imgs = soup.find_all("img")

     _path = os.getcwd()

     new_path = os.path.join(_path , 'pictures')

     if not os.path.isdir(new_path):

         os.mkdir(new_path)

     new_path += '\ '

     try:

         x = 1

         if imgs == []:

             print "Done!"

         for img in imgs:

             link = img.get('src')

             if 'http' in link:

                 print "It's downloading %s" %x + "th's piture"

                 urllib.urlretrieve(link, new_path + '%s.jpg' %x)

                 x += 1

     except Exception, e:

         print e

     else:

         pass

     finally:

         if x :

             print "It's Done!!!"

接下来上结果：

python3中的版本，略有有一点点不同，就是下载图片的方法需要加上request，然后才能使用urlretrieve方法进行下载

 #!/usr/bin/python3

 #coding = 'utf-8'

 import requests

 from bs4 import BeautifulSoup

 import urllib

 import os

 import sys

 #reload(sys)

 #sys.setdefaultencoding("utf_8")

 if __name__ == '__main__':

     url = 'http://www.qiushibaike.com/'

     res = requests.get(url)

     res.encoding = 'utf-8'

     print (res)

     soup = BeautifulSoup(res.text,'html.parser')

     #imgs = soup.find_all('img', attrs={'class': 'item_img'})

     imgs = soup.find_all('img')

     _path = os.getcwd()

     new_path = os.path.join(_path,'pictures\\')#需要添加斜杠，才能将图片放进单独的文件夹里面

     print(new_path)

     if not os.path.isdir(new_path):

         os.mkdir(new_path)

     #new_path = new_path + '\'

     #print (str(new_path))

     try:

         x = 1

         if imgs == []:

             print ("Done!")

             print (len(imgs))

         for img in imgs:

             link = img.get('src')

             link = 'http:' + link

             #print (link)

             if True:

                 print ("It's downloading %s" %x + "th's piture")

                 #python3如下使用urlretrieve

                 #_new111 = new_path + '%s.jpg'%5

                 #print (_new111)

                 urllib.request.urlretrieve(link,new_path + '%s.jpg' %x)

                 x += 1

     except Exception:

         pass

 #    else:

 #        pass

     finally:

         if x:

             print ("It's Done!")

结果都是一样，就不再另外贴结果截图了

总结：

虽然一开始思路不清晰，而且对怎样把图片保存下来，都不是很熟

但是经过自己的思考，只要思路清楚了，确定了方向就好办了，至于函数不会用的话，可以直接百度查，很方便的

总而言之，写程序之前一定要有思路，边写边想思路是不行的，那样容易返工

不过最后还是写出来了，哈哈

也请大家来共同学习和指正

----------------------

转载的话请大家注明出处哦，谢谢了

Python爬虫抓取糗百的图片，并存储在本地文件夹的更多相关文章

Python爬虫——抓取糗百段子
在别人博客里学习的抓取糗百段子,由于糗百不断的更新,代码需要改正. 抓取网页:http://www.qiushibaike.com/hot/page/1 修改后的代码如下: # -*- coding ...
Python 爬虫: 抓取花瓣网图片
接触Python也好长时间了,一直没什么机会使用,没有机会那就自己创造机会!呐,就先从爬虫开始吧,抓点美女图片下来. 废话不多说了,讲讲我是怎么做的. 1. 分析网站想要下载图片,只要知道图片的地址 ...
python 爬虫抓取心得
quanwei9958 转自 python 爬虫抓取心得分享 urllib.quote('要编码的字符串') 如果你要在url请求里面放入中文,对相应的中文进行编码的话,可以用: urllib.quo ...
使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip install ...
Python爬虫----抓取豆瓣电影Top250
有了上次利用python爬虫抓取糗事百科的经验,这次自己动手写了个爬虫抓取豆瓣电影Top250的简要信息. 1.观察url 首先观察一下网址的结构 http://movie.douban.com/to ...
Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储
Python爬虫可以说是好玩又好用了.现想利用Python爬取网页股票数据保存到本地csv数据文件中,同时想把股票数据保存到MySQL数据库中.需求有了,剩下的就是实现了. 在开始之前,保证已经安装好 ...
python学习-抓取知乎图片
#!/bin/usr/env python3 __author__ = 'nxz' """ 抓取知乎图片webdriver Chromedriver驱动需要安装,并指定d ...
python爬虫抓取哈尔滨天气信息（静态爬虫）
python 爬虫爬取哈尔滨天气信息 - http://www.weather.com.cn/weather/101050101.shtml 环境: windows7 python3.4(pip i ...
Python爬虫 —— 抓取美女图片
代码如下: #coding:utf-8 # import datetime import requests import os import sys from lxml import etree im ...

随机推荐

protobuf C++ 使用示例
1.在.proto文件中定义消息格式 2.使用protobuf编译器 3.使用c++ api来读写消息 0.为何使用protobuf? 1.原始内存数据结构,可以以二进制方式sent/saved.这种 ...
Socket Server-基于线程池的TCP服务器
了解线程池在http://blog.csdn.net/ns_code/article/details/14105457(读书笔记一:TCP Socket)这篇博文中,服务器端采用的实现方式是:一个客 ...
【原】灵活运用sessionStorage或者localStorage
有时,一个app中,后台并没有提供页面中对应的信息接口,需要前端在页面跳转时把某些信息带入下一个页面,一般想到用url后带参数的方法,但是有时需要带的参数过长,就不适合用这个方法了,所以用sessio ...
使用Xamarin.Forms平台开发移动应用指南
下载书:链接: http://pan.baidu.com/s/1c29H9KG 密码: 7esm 注:捣鼓虚拟机把Hyper-V关闭,后来Xamarin搞挂了,所以暂停翻译. 第1章 Xamarin. ...
清空SQL Server数据库中所有表数据的方法(转)
清空SQL Server数据库中所有表数据的方法其实删除数据库中数据的方法并不复杂,为什么我还要多此一举呢,一是我这里介绍的是删除数据库的所有数据,因为数据之间可能形成相互约束关系,删除操作可能陷入 ...
根据 MySQL 状态优化 ---- 4. 临时表
查看 MySQL 服务器运行的各种状态值: mysql> show global status: 4. 临时表查看设置: mysql> show variables where Vari ...
Unity3D 第一人称控制器 C#脚本
CharacterMotor.cs using UnityEngine; using System.Collections; /** * @Author : www.xuanyusong.com */ ...
前端设计师也有必要学习seo，推荐一个seo博客
做前端设计师有一段时间了,现在越来越觉得作为一个前端设计师,必须要懂一些seo的知识. 因为公司的seo们,总是在网站做好以后,提出各种各样的网站修改的需求. 如果前端设计师,能够了解一些基本的seo ...
在windows编译MariaDB
OS: Windows XP sp3 IDE: VS2010 MariaDB: V5.5 (到目前为止2016.5,中文域(.cn)只有清华大学 TUNA 镜像源可用) (.tar.gz为源码:.zi ...
Django中提示TemplateDoesNotExist？
用的是1.9版本.需要在settings.py文件中设置TEMPLATES下的DIRS如下: TEMPLATES = [ { 'BACKEND': 'django.template.backends. ...

Python爬虫抓取糗百的图片，并存储在本地文件夹

Python爬虫抓取糗百的图片，并存储在本地文件夹的更多相关文章

随机推荐

热门专题