利用Python完成简单的图片爬取

  最近学习到了爬虫,瞬时觉得很高大上,想取什么就取什么,感觉要上天。这里分享一个简单的爬取汽车之家文章列表的图片教程,供大家学习。

需要的知识点储备

  本次爬虫脚本依赖两个模块:requests模块,BeautifulSoup模块。其中requests模块完成url的请求,而BeautifulSoup模块负责解析Html标签。

requests模块

  requests.get(url)  向URL发起GET请求

  requests.post(url)  向URL发起POST请求

  1. >>> import requests
  2. >>> response = requests.get('https://www.baidu.com')
  3. >>> print(response.text)
  4. <!DOCTYPE html>
  5.  
  6. <!--STATUS OK--><html> <head><meta http-equiv=content-type content=text/html;charset=utf-8><meta http-equiv=X-UA-Compatible content=IE=Edge><meta content=always name=referrer><link rel=styleshee
  7. ......
  8. ......
  9. </body> </html>
  10.  
  11. # 上面为页面信息
  12.  
  13. >>>

可以看到response是服务端返回的信息:在requests内部也被封装成了一个对象,它具有很多属性,主要如下:

  1. response.text:以字符串的形式显示返回的信息  
  2. response.content:以字节的形式显示返回的信息(bytes对象)  
  3. response.encode:告诉requests 已什么编码格式进行解析
  4. response.url:请求的url(当使用get方式发送数据时,可以显示具体的url)
  5. response.encoding:查看requests自动识别的网页编码
  6. response.json():对于返回值是json格式的,那么可以直接使用json(),提取成字典
  7. response.headers:获取响应头信息(响应头是一个字典,支持字典操作)
  8. response.cookies:获取服务端响应的cookies

数据提交

  访问站点时进行数据提交根据请求的方式不同,主要分两种,即GET提交,POST提交。

  当使用GET方式提交时,数据是拼接到URL进行提交的,那么这个时候需要使用params参数来定制提交的数据(提交的数据为字典类型)

  1. import requests
  2.  
  3. data = {'wd': '词典'}
  4. response = requests.get('http://www.baidu.com/s', params=data)
  5. print(response.url) # http://www.baidu.com/s?wd=%E8%AF%8D%E5%85%B8 --> 中文会被编码
  6. print(response.text) # 返回的内容

  当使用POST方式提交时,数据是放在请求体中提交的,那么这个时候就需要使用data参数了(提交的数据为字典类型)

  1. import requests
  2.  
  3. data = {'wd': '词典'}
  4. response = requests.post('http://www.baidu.com/s', data=data) # 注意

PS:requests的data参数使用application/x-www-form-urlencoded对POST数据编码。如果要传递JSON数据,可以使用json参数来让requests对数据使用json编码。

文件上传

上传文件需要更复杂的编码格式,但是requests把它简化成files参数:

  1. >>> upload_files = {'file': open('report.xls', 'rb')}
  2. >>> r = requests.post(url, files=upload_files)

在读取文件时,注意务必使用'rb'即二进制模式读取,这样获取的bytes长度才是文件的长度。

post()方法替换为put()delete()等,就可以以PUT或DELETE方式请求资源。

BeautifulSoup模块

  soup = BeautifulSoup(html页面,features='html.parser')    把返回的页面交给BeautifulSoup进行处理,生成soup对象,其中features表示使用的解析方式,这里使用html.parser,因为内置,其他的也可以使用lxml,速度要快于html.parser但是需要额外安装。

  soup 是BeautifulSoup对象,它具有查找修改获取等等众多功能。

    1. soup.find()  用于对HTML标签进行查找,找到一个就返回
    2. soup.find_all()  用户对HTML标签进行遍历,查到所有的标签后,以列表的形式返回  
    3. soup.get()   获取标签的单个属性的值
    4. soup.attrs        获取标签的所有属性,返回字典  
    5. soup.text    获取标签的内容

利用Python完成汽车直接文章列表的图片爬取

  想要爬取什么信息,那么首先需要我们查看一下相关网页的源码信息,确定要爬取的标签以及属性。

确认爬取信息

  打开http://www.autohome.com.cn/all/ 文章评测页面。打开调试模式,查看网页源码

  1. <div id="auto-channel-lazyload-article" class="article-wrapper">
  2.  
  3. <ul class="article">
  4.  
  5. <li data-artidanchor="908300">
  6. <a href="//www.autohome.com.cn/news/201710/908300.html#pvareaid=102624">
  7. <div class="article-pic"><img
  8. src="//www2.autoimg.cn/newsdfs/g21/M06/8A/59/120x90_0_autohomecar__wKgFVVnpmymAYrwNAAFqGWS9P0k275.jpg">
  9. </div>
  10. <h3>全新外观设计 全新Vanquish谍照曝光</h3>
  11. <div class="article-bar">
  12. <span class="fn-left">56分钟前</span>
  13. <span class="fn-right">
  14. <em><i class="icon12 icon12-eye"></i>4130</em>
  15. <em data-class="icon12 icon12-infor" data-articleid="908300"><i
  16. class="icon12 icon12-infor"></i>19</em>
  17. </span>
  18. </div>
  19. <p>[汽车之家 海外谍照] 日前,有海外媒体曝光了一组阿斯顿·马丁全新一代Vanquish车型路试谍照,新车在外观部分进行了全面的革新,此外,...</p>
  20. </a>
  21. </li>
  22.  
  23. <li data-artidanchor="908294">
  24. <a href="//www.autohome.com.cn/culture/201710/908294.html#pvareaid=102624">
  25. <div class="article-pic"><img
  26. src="//www3.autoimg.cn/newsdfs/g15/M10/B6/51/120x90_0_autohomecar__wKjByFnpd-uAVVwWAAFlp02ujCY900.jpg">
  27. </div>
  28. <h3>买游戏送汽车 《GT赛车》发布最强同捆</h3>
  29. <div class="article-bar">
  30. <span class="fn-left">3小时前</span>
  31. <span class="fn-right">
  32. <em><i class="icon12 icon12-eye"></i>8318</em>
  33. <em data-class="icon12 icon12-infor" data-articleid="908294"><i
  34. class="icon12 icon12-infor"></i>49</em>
  35. </span>
  36. </div>
  37. <p>[汽车之家 车坛勐料] 先来做个名字解释,“同捆”是指游戏主机外加一款或多款游戏的套装,很多时候“同捆包”中还会包含一些该游戏的周边产品,比如模型。...</p>
  38. </a>
  39. </li>
  40.  
  41. ...
  42. ...
  43. ...
  44.  
  45. </ul>
  46.  
  47. </div>

  观察源码发现,得出的结论:

    1. 要获取的信息都被一个div标签包裹,并且该标签具有id属性,由于id属性页面唯一,可以通过该属性确定查找范围
    2. li标签是一条一条的文章信息
    3. 每个文章信息中的img标签的src属性即为图片的地址

完整的代码

  1. import requests
  2. from bs4 import BeautifulSoup
  3.  
  4. response = requests.get(url='http://www.autohome.com.cn/all/')
  5. response.encoding = 'gbk'
  6. soup = BeautifulSoup(response.text,features='html.parser')
  7. tag = soup.find(id='auto-channel-lazyload-article')
  8. title = tag.find_all('li')
  9. for tag in title:
  10. if tag.find('h3'):
  11. print(tag.find('h3').text)
  12. if tag.find('a'):
  13. print('http:'+tag.find('a').get('href'))
  14. if tag.find('img'):
  15. img_url = tag.find('img').get('src')
  16. imgname = img_url.split('/')[-1]
  17. img_obj = requests.get('http:'+img_url)
  18. with open('imgs/%s' % imgname,mode='wb') as f:
  19. f.write(img_obj.content)

注意:

  • 由于汽车之家页面使用gbk编码,所以这里指定编码格式为gbk,否则会出现乱码。
  • 获取图片的url然后下载,把图片保存在本地

Python爬虫学习 - day1 - 爬取图片的更多相关文章

  1. python爬虫学习(7) —— 爬取你的AC代码

    上一篇文章中,我们介绍了python爬虫利器--requests,并且拿HDU做了小测试. 这篇文章,我们来爬取一下自己AC的代码. 1 确定ac代码对应的页面 如下图所示,我们一般情况可以通过该顺序 ...

  2. Python爬虫学习之爬美女图片

    最近看机器学习挺火的,然后,想要借助业余时间,来学习Python,希望能为来年找一份比较好的工作. 首先,学习得要有动力,动力,从哪里来呢?肯定是从日常需求之中来.我学Python看网上介绍.能通过P ...

  3. Python爬虫学习(二) ——————爬取前程无忧招聘信息并写入excel

    作为一名Pythoner,相信大家对Python的就业前景或多或少会有一些关注.索性我们就写一个爬虫去获取一些我们需要的信息,今天我们要爬取的是前程无忧!说干就干!进入到前程无忧的官网,输入关键字&q ...

  4. python爬虫学习(2) —— 爬一下ZOL壁纸

    我喜欢去ZOL找一些动漫壁纸当作桌面,而一张一张保存显然是太慢了. 那怎么办呢,我们尝试使用简单的爬虫来解决这个问题. 0. 本爬虫目标 抓取给定分类「或子分类」网址的内容 分析并得到每个分类下的所有 ...

  5. python爬虫学习之爬取全国各省市县级城市邮政编码

    实例需求:运用python语言在http://www.ip138.com/post/网站爬取全国各个省市县级城市的邮政编码,并且保存在excel文件中 实例环境:python3.7 requests库 ...

  6. python爬虫---scrapy框架爬取图片,scrapy手动发送请求,发送post请求,提升爬取效率,请求传参(meta),五大核心组件,中间件

    # settings 配置 UA USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, l ...

  7. python爬虫学习05-爬取图片

    python爬虫学习05-爬取图片 确定要爬取的网址:https://shenan.tuchong.com/20903415/#image309854686 要爬取的内容:使用浏览器插件xpath对图 ...

  8. python爬虫学习01--电子书爬取

    python爬虫学习01--电子书爬取 1.获取网页信息 import requests #导入requests库 ''' 获取网页信息 ''' if __name__ == '__main__': ...

  9. [python爬虫] Selenium定向爬取海量精美图片及搜索引擎杂谈

    我自认为这是自己写过博客中一篇比较优秀的文章,同时也是在深夜凌晨2点满怀着激情和愉悦之心完成的.首先通过这篇文章,你能学到以下几点:        1.可以了解Python简单爬取图片的一些思路和方法 ...

随机推荐

  1. webpack使用时可能出现的问题

    1.在配置完webpack.config.js准备进行热加载开发时,修改React内容浏览器不会自动局部刷新,而且会console出一些提示: The following modules couldn ...

  2. CSS3 :animation 动画

    CSS3动画分为二部份: 1.定义动画行为: 使用@keyframes定义动画行为,有两种方式: 方式一:仅定义动画起始样式,与动画结束样式 @keyframes (动画行为名称) { from {b ...

  3. 可以完成99%的静态页面的HTML标签

    HTML:一套浏览器认知的规则HTML分为两个部分,头和身体.一个完整的网页相当于一个裸体的人,我们利用HTML给它穿上衣服,使它更好看.下面我将为大家介绍一下HTML一些基本的标签,而这些基本的标签 ...

  4. LightGBM的算法介绍

    LightGBM算法的特别之处 自从微软推出了LightGBM,其在工业界表现的越来越好,很多比赛的Top选手也掏出LightGBM上分.所以,本文介绍下LightGBM的特别之处. LightGBM ...

  5. ardupilot_gazebo仿真(二)

    ardupilot_gazebo仿真(二) 标签(空格分隔): 未分类 在模型中添加sensor gezebo官网-sensor部分教程 gezebo官网-基础部分教程 Gazebo plugins ...

  6. 【CodeForces】9B-Running Student

    目录 Question Description Input Output Solution 解法1 Question Description 小明在公交车始发站上车,他应该在哪个站点下车才能最快到达学 ...

  7. Internet History,Technology and Security

    Internet History,Technology and Security(简单记录) First Week High Stakes Research in Computing,and Comm ...

  8. 【积累】根据CheckBox的不选中 ,用JQuery 清除 RidaoButtonList 的选中项

    如题,项目要求无刷新更新数据. 1)Web页面布局 Html以及效果图  

  9. 【EasyNetQ】- 订阅

    EasyNetQ订阅者订阅消息类型(消息类的.NET类型).一旦通过调用Subscribe方法设置了对类型的订阅,就会在RabbitMQ代理上创建一个持久队列,并且该类型的任何消息都将被放置在队列中. ...

  10. Kernel Mode, User Mode

    之前关于kernel mode,user mode之间的切换,有个问题一直有些疑惑. 一个进程有没有办法,从user mode切换到kernel mode去执行自己的代码.我知道答案肯定是不行,但是为 ...