开始学习网络数据挖掘方面的知识,首先从Beautiful Soup入手(Beautiful Soup是一个Python库,功能是从HTML和XML中解析数据),打算以三篇博文纪录学习Beautiful Soup的过程,第一篇是Beautiful Soup基础知识,后两篇利用前边的Beautiful Soup知识完成一个简单的爬虫,抓取allitebook.com的书籍信息和ISBN码,再根据ISBN码去amazon.com抓取书籍对应的价格。

一、Beautiful Soup简介

网络数据挖掘指的是从网站中获取数据的过程,数据挖掘技术可以让我们从网站世界中收集大量有价值的数据。
Beautiful Soup是一个Python库,可以从HTML或XML文件中获取数据,利用它你可以做很多事情,比如你可以持续解析某个商品的最新价格,以便跟踪价格的波动情况。


二、Beautiful Soup安装(Mac)


安装Beautiful Soup
  1. sudo pip3 install beautifulsoup4
 
检验是否安装成功
  1. from bs4 import BeautifulSoup
三、创建一个Beautiful Soup对象
  1. html_atag = """<html><body><p>Test html a tag example</p>
  2. <a href="http://www. allitebook.com">Home</a>
  3. <a href="http://www.allitebook.com/books">Books</a>
  4. </body>
  5. </html>"""
  6. soup = BeautifulSoup(html_atag, "html5lib")
  7. print(soup.a)
四、查找内容

find()方法
在find()方法中传入节点名,例如ul,这样就可以获取第一个匹配的ul节点的内容,例如:

  1. #input
  2. html_markup = """<div>
  3. <ul id="students">
  4. <li class="student">
  5. <div class="name">Carl</div>
  6. <div class="age">32</div>
  7. </li>
  8. <li class="student">
  9. <div class="name">Lucy</div>
  10. <div class="age">25</div>
  11. </li>
  12. </ul>
  13. </div>"""
  14. student_entries = soup.find("ul")
  15. print(student_entries)
  16.  
  17. #output
  18. <ul id="students">
  19. <li class="student">
  20. <div class="name">Carl</div>
  21. <div class="age">32</div>
  22. </li>
  23. <li class="student">
  24. <div class="name">Lucy</div>
  25. <div class="age">25</div>
  26. </li>
  27. </ul>

找到ul节点后,通过观察html可以得知,ul下有2个li,每个li下有2个div,则通过student_entries.li可以获取第一个li节点的数据,继续通过student_entries.li.div可以获取第一个li下第一个div的数据,例如:

  1. #input
  2. print(student_entries.li)
  3. #output
  4. <li class="student">
  5. <div class="name">Carl</div>
  6. <div class="age">32</div>
  7. </li>
  8.  
  9. #input
  10. print(student_entries.li.div)
  11. #output
  12. <div class="name">Carl</div>
继续通过div.string可以获取div的内容:
  1. #input
  2. print(student_entries.li.div.string)
  3. #output
  4. 'Carl'
使用正则表达式查找:
find()方法支持根据正则表达式查找内容,例如:
  1. #input
  2. import re
  3. email_id_example ="""<div>The below HTML has the information that has email ids.</div>
  4. abc@example.com
  5. <div>xyz@example.com</div>
  6. <span>foo@example.com</span>"""
  7. soup = BeautifulSoup(email_id_example,"lxml")
  8. emailid_regexp = re.compile("\w+@\w+\.\w+")
  9. first_email_id = soup.find(text=emailid_regexp)
  10. print(first_email_id)
  11.  
  12. #output
  13. abc@example.com
find_all()方法
find()方法返回第一个匹配的内容,find_all()方法会返回所有匹配的内容列表,例如上面的根据正则表达式查找邮箱地址,将find()方法换成find_all()方法,则会返回所有匹配成功的内容:
  1. #input
  2. all_email_id = soup.find_all(text=emailid_regexp)
  3. print(all_email_id)
  4.  
  5. #output
  6. ['abc@example.com', 'xyz@example.com', 'foo@example.com']
find_parent()方法
find_parent()方法往上查找内容,例如,从第一个li节点上使用find_parent()方法,可以获取父节点的内容:
  1. #input
  2. print(first_student)
  3.  
  4. #output
  5. <li class="student">
  6. <div class="name">Carl</div>
  7. <div class="age">32</div>
  8. </li>
  9.  
  10. #input
  11. all_students = first_student.find_parent('ul')
  12. print(all_students)
  13.  
  14. #output
  15. <ul id="students">
  16. <li class="student">
  17. <div class="name">Carl</div>
  18. <div class="age">32</div>
  19. </li>
  20. <li class="student">
  21. <div class="name">Lucy</div>
  22. <div class="age">25</div>
  23. </li>
  24. </ul>
find_next_sibling()方法
sibling是兄弟姐妹的意思,find_next_sibling()方法获取下一个同级别的兄弟节点,例如:
  1. #input
  2. second_student = first_student.find_next_sibling()
  3. print(second_student)
  4.  
  5. #output
  6. <li class="student">
  7. <div class="name">Lucy</div>
  8. <div class="age">25</div>
  9. </li>
其它方法还有很多,例如:
find_next()方法
find_all_next()方法
find_previous_sibling()方法
find_all_previous()方法
用法都差不多,这里不再一一赘述,具体请查看官方文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/#searching-the-tree


五、浏览内容


浏览子节点
使用子节点的标签名即可获取子节点的内容,例如:
  1. #input
  2. print(first_student)
  3.  
  4. #output
  5. <li class="student">
  6. <div class="name">Carl</div>
  7. <div class="age">32</div>
  8. </li>
  9.  
  10. #input
  11. name = first_student.div
  12. print(name)
  13.  
  14. #output
  15. <div class="name">Carl</div>
浏览父节点
使用.parent属性可以浏览父节点,例如:
  1. #input
  2. print(name.parent)
  3.  
  4. #output
  5. <li class="student">
  6. <div class="name">Carl</div>
  7. <div class="age">32</div>
  8. </li>
浏览兄弟节点即同级节点,next_sibling和previous_sibling属性分别获取上一个和下一个兄弟节点。例如:
  1. #input
  2. print(first_student.next_sibling)
  3.  
  4. #output
  5. <li class="student">
  6. <div class="name">Lucy</div>
  7. <div class="age">25</div>
  8. </li>
 


六、修改内容


修改标签的名字
可以通过.name属性获取某个节点的标签名,同样将某个标签名赋值给.name属性可以很轻易改变标签的名称,例如:
  1. #input
  2. first_student
  3. #output
  4. <li class="student">
  5. <div class="name">Carl</div>
  6. <div class="age">32</div>
  7. </li>
  8.  
  9. #input
  10. first_student.name
  11. #output
  12. 'li'
  13.  
  14. #input
  15. first_student.name = 'div'
  16. first_student.name
  17. #output
  18. 'div'
  19.  
  20. #input
  21. first_student
  22. #output
  23. <div class="student">
  24. <div class="name">Carl</div>
  25. <div class="age">32</div>
  26. </div>
修改标签的属性
  1. #input
  2. first_student['class'] = 'student_new'
  3. print(first_student)
  4. #output
  5. <div class="student_new">
  6. <div class="name">Carl</div>
  7. <div class="age">32</div>
  8. </div>
注意:如果class属性没有的话,则此操作不会报错,而变为一个新增操作。

删除一个标签的属性
使用del方法可以将一个节点的某个属性删除。例如:
  1. #input
  2. del first_student['class']
  3. print(first_student)
  4.  
  5. #output
  6. <div>
  7. <div class="name">Carl</div>
  8. <div class="age">32</div>
  9. </div>
修改标签的内容
使用.string属性可以获取标签的内容值('Carl'),同样,对此属性的赋值操作也可以更该其值,例如:
  1. #input
  2. print(first_student.div.string)
  3.  
  4. #output
  5. Carl
  6.  
  7. #input
  8. first_student.div.string = 'carl_new'
  9. print(first_student.div.string)
  10.  
  11. #output
  12. carl_new
直接删除某个节点
使用decompose()方法可以直接删除某个节点:
  1. #input
  2. print(first_student)
  3. #output
  4. <li class="student">
  5. <div class="name">carl_new</div>
  6. <div class="age">32</div>
  7. </li>
  8.  
  9. #input
  10. first_student.div.decompose()
  11. print(first_student)
  12. #output
  13. <li class="student">
  14. <div class="age">32</div>
  15. </li>
使用extract()方法同样可以删除某个节点,不过它和decompose()方法不同的是,extract()会返回被删除的这个节点的内容。
 
我们处于大数据时代,对数据处理感兴趣的朋友欢迎查看另一个系列随笔:利用Python进行数据分析 基础系列随笔汇总
 
接下来将利用这篇的Beautiful Soup基础知识完成一个简单的爬虫,分别获取两个网站的书籍信息和价格并组合在一起并输出到csv文件中。有兴趣的朋友欢迎关注本博客,也欢迎大家留言进行讨论。
 
大数据,大数据分析、BeautifulSoup,Beautiful Soup入门,数据挖掘,数据分析,数据处理,pandas,网络爬虫,web scraper

网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(1): 基础知识Beautiful Soup的更多相关文章

  1. 网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(3): 抓取amazon.com价格

    通过上一篇随笔的处理,我们已经拿到了书的书名和ISBN码.(网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(2): 抓取allitebooks.com书籍信息 ...

  2. 网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(2): 抓取allitebooks.com书籍信息及ISBN码

    这一篇首先从allitebooks.com里抓取书籍列表的书籍信息和每本书对应的ISBN码. 一.分析需求和网站结构 allitebooks.com这个网站的结构很简单,分页+书籍列表+书籍详情页. ...

  3. Python 3网络爬虫开发实战中文PDF+源代码+书籍软件包(免费赠送)+崔庆才

    Python 3网络爬虫开发实战中文PDF+源代码+书籍软件包+崔庆才 下载: 链接:https://pan.baidu.com/s/1H-VrvrT7wE9-CW2Dy2p0qA 提取码:35go ...

  4. Python 网络爬虫 005 (编程) 如何编写一个可以 下载(或叫:爬取)一个网页 的网络爬虫

    如何编写一个可以 下载(或叫:爬取)一个网页 的网络爬虫 使用的系统:Windows 10 64位 Python 语言版本:Python 2.7.10 V 使用的编程 Python 的集成开发环境:P ...

  5. Python简单网络爬虫实战—下载论文名称,作者信息(下)

    在Python简单网络爬虫实战—下载论文名称,作者信息(上)中,学会了get到网页内容以及在谷歌浏览器找到了需要提取的内容的数据结构,接下来记录我是如何找到所有author和title的 1.从sou ...

  6. 网络爬虫:使用Scrapy框架编写一个抓取书籍信息的爬虫服务

      上周学习了BeautifulSoup的基础知识并用它完成了一个网络爬虫( 使用Beautiful Soup编写一个爬虫 系列随笔汇总 ), BeautifulSoup是一个非常流行的Python网 ...

  7. 使用Beautiful Soup编写一个爬虫 系列随笔汇总

    这几篇博文只是为了记录学习Beautiful Soup的过程,不仅方便自己以后查看,也许能帮到同样在学习这个技术的朋友.通过学习Beautiful Soup基础知识 完成了一个简单的爬虫服务:从all ...

  8. python爬虫之Beautiful Soup基础知识+实例

    python爬虫之Beautiful Soup基础知识 Beautiful Soup是一个可以从HTML或XML文件中提取数据的python库.它能通过你喜欢的转换器实现惯用的文档导航,查找,修改文档 ...

  9. 网络爬虫中Fiddler抓取PC端网页数据包与手机端APP数据包

    1 引言 在编写网络爬虫时,第一步(也是极为关键一步)就是对网络的请求(request)和回复(response)进行分析,寻找其中的规律,然后才能通过网络爬虫进行模拟.浏览器大多也自带有调试工具可以 ...

随机推荐

  1. .NET里简易实现AOP

    .NET里简易实现AOP 前言 在MVC的过滤器章节中对于过滤器的使用就是AOP的一个实现了吧,时常在工作学习中遇到AOP对于它的运用可以说是很熟练了,就是没想过如果自己来实现的话是怎么实现的,性子比 ...

  2. Node-Webkit打包

    1.node-webkit是什么? NW.js is an app runtime based on Chromium and node.js. You can write native apps i ...

  3. 学习ASP.NET Core, 怎能不了解请求处理管道[3]: 自定义一个服务器感受一下管道是如何监听、接收和响应请求的

    我们在<服务器在管道中的"龙头"地位>中对ASP.NET Core默认提供的具有跨平台能力的KestrelServer进行了介绍,为了让读者朋友们对管道中的服务器具有更 ...

  4. Android 7.1 - App Shortcuts

    Android 7.1 - App Shortcuts 版权声明:本文为博主原创文章,未经博主允许不得转载. 微博:厉圣杰 源码:AndroidDemo/Shortcuts 文中如有纰漏,欢迎大家留言 ...

  5. MVC通过路由实现URL重写

    public static class WebApiConfig { public static void Register(HttpConfiguration config) { config.Ro ...

  6. node.js学习(二)--Node.js控制台(REPL)&&Node.js的基础和语法

    1.1.2 Node.js控制台(REPL) Node.js也有自己的虚拟的运行环境:REPL. 我们可以使用它来执行任何的Node.js或者javascript代码.还可以引入模块和使用文件系统. ...

  7. Spring的数据库开发

                                Spring JDBC框架操作mysql数据库 Spring中的JDBC为我们省去连接和关闭数据库的代码,我们着重关注对数据库的操作.Sprin ...

  8. OpenLiveWriter代码插件

    1.OpenLiveWriter安装 Windows Live Writer在2012年就停止了更新,Open Live Writer(以下简称OLW)是由Windows Live WriterWri ...

  9. AutoMapper的介绍与使用(一)

    软件环境 vs2015 asp.net mvc 5 .NET Framework 4.5.2 AutoMapper 5.2.0.0 AutoMapper安装 新建asp.net mvc 项目 Auto ...

  10. jQuery可自动播放动画焦点图插件Koala

    Koala是一款简单而实用的jQuery焦点图幻灯片插件,焦点图不仅可以在播放图片的时候让图片有淡入淡出的动画效果,而且图片可以自动播放.该jQuery焦点图的每一张图片都可以设置文字描述,并浮动在图 ...