爬虫的两种解析方式 xpath和bs4

1.xpath解析

from lxml import etree

    两种方式使用：将html文档变成一个对象，然后调用对象的方法去查找指定的节点

    （1）本地文件

        tree = etree.parse(文件名)　　===》保存的本地文件路径放入

    （2）网络文件

        tree = etree.HTML(网页字符串)  ==》直接把得到的网页字符串作为参数传入

    ret = tree.xpath(路径表达式)

    【注】ret是一个列表，所以要用ret需要对之进行处理

　　参考文献：w3c xpath

　　- 安装xpath插件：可以在插件中直接执行xpath表达式

　　　　1.将xpath插件拖动到谷歌浏览器拓展程序（更多工具）中，安装成功

　　　　2.启动和关闭插件 ctrl + shift + x

常用的一些xpath表达式

 /bookstore/book           选取根节点bookstore下面所有直接子节点book

     //book                    选取所有book

     /bookstore//book          查找bookstore下面所有的book

     /bookstore/book[1]        bookstore里面的第一个book

     /bookstore/book[last()]   bookstore里面的最后一个book

     /bookstore/book[position()<3]  前两个book

     //title[@lang]            所有的带有lang属性的title节点

     //title[@lang='eng']      所有的lang属性值为eng的title节点

     属性定位

             //li[@id="hua"]

             //div[@class="song"]

     层级定位&索引

             //div[@id="head"]/div/div[2]/a[@class="toindex"]

             【注】索引从1开始

             //div[@id="head"]//a[@class="toindex"]

             【注】双斜杠代表下面所有的a节点，不管位置

      逻辑运算

             //input[@class="s_ipt" and @name="wd"]

      模糊匹配 ：

           contains

                 //input[contains(@class, "s_i")]

                 所有的input，有class属性，并且属性中带有s_i的节点

                 //input[contains(text(), "爱")]

             starts-with

                 //input[starts-with(@class, "s")]

                 所有的input，有class属性，并且属性以s开头

       取文本

             //div[@id="u1"]/a[5]/text()  获取节点内容

             //div[@id="u1"]//text()      获取节点里面不带标签的所有内容

       取属性

             //div[@id="u1"]/a[5]/@href

综合练习：获取好段子中的内容和作者

 from lxml import etree

 import requests

 url='http://www.haoduanzi.com/category-10_2.html'

 headers = {

         'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36',

     }

 url_content=requests.get(url,headers=headers).text

 #使用xpath对url_conten进行解析

 #使用xpath解析从网络上获取的数据

 tree=etree.HTML(url_content)

 #解析获取当页所有段子的标题

 title_list=tree.xpath('//div[@class="log cate10 auth1"]/h3/a/text()')

 ele_div_list=tree.xpath('//div[@class="log cate10 auth1"]')

 text_list=[] #最终会存储12个段子的文本内容

 for ele in ele_div_list:

     #段子的文本内容（是存放在list列表中）

     text_list=ele.xpath('./div[@class="cont"]//text()')

     #list列表中的文本内容全部提取到一个字符串中

     text_str=str(text_list)

     #字符串形式的文本内容防止到all_text列表中

     text_list.append(text_str)

 print(title_list)

 print(text_list)

2.bs4解析

安装：

- 需要将pip源设置为国内源，阿里源、豆瓣源、网易源等
- windows
（1）打开文件资源管理器(文件夹地址栏中)
（2）地址栏上面输入 %appdata%
（3）在这里面新建一个文件夹 pip
（4）在pip文件夹里面新建一个文件叫做 pip.ini ,内容写如下即可
[global]
timeout = 6000
index-url = https://mirrors.aliyun.com/pypi/simple/
trusted-host = mirrors.aliyun.com
- linux
（1）cd ~
（2）mkdir ~/.pip
（3）vi ~/.pip/pip.conf
（4）编辑内容，和windows一模一样
- 需要安装：pip install bs4
bs4在使用时候需要一个第三方库，把这个库也安装一下
pip install lxml

简单实用规则

 - from bs4 import BeautifulSoup

         - 使用方式：可以将一个html文档，转化为BeautifulSoup对象，然后通过对象的方法或者属性去查找指定的内容

           （1）转化本地文件：

               - soup = BeautifulSoup(open('本地文件'), 'lxml')

           （2）转化网络文件：

               - soup = BeautifulSoup('字符串类型或者字节类型', 'lxml')

           （3）打印soup对象显示内容为html文件中的内容

     （1）根据标签名查找

         - soup.a   只能找到第一个符合要求的标签

     （2）获取属性

         - soup.a.attrs  获取a所有的属性和属性值，返回一个字典

         - soup.a.attrs['href']   获取href属性

         - soup.a['href']   也可简写为这种形式

     （3）获取内容

         - soup.a.string

         - soup.a.text

         - soup.a.get_text()

        【注意】如果标签还有标签，那么string获取到的结果为None，而其它两个，可以获取文本内容

     （4）find：找到第一个符合要求的标签

         - soup.find('a')  找到第一个符合要求的

         - soup.find('a', title="xxx")

         - soup.find('a', alt="xxx")

         - soup.find('a', class_="xxx")

         - soup.find('a', id="xxx")

     （5）find_all：找到所有符合要求的标签

         - soup.find_all('a')

         - soup.find_all(['a','b']) 找到所有的a和b标签

         - soup.find_all('a', limit=2)  限制前两个

     （6）select:soup.select('#feng')

         - 根据选择器选择指定的内容

         - 常见的选择器：标签选择器(a)、类选择器(.)、id选择器(#)、层级选择器

             - 层级选择器：

                 div .dudu #lala .meme .xixi  下面好多级

                 div > p > a > .lala          只能是下面一级

         【注意】select选择器返回永远是列表，需要通过下标提取指定的对象

　- 综合练习：

　　　　需求：使用bs4实现将诗词名句网站中三国演义小说的每一章的内容爬去到本地磁盘进行存储

　　　　 http://www.shicimingju.com/book/sanguoyanyi.html

 #!/usr/bin/env python

 # -*- coding:utf-8 -*-

 import requests

 from bs4 import BeautifulSoup

 headers={

          'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',

      }

 def parse_content(url):

     #获取标题正文页数据

     page_text = requests.get(url,headers=headers).text

     soup = BeautifulSoup(page_text,'lxml')

     #解析获得标签

     ele = soup.find('div',class_='chapter_content')

     content = ele.text #获取标签中的数据值

     return content

 if __name__ == "__main__":

      url = 'http://www.shicimingju.com/book/sanguoyanyi.html'

      reponse = requests.get(url=url,headers=headers)

      page_text = reponse.text

      #创建soup对象

      soup = BeautifulSoup(page_text,'lxml')

      #解析数据

      a_eles = soup.select('.book-mulu > ul > li > a')

      print(a_eles)

      cap = 1

      for ele in a_eles:

          print('开始下载第%d章节'%cap)

          cap+=1

          title = ele.string

          content_url = 'http://www.shicimingju.com'+ele['href']

          content = parse_content(content_url)

          with open('./sanguo.txt','w') as fp:

              fp.write(title+":"+content+'\n\n\n\n\n')

              print('结束下载第%d章节'%cap)

爬虫的两种解析方式 xpath和bs4的更多相关文章

Python网络爬虫之三种数据解析方式 (xpath, 正则, bs4)
引入回顾requests实现数据爬取的流程指定url 基于requests模块发起请求获取响应对象中的数据进行持久化存储其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指 ...
爬虫的三种解析方式(正则解析, xpath解析, bs4解析)
一 : 正则解析 : 常用正则回顾: 单字符: . : 除换行符以外的所有字符 [] : [aoe] [a-w] 匹配集合中任意一个字符 \d : 数字 [0-9] \D : 非数字 \w : 非数字 ...
Javaweb学习笔记——（六）——————xml中jaxp两种解析方式和dom4j运用
1.xml的scheam约束 dtd的语法:<!ElEMENT 元素名称约束> **schema符合xml的语法,xml语句 **一个xml中可以有多个schema,多个schema使用 ...
XML的两种解析方式
JDK提供的XML解析方式分为两种:DOM方式和SAX方式DOM:Document Object Model.需要读取整个XML文档,先需要在内存中构架代表整个DOM树的Document对象,可以进行 ...
【代码笔记】iOS-json文件的两种解析方式
一,工程图. 二,代码. #import "ViewController.h" #import "SBJson.h" @interface ViewContro ...
request.getInputStream() 的两种解析方式
http://sagewsg.iteye.com/blog/1717923 byte[] bytes = new byte[1024 * 1024]; InputStream is; try { is ...
XML 的4种解析方式
在上一篇博客中,我们介绍了什么是 XML ,http://www.cnblogs.com/ysocean/p/6901008.html,那么这一篇博客我们介绍如何来解析 XML . 部分文档引用:ht ...
xml中俩种解析方式
两种解析方式 1.from xml.etree import ElementTree as ET 利用ElementTree模块下的xml方法可以把一个字符串类型的东西转换成Element类,从而利用 ...
[转帖]kubernetes ingress 在物理机上的nodePort和hostNetwork两种部署方式解析及比较
kubernetes ingress 在物理机上的nodePort和hostNetwork两种部署方式解析及比较 https://www.cnblogs.com/xuxinkun/p/11052646 ...

随机推荐

Object.prototype.toString.call(obj)检测数据类型
typeof bar=='object' 不能确切判断数据是一个‘纯粹’的对象 Array null的结果都是object 比较好的方法是: Object.prototype.toString.cal ...
Python2.7 urlparse学习
urlparse模块主要是把url拆分为6部分,并返回元组.并且可以把拆分后的部分再组成一个url.主要有函数有urljoin.urlsplit.urlunsplit.urlparse等. urlpa ...
Sherlock and the Encrypted Data
题意: 对于16进制数字num,假定 $p_0,p_1,...,p_m$ 在该数字中出现过,如果有 $x = 2^{p_0} + 2^{p_1} + ... + 2^{p_m}$ 且 $x \oplu ...
1.22-1.24 Oozie企业使用案例
一.将hive的表数据用sqoop抽取到mysql 1.编写oozie workflow和Coordinator ## [root@hadoop-senior oozie-apps]# pwd /op ...
C#字典常用技巧
说明必须包含名空间System.Collection.Generic Dictionary里面的每一个元素都是一个键值对(由二个元素组成:键和值) 键必须是唯一的,而值不需要唯 ...
ASP.NET Core MVC 2.x 全面教程_ASP.NET Core MVC 27. CICD Azure DevOps
VSTS做持续集成后来改名叫做Azure Deveps https://azure.microsoft.com/zh-cn/services/devops/ 这是中文的地址创建一个项目名称.描述 ...
51nod 1456【强连通，缩点，并查集】
话说这道题的机遇是看到了http://blog.csdn.net/u010885899/article/details/50611895很有意思:然后就去补了这题题意: 建最少的边使得给出的点相连. ...
Pycharm 配置autopep8到菜单
Pycharm 可以自动检测PEP8规范. 我们可以安装autopep8来自动修改文件实现PEP8规范. 1.通过Pycharm安装autopep8 2.File->Setting->Ex ...
[Xcode 实际操作]九、实用进阶-(11)系统本地通知的创建和使用
目录:[Swift]Xcode实际操作本文将演示系统本地通知的创建和使用. 在项目导航区,打开视图控制器的代码文件[ViewController.swift] import UIKit //引入需要 ...
Peptidomics analysis of milk protein-derived peptides released over time in the preterm infant stomach  (文献分享一组-陈凌云)
题目:Peptidomics analysis of milk protein-derived peptides released over time in the preterm infant st ...

爬虫的两种解析方式 xpath和bs4

爬虫的两种解析方式 xpath和bs4的更多相关文章

随机推荐

热门专题