爬虫入门 beautifulsoup库（一）

先贴一个beautifulsoup的官方文档，https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html#id12

requests库用来获取url的响应，但是获取到确实网页代码，为了拿到自己想要的东西，我们需要用一下beautifulsoup这个库，这个库能把想要的东西提取出来。

下载和安装在官方文档里都有，这里还要说一下解析器。beautifulsoup这个库除了支持python标准库中的HTML解析器，还支持其他类似，lxml和html5lib。

上面这张表来自官方文档，选择哪种解析器就因人而异了。

接下来进入正文，首先要构造一个对象，用soup = BeautifulSoup(html,'lxml'),这html可以是事先用requests库请求来的，也可以是自己写的，当然，也可以用soup = BeautifulSoup(open("index.html"))这种方法打开自己html。

然后就是去查看那个html，当html里有a标签时，用soup.a即可输出遇到的第一条a标签，同理，也可以soup.title输出html的title标签。

仅仅是第一个标签那么满足不了我们的需求，我们需要所有的标签里的数据就需要用到findAll这个方法啦，用all_a=soup.findAll('a')，即可获得所有的a标签，但是这时候的输出都是带着a标签的，想要只获得内容，有需要用到string方法，all_a.string,即可。

话不多说，先试着把小米官网中的h2标签，即小标题给爬取下来试试

from bs4 import BeautifulSoup

import lxml

import requests

url = 'https://www.mi.com/'

try:

    #模拟浏览器

    kv = {'user-agent':'Mozilla/5.0'}

    r = requests.get(url , headers = kv)

    #状态码检查，用于

    r.raise_for_status()

    r.encoding = r.apparent_encoding

    soup = BeautifulSoup(r.text,'lxml')

    for tag in soup.findAll('h2'):

        print(tag.string)

except:

    ("爬取失败")

然后再讲讲string方法，在官方文档中的解释是这样的

简单的说就是，当你获取的标签里没有别的标签了，你调用这个方法会输出这个标签里的内容，但这个标签里如果有其他的小标签和内容时，返回一个none值，比如说再爬取小米的a标签时、

这一条数据返回的就是none值

我们爬取数据的时候有时会把空白爬进去，但是又不想要空白的时候可以用.stripped_strings方法去除掉空白

然后讲一讲定位就比如说上面那条带着i标签的a标签，我们可以先找到i标签，在用他的父节点输出a标签，用。parent的方法，同理，通过 .next_siblings 和 .previous_siblings 属性可以找到当前节点的兄弟节点

爬虫入门 beautifulsoup库（一）的更多相关文章

爬虫之BeautifulSoup库
文档:https://beautifulsoup.readthedocs.io/zh_CN/latest/ 一.开始解析库 # 安装解析库 pip3 install lxml pip3 instal ...
python简单页面爬虫入门 BeautifulSoup实现
本文可快速搭建爬虫环境,并实现简单页面解析 1.安装 python 下载地址:https://www.python.org/downloads/ 选择对应版本,常用版本有2.7.3.4 安装后,将安装 ...
Python爬虫之BeautifulSoup库
1. BeautifulSoup 1.1 解析库 1)Python标准库 # 使用方法 BeautifulSoup(markup, "html.parser") # 优势 Pyth ...
Python爬虫入门 Urllib库的基本使用
1.分分钟扒一个网页下来怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS.CSS ...
python爬虫入门--beautifulsoup
1,beautifulsoup的中文文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/ 2, from bs4 import Be ...
python爬虫入门urllib库的使用
urllib库的使用,非常简单. import urllib2 response = urllib2.urlopen("http://www.baidu.com") print r ...
爬虫入门 requests库
写在最前的具体资料: https://2.python-requests.org//zh_CN/latest/user/quickstart.html https://www.liaoxuefeng. ...
python爬虫入门四：BeautifulSoup库(转)
正则表达式可以从html代码中提取我们想要的数据信息,它比较繁琐复杂,编写的时候效率不高,但我们又最好是能够学会使用正则表达式. 我在网络上发现了一篇关于写得很好的教程,如果需要使用正则表达式的话,参 ...
Python爬虫小白入门（三）BeautifulSoup库
# 一.前言 *** 上一篇演示了如何使用requests模块向网站发送http请求,获取到网页的HTML数据.这篇来演示如何使用BeautifulSoup模块来从HTML文本中提取我们想要的数据. ...

随机推荐

IDEA 解决Number objects are compared using '==', not 'equals()' 警告
当代码被工具标黄色高亮时,代表需要优化或重构了 == 是值相等.对于Integer这样的数据类型而言,意义是两个Integer对象的内存地址相等.也就是说如果你有两个不同的Integer的对象, 如果 ...
pandas玩转excel-> (1)如何利用pandas创建【行，列，单元格】
import pandas as pd #------新建单元格的方法一:通过先创建字典的形式 #可以先新建一个字典d={'x':100,'y':200,'z':300} #打印字典的索引print( ...
[HNOI2013] 消毒 - 二分图匹配
容易发现 \(a,b,c\) 中至少有一个 \(\leq 17\) 不妨将其调剂为 \(a\),那么我们可以暴力枚举哪些 \(x\) 片片要被直接削掉,剩下的拍扁成二维情况二维时,如果有一个格子是 ...
Linux环境下C语言线程创建---简单代码
在Linux环境下用C语言编写线程创建. //file name: pthreadtext.c #include <stdio.h> #include <pthread.h> ...
Activiti工作流学习之SpringBoot整合Activiti5.22.0实现在线设计器（二）
一.概述网上有很多关于Eclipse.IDEA等IDE插件通过拖拽的方式来画工作流程图,个人觉得还是不够好,所以花点时间研究了一下Activiti在线设计器,并与SpringBoot整合. 二.实现 ...
网格布局 grid(1)
目录网格布局 grid(1) 实现方式对容器设置的属性行高与列宽的设置单元格的间距内容的位置表格在容器的位置兼容问题网格布局 grid(1) 实现方式 display:grid 也可成 ...
洛谷P1147 连续自然数和
https://www.luogu.org/problem/P1147 #include<bits/stdc++.h> using namespace std; int main(){ i ...
day22 用户添加相关命令特殊权限为防止root修改文件
2) 用户相关的命令 useradd -u -g -G -M -s -c usermod -u -g -G -s -c userdel -r groupadd groupmod groupdel ch ...
题解 CF712C 【Memory and De-Evolution】
看到题我第一反应就是while循环但是我竟然想正着推,失败,卡了十几分钟后来我回来看到第三组测试数据想到倒推但是没坚持于是我又卡了很久过会我又回来想 AC了... 这个故事告诉我们,要努力 ...
c#中转义字符\n和\r的区别
在c#中\n代表换行,\r代表回车,但\r是把后面的字符覆盖前面的,例: "1234\n567" 输出的是 1234 567 "1234\r567"输出的是 5 ...

爬虫入门 beautifulsoup库（一）

爬虫入门 beautifulsoup库（一）的更多相关文章

随机推荐

热门专题