从0开始学爬虫7之BeautifulSoup模块的简单介绍

参考文档：

https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/

# 安装 beautifulsoup4

(pytools) D:\python\pytools>pip install beautifulsoup4

# coding=utf-8

from bs4 import BeautifulSoup as bs

import re

html_doc = """

<html><head><title>The Dormouse's story</title></head>

<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were

<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,

<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and

<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;

and they lived at the bottom of a well.</p>

<p class="story">...</p>

"""

soup = bs(html_doc, "html.parser")

# print(soup.prettify())

# print(soup.title.string)

# print(soup.a)

# print(soup.find(id='link2'))

# print(soup.find(id='link2').string)

# print(soup.find(id='link2').get_text())

# 获取所有a标签的内容

# for link in soup.find_all('a'):

#     print(link.get_text())

# 使用string获取不到p标签的内容

# print(soup.find("p", {"class": "story"}).get_text())

# 查找所有以b开头的标签

# for tag in soup.find_all(re.compile("^b")):

#     print(tag.get_text())

# 查找所有的a标签中href以 http://example.com开头的数据，其中的.号代表任意字符，如果需要 表示点号本身可以用\转义   href=re.compile(r"^http://example\.com/")

data = soup.find_all("a", href=re.compile(r"^http://example.com/"))

print(data)

从0开始学爬虫7之BeautifulSoup模块的简单介绍的更多相关文章

从0开始学爬虫8使用requests/pymysql和beautifulsoup4爬取维基百科词条链接并存入数据库
从0开始学爬虫8使用requests和beautifulsoup4爬取维基百科词条链接并存入数据库 Python使用requests和beautifulsoup4爬取维基百科词条链接并存入数据库参考 ...
从0开始学爬虫12之使用requests库基本认证
从0开始学爬虫12之使用requests库基本认证此处我们使用github的token进行简单测试验证 # coding=utf-8 import requests BASE_URL = " ...
从0开始学爬虫11之使用requests库下载图片
从0开始学爬虫11之使用requests库下载图片 # coding=utf-8 import requests def download_imgage(): ''' demo: 下载图片 ''' h ...
从0开始学爬虫9之requests库的学习之环境搭建
从0开始学爬虫9之requests库的学习之环境搭建 Requests库的环境搭建环境:python2.7.9版本参考文档:http://2.python-requests.org/zh_CN/l ...
从0开始学爬虫4之requests基础知识
从0开始学爬虫4之requests基础知识安装requestspip install requests get请求:可以用浏览器直接访问请求可以携带参数,但是又长度限制请求参数直接放在URL后面 P ...
从0开始学爬虫3之xpath的介绍和使用
从0开始学爬虫3之xpath的介绍和使用 Xpath:一种HTML和XML的查询语言,它能在XML和HTML的树状结构中寻找节点安装xpath: pip install lxml HTML 超文本标 ...
从0开始学爬虫2之json的介绍和使用
从0开始学爬虫2之json的介绍和使用 Json 一种轻量级的数据交换格式,通用,跨平台键值对的集合,值的有序列表类似于python中的dict Json中的键值如果是字符串一定要用双引号 jso ...
【爬虫入门手记03】爬虫解析利器beautifulSoup模块的基本应用
[爬虫入门手记03]爬虫解析利器beautifulSoup模块的基本应用 1.引言网络爬虫最终的目的就是过滤选取网络信息,因此最重要的就是解析器了,其性能的优劣直接决定这网络爬虫的速度和效率.Bea ...
【网络爬虫入门03】爬虫解析利器beautifulSoup模块的基本应用
[网络爬虫入门03]爬虫解析利器beautifulSoup模块的基本应用 1.引言网络爬虫最终的目的就是过滤选取网络信息,因此最重要的就是解析器了,其性能的优劣直接决定这网络爬虫的速度和效率.B ...

随机推荐

0028ssm环境搭建（springmvc+spring+mybatis）
spring整合springmvc和mybatis主要分为如下几个步骤: 1.spring环境搭建 2.springmvc环境搭建 3.spring整合springmvc 4.spring整合myba ...
《少年先疯队》第八次团队作业：Alpha冲刺第一天
前言第一天冲刺会议时间:2019.6.14 地点:9C406 1.1 今日完成任务情况以及遇到的问题. 1.1.1今日完成任务情况姚玉婷:管理员登录功能的实现,用户登录功能的实现 ...
DOCclever--自动化接口测试用例
1.登录---UI模式 2.登录--代码模式
LINQ查询表达式（4） - LINQ Join联接
内部联接按照关系数据库的说法,“内部联接”产生一个结果集,对于该结果集内第一个集合中的每个元素,只要在第二个集合中存在一个匹配元素,该元素就会出现一次. 如果第一个集合中的某个元素没有匹配元素,则它 ...
Vue 项目目录结构分析
Vue项目目录结构分析 ├── v-proj | ├── node_modules // 当前项目所有依赖,一般不可以移植给其他电脑环境 | ├── public | | ├── favicon.ic ...
python - 一键复习知识点
## rest规范: 通过不同的 method 找到对应的 url ## Django 请求生命周期 - wsgi ,它就是socket 服务端,服务端接收用户请求并将请求初次封装,然后交给 D ...
FailOver的机制
package util import ( "fmt" "hash/crc32" "math/rand" "sort" ...
webuploader+web如何实现分片+断点续传
众所皆知,web上传大文件,一直是一个痛.上传文件大小限制,页面响应时间超时.这些都是web开发所必须直面的. 本文给出的解决方案是:前端实现数据流分片长传,后面接收完毕后合并文件的思路. 实现文件夹 ...
sshfs 试用
sshfs 是基于fuse 开发的可以像使用本地系统一样,通过ssh 协议访问远端服务器文件,有好多方便的用途数据同步数据加密访问做为共享数据卷(基于给容器使用) 安装 yum install ...
PHP命令行常用参数说明和使用
-i 打印phpinfo命令 root@DK:/mnt/hgfs/cpp/php# php -i | grep session -v 输出php版本信息 root@DK:/mnt/hgfs/cpp/p ...

从0开始学爬虫7之BeautifulSoup模块的简单介绍

从0开始学爬虫7之BeautifulSoup模块的简单介绍的更多相关文章

随机推荐

热门专题