爬虫三之beautifulsoup

基本使用

from bs4 import BeautifulSoup

soup = BeautifulSoup(html#,'lxml','xml','html5lib')

soup.prettify()#补全网页格式

soup.title.string#title里的内容

标签选择器

就是相当于soup的属性，soup.Tag

有多个，只返回第一个

获取名称

在标签后加 .name

获取属性

soup.p.attrs['name']

soup.p['name']

子节点

soup.Tag.contents

子节点以列表形式返回

soup.Tag.children

迭代器，需要循环才能输出

子孙节点

soup.Tag.descendants

同样为迭代器

父节点和祖先节点

父节点

soup.Tag.parent

祖先节点

soup.Tag.parents

兄弟节点

soup.Tag.next_siblings

soup.Tag.previous_siblings

处理方式很快，但用途有限

标准选择器

**find_all(name, attrs, recursive, text, kwargs)

name

find_all('...')

attrs:

find_all(id='...')

find_all(class_='...')

text也可以用上述方法，text='...'

find 返回单个元素

常用命令

find_parent()

find_parents()

find_next_sibling()

find_next_siblings()

find_previous_siblings()

find_all_next()

find_next()

#返回节点后符合条件的节点

find_all_previous()

CSS选择器

通过select()直接传入，即可完成选择

选择class时输入'' .class1 .class2"

选择Tag时直接传入即可

**选择id时输入 "#id" **

获取内容get_text()

爬虫三之beautifulsoup的更多相关文章

爬虫入门二 beautifulsoup
title: 爬虫入门二 beautifulsoup date: 2020-03-12 14:43:00 categories: python tags: crawler 使用beautifulsou ...
【爬虫入门手记03】爬虫解析利器beautifulSoup模块的基本应用
[爬虫入门手记03]爬虫解析利器beautifulSoup模块的基本应用 1.引言网络爬虫最终的目的就是过滤选取网络信息,因此最重要的就是解析器了,其性能的优劣直接决定这网络爬虫的速度和效率.Bea ...
【网络爬虫入门03】爬虫解析利器beautifulSoup模块的基本应用
[网络爬虫入门03]爬虫解析利器beautifulSoup模块的基本应用 1.引言网络爬虫最终的目的就是过滤选取网络信息,因此最重要的就是解析器了,其性能的优劣直接决定这网络爬虫的速度和效率.B ...
Python 实用爬虫-04-使用 BeautifulSoup 去水印下载 CSDN 博客图片
Python 实用爬虫-04-使用 BeautifulSoup 去水印下载 CSDN 博客图片其实没太大用,就是方便一些,因为现在各个平台之间的图片都不能共享,比如说在 CSDN 不能用简书的图片, ...
Python爬虫小白入门（三）BeautifulSoup库
# 一.前言 *** 上一篇演示了如何使用requests模块向网站发送http请求,获取到网页的HTML数据.这篇来演示如何使用BeautifulSoup模块来从HTML文本中提取我们想要的数据. ...
爬虫（三）—— BeautifulSoup模块获取元素
目录 BeautifulSoup 一.BeautifulSoup简介二.安装模块三.解析器四.Beautiful Soup的使用五.查找元素 1.遍历文档树 2.搜索文档树 Beautiful ...
Python爬虫学习三------requests+BeautifulSoup爬取简单网页
第一次第一次用MarkDown来写博客,先试试效果吧! 昨天2018俄罗斯世界杯拉开了大幕,作为一个伪球迷,当然也得为世界杯做出一点贡献啦. 于是今天就编写了一个爬虫程序将腾讯新闻下世界杯专题的相关新 ...
Python 爬虫三 beautifulsoup模块
beautifulsoup模块 BeautifulSoup模块 BeautifulSoup是一个模块,该模块用于接收一个HTML或XML字符串,然后将其进行格式化,之后遍可以使用他提供的方法进行快速查 ...
Python爬虫之利用BeautifulSoup爬取豆瓣小说（三）——将小说信息写入文件
#-*-coding:utf-8-*- import urllib2 from bs4 import BeautifulSoup class dbxs: def __init__(self): sel ...

随机推荐

vim替换
:%s/mxmlElementGetAttr/xml_get_attr/g :{作用范围}s/{目标}/{替换}/{替换标志} 例如:%s/foo/bar/g会在全局范围(%)查找foo并替换为bar ...
zabbix_server: error while loading shared libraries: libperconaserverclient.so.18
zabbix_server: error while loading shared libraries: libperconaserverclient.so.18 [root@dba_test_002 ...
ng-model 和ng-bind的区别
也就是说 ng-model是绑定html输入的值-->到控制器的变量,输入值变了,控制器对应的变量message的值页变了,这样,在其他地方就可以使用这个变化后的值 ng-bind 是绑定控制器 ...
java基础语法3 方法
方法的定义-方法的特点 -方法的应用-方法的重载-数组定义-数组初始化-二维数组-Java中参数传递的特点:值传递 7.方法 7.1 方法的定义什么是方法?Method方法就是定义在类中的,具有特定 ...
mysql<七>
-- ########## 01.集合逻辑 ########## -- MySQL中,只实现了一种集合逻辑:逻辑与,有两种用法:UNION 和 UNION ALL -- 临时表1 CREATE TAB ...
Linux 安装Samba服务器
1. 服务器安装软件: yum -y install samba 创建共享目录并更改目录权限: mkdir -p /home/lee/samba chmod -R 0777 /home/lee/sa ...
设置HTML的TextArea标记跟随文本内容自动设置高度
写内容的时候用的是textarea来写,可以换行,然后预览页面也要显示是换行才行,所以预览页面还是要用textarea来显示, 样式去掉边框,不可以拉伸,不可编辑 // html <textar ...
javascript基本知识图解
转载自网络博客变量数据类型 javascript运算符 javascript流程语句 javascript 数组 javascript window对象 javascript DOM javas ...
电脑右键新建没有xmind文件选项解决方法
xmind还是方便的. 打开注册表,展开HKEY_CLASSES_ROOT,展开.xmind(如果没有请新建).在里面新建ShellNew项,并展开,在里面新建NullFile这个字符串值. 如果还是 ...
c++ STL map 用法
map是STL的一个关联容器,它提供一对一(其中第一个可以称为关键字,每个关键字只能在map中出现一次,第二个可能称为该关键字的值)的数据处理能力,由于这个特性,它完成有可能在我们处理一对一数据的时 ...