bs4笔记
1、网页输出乱码的解决办法
r= requests.get('https://www.baidu.com/')
r.encoding = 'gbk2312' #有可能 gbk、utf-8
soup=BeautifulSoup(r.text,"html.parser")
来源:https://blog.csdn.net/w839687571/article/details/81414433
2、打开本地html的方法
import requests
from bs4 import BeautifulSoup
import io
path = '/Users/lucax/Desktop/素材/html/123.html'
htmlfile = io.open(path, 'r', encoding='utf-8')
htmlhandle = htmlfile.read()
soup = BeautifulSoup(htmlhandle, "html.parser")
print soup
2-1、自己输入文字再输出的方法
markup = "<b><!--Hey, buddy. Want to buy a used parser?--></b>"
soup = BeautifulSoup(markup)
comment = soup.b.string #输出里面的字符
soup.prettify() #套上html框架加入markup的文案输出
3、各种拿网页元素的方法
soup.title --获取网页title
soup.title.name --获取title标签的标签文案
soup.title.string --获取title标签里面的文案 string 和 text 用法的区别 https://www.cnblogs.com/kaibindirver/p/11374669.html
soup.strings --获取网页所有文案,每个文案分别放入到数组里,但只能使用for循环展示出来
soup.stripped_strings ---(接着strings取出的内容)可以把空格和换行符去掉
soup.p --获取网页的p标签
soup.a --获取网页的a标签
soup.find_all('a') --获取网页所有的a标签
soup.find(id='link3') --获取id=link3的标签
soup.find('a',id='link2') --获取 a 标签 且 id=link2 的标签
soup.get_text() --获取网页中所有文字内容
soup.text.encode('utf-8') --获取网页中所有文字内容 另外一种写法
soup.text --获取网页中所有文字内容 另外一种写法
4、标签内属性、值、标签名操作的方法
soup.p['class'] -获取标签里面的属性对应的值
soup.p.get('class') -获取标签里面的属性对应的值,另一种写法
soup.p.attrs --获取p标签所有的属性和值(字典形式输出)
soup.a.name='新的标签' --修改网页里面a标签的标签为'新的标签'
soup.p['class']='123' --修改属性的值
del soup.p['class'] --删除属性
5、替换文案的操作方法
soup.div.find('div',id="site_nav_top").replace_with("No longer bold") --替换整个标签的方法
soup.div.find('div',id="site_nav_top").string.replace_with("No longer bold") --替换标签内文案的方法
6、把tag内的子节点已列表形式输出 .contents 属性
head_tag = soup.head
head_tag
# <head><title>The Dormouse's story</title></head>
head_tag.contents
[<title>The Dormouse's story</title>]
title_tag = head_tag.contents[0]
title_tag
# <title>The Dormouse's story</title>
title_tag.contents
# [u'The Dormouse's story']
7.获取网页所有标签内文字
soup.strings
stripped_strings 过滤空格的方法
用法
for string in soup.strings:
print string
8、搜索有特定属性的标签的方法
9\获取tr标签内多个td标签,其中一个td标签里面em标签的写法
bs4笔记的更多相关文章
- Python爬虫常用模块,BeautifulSoup笔记
import urllib import urllib.request as request import re from bs4 import * #url = 'http://zh.house.q ...
- 商业爬虫学习笔记day7-------解析方法之bs4
一.Beautiful Soup 1.简介 Beautiful Soup 是python的一个库,最主要的功能是从网页抓取数据.其特点如下(这三个特点正是bs强大的原因,来自官方手册) a. Beau ...
- 机器学习实战笔记(Python实现)-08-线性回归
--------------------------------------------------------------------------------------- 本系列文章为<机器 ...
- 爬虫笔记(四)------关于BeautifulSoup4解析器与编码
前言:本机环境配置:ubuntu 14.10,python 2.7,BeautifulSoup4 一.解析器概述 如同前几章笔记,当我们输入: soup=BeautifulSoup(response. ...
- python3.4学习笔记(十七) 网络爬虫使用Beautifulsoup4抓取内容
python3.4学习笔记(十七) 网络爬虫使用Beautifulsoup4抓取内容 Beautiful Soup 是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖 ...
- 笔记之Python网络数据采集
笔记之Python网络数据采集 非原创即采集 一念清净, 烈焰成池, 一念觉醒, 方登彼岸 网络数据采集, 无非就是写一个自动化程序向网络服务器请求数据, 再对数据进行解析, 提取需要的信息 通常, ...
- python笔记之提取网页中的超链接
python笔记之提取网页中的超链接 对于提取网页中的超链接,先把网页内容读取出来,然后用beautifulsoup来解析是比较方便的.但是我发现一个问题,如果直接提取a标签的href,就会包含jav ...
- <Python Text Processing with NLTK 2.0 Cookbook>代码笔记
如下是<Python Text Processing with NLTK 2.0 Cookbook>一书部分章节的代码笔记. Tokenizing text into sentences ...
- python爬虫基础_requests和bs4
这些都是笔记,还缺少详细整理,后续会更新. 下面这种方式,属于入门阶段,手动成分比较多. 首先安装必要组件: pip3 install requests pip3 install beautifuls ...
随机推荐
- Juit
Junit这种老技术,现在又拿出来说,不为别的,某种程度上来说,更是为了要说明它在项目中的重要性. 凭本人的感觉和经验来说,在项目中完全按标准都写Junit用例覆盖大部分业务代码的,应该不会超过一半. ...
- Java&Selenium自动化测试调用JS实现单击
Java&Selenium自动化测试调用JS实现单击 /* * the method of invoking js to do something * * @author davieyang ...
- JDK源码那些事儿之红黑树基础上篇
说到HashMap,就一定要说到红黑树,红黑树作为一种自平衡二叉查找树,是一种用途较广的数据结构,在jdk1.8中使用红黑树提升HashMap的性能,今天就来说一说红黑树. 前言 限于篇幅,本文只对红 ...
- 从项目开始的Java开发学习
积累了一些项目中见到的代码,希望见一次之后自己也能写出来. 一.通过cxf JaxWsDynamicClientFactory进行WebService 客户端调用 代码:在项目中从非项目内的接口获取数 ...
- Java并发包--线程池框架
转载请注明出处:http://www.cnblogs.com/skywang12345/p/3509903.html 线程池架构图 线程池的架构图如下: 1. Executor 它是"执行者 ...
- 关键字local、global和内置函数【locals、globals】
每个函数都有着自已的命名空间,叫做局部名字空间,它记录了函数的变量,包括函数的参数和局部定义的变量.每个模块拥有它自已的命名空间,叫做全局命名空间,它记录了模块的变量,包括函数.类.其它导入的模块.模 ...
- jQuery.extend([deep], target, object1, [objectN])
jQuery.extend([deep], target, object1, [objectN]) 概述 用一个或多个其他对象来扩展一个对象,返回被扩展的对象.直线电机 如果不指定target,则给j ...
- 023_STM32之PID算法原理及应用
(O)关于程序BUG说明,看最后面的红色字体,视频和源代码中都没有说明 (一)PID控制算法(P:比例 I:积分 D:微分) (二)首先先说明原理,使用的是数字PID算法,模拟PID算法在计算机这样的 ...
- 011_STM32程序移植之_内部flash开机次数管理
011_STM32程序移植之_内部flash开机次数管理 1. 测试环境:STM32C8T6 2. 测试接口: 3. 串口使用串口一,波特率9600 单片机引脚------------CH340引脚 ...
- Math.cbrt() Math.sqrt() Math.pow()
Math.pow() 能实现 Math.cbrt() 和 Math.sqrt() 的功能,但并不完全相同. 1. Math.pow()和Math.cbrt()的区别 function isCube(m ...