BeautifulSoup重点复习

 html = """

 <html><head><title>The Dormouse's story</title></head>

 <body>

 <p class="title" name="dromouse"><b>The Dormouse's story</b></p>

 <p class="story">Once upon a time there were three little sisters; and their names were

 <a href="http://example.com/elsie" class="sister" id="link1"><!-- Elsie --></a>,

 <a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and

 <a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;

 and they lived at the bottom of a well.</p>

 <p class="story">...</p>

 """

 from bs4 import BeautifulSoup

 #一、标签选择器

 soup = BeautifulSoup(html,'lxml')

 print(soup.prettify())#自动进行格式化处理，补全标签等

 print(soup.title.string)#得到title标签里的内容，获取x里面的内容用soup.x.string

 print(soup.title)#获取title标签

 print(soup.title.name)#获得标签的名称，注意是标签

 print(soup.head)#获取head标签

 print(soup.p)#匹配第一个p标签

 print(soup.p['name'])#获取p标签的属性即后面的name部分<p class="title" name="dromouse">

 print(soup.head.title.string)#可以进行嵌套层层剥离标签

 print(soup.p.contents)#获取p标签的所有子节点，以列表形式返回

 print(soup.p.children)#返回迭代器，可以以循环方式遍历p标签的子节点

 for i,child in enumerate(soup.p.children):

     print(i,child)

 print(soup.p.descendants)#返回迭代器，获取所有的子孙节点

 print(soup.a.parent)#获取a标签的父节点信息

 print(soup.a.parents)#获取祖先节点

 print(soup.a.next_siblings)#返回迭代器，下一个兄弟节点

 print(soup.a.previous_siblings)#返回迭代器，前一个兄弟节点

 #二、标准选择器

 html='''

 <div class="panel">

     <div class="panel-heading">

         <h4>Hello</h4>

     </div>

     <div class="panel-body">

         <ul class="list" id="list-1" name="elements">

             <li class="element">Foo</li>

             <li class="element">Bar</li>

             <li class="element">Jay</li>

         </ul>

         <ul class="list list-small" id="list-2">

             <li class="element">Foo</li>

             <li class="element">Bar</li>

         </ul>

     </div>

 </div>

 '''

 #find_all

 from bs4 import BeautifulSoup

 soup = BeautifulSoup(html,'lxml')

 print(soup.find_all('ul'))#查找ul标签所有内容

 print(soup.find_all(attrs={'id':'list-1'}))#可以将attrs传入字典以完成查找

 print(soup.find_all(id='list-1'))#可以简写，不用传入attrs

 print(soup.find_all(class_='element'))#可以简写

 print(soup.find_all(text='Foo'))#可以匹配到foo

 '''

 #find与find_all用法一致，只是返回第一个元素

 find_parents() find_parent()

 find_parents()返回所有祖先节点，find_parent()返回直接父节点。

 find_next_siblings() find_next_sibling()

 find_next_siblings()返回后面所有兄弟节点，find_next_sibling()返回后面第一个兄弟节点。

 find_previous_siblings() find_previous_sibling()

 find_previous_siblings()返回前面所有兄弟节点，find_previous_sibling()返回前面第一个兄弟节点。

 find_all_next() find_next()

 find_all_next()返回节点后所有符合条件的节点, find_next()返回第一个符合条件的节点

 find_all_previous() 和 find_previous()

 find_all_previous()返回节点后所有符合条件的节点, find_previous()返回第一个符合条件的节点

 '''

 print('*'*200)

 #css选择器

 print(soup.select('.panel .panel-heading'))#用.代替class

 print(soup.select('ul li'))#找到ul li的所有标签

 print(soup.select('#list-2 .element'))#用#代替id

 for ul in soup.select('ul'):#获取ul标签

     print(ul['id'])#获取ul标签的id属性

 for ul in soup.select('ul'):

     print(ul.get_text())#获取ul的文本内容

 #总结：

 # 推荐使用lxml解析库，必要时使用html.parser

 #标签选择器筛选功能弱但是速度极快

 #建议使用find(),findall()查询匹配单个结果或者多个结果

 #如果对css选择器熟悉建议使用select()

 #记住常用的获取属性和文本的方法

BeautifulSoup重点复习的更多相关文章

python 基础部分重点复习整理2
把这里的题目争取刷一遍博客记录 python的ORM框架peewee SQLAlchemy psycopg2 Django 在1 的基础上,重点突出自己以前没注意的,做到精而不杂!!! Python ...
python 基础部分重点复习整理--从意识那天开始进阶--已结
pythonic 风格编码入门python好博客进阶大纲有趣的灵魂老齐的教程老齐还整理了很多精华听说 fluent python + pro python 这两本书还不错! 元组三种遍历, ...
PAT 甲级 1020 Tree Traversals (25分)（后序中序链表建树，求层序）***重点复习
1020 Tree Traversals (25分) Suppose that all the keys in a binary tree are distinct positive intege ...
PAT 甲级 1086 Tree Traversals Again (25分)（先序中序链表建树，求后序）***重点复习
1086 Tree Traversals Again (25分) An inorder binary tree traversal can be implemented in a non-recu ...
PAT 甲级 1064 Complete Binary Search Tree (30 分)（不会做，重点复习，模拟中序遍历）
1064 Complete Binary Search Tree (30 分) A Binary Search Tree (BST) is recursively defined as a bin ...
[Java面试一]面试复习大纲.
一.Java基础部分 (搞定所有技术之后才考虑复习的技术点) 1.数组中的排序问题(笔试或者机试,前者可能性更大) 2.面向对象的理解 3.集合相关的问题,比如hashmap跟hashtable的区别 ...
Exam 70-462 Administering Microsoft SQL Server 2012 Databases 复习帖
好吧最近堕落没怎么看书,估计这个月前是考不过了,还是拖到国庆之后考试吧.想着自己复习考试顺便也写点自己的复习的概要,这样一方面的给不准备背题库的童鞋有简便的复习方法(好吧不被题库的同学和我一样看MSD ...
java8--网络编程(java疯狂讲义3复习笔记)
重点复习一下网络通信和代理 java的网络通信很简单,服务器端通过ServerSocket建立监听,客户端通过Socket连接到指定服务器后,通信双方就可以通过IO流进行通信. 需要重点看的工具类:I ...
读书笔记---PMBOK第五版官方中文版
以下是为了准备PMP考试时学习<PMBOK第五版官方中文版>这本书的笔记和摘要,目的是为了以后可以快速的抓住本书的核心重点复习. 引论 PMPOK的目的收录了项目管理知识体系中被普遍认可 ...

随机推荐

笔记：Eclipse 安装 Hibernate Tools
在线安装,要求 Eclipse Neon 4.6 版本和Java 8,在 Help > Install New Software,在打开的窗体中的 Work with 中输入URL地址" ...
Dockerfile 指令 VOLUME 介绍
在介绍VOLUME指令之前,我们来看下如下场景需求: 1)容器是基于镜像创建的,最后的容器文件系统包括镜像的只读层+可写层,容器中的进程操作的数据持久化都是保存在容器的可写层上.一旦容器删除后,这些数 ...
读headFirst设计模式 - 工厂模式
每次写博客都不知道要怎么引入要写的主题,挺头疼的一件事.今天就直接开门见山,今天要学的就是工厂模式,工厂就是批量生产制造东西的地方.在这里,工厂就是批量生产对象的地方. 学习书上的例子假如你现在有一 ...
newInstance()和new()的区别
转载:http://www.jobui.com/mianshiti/it/java/7148/ newInstance: 弱类型.低效率.只能调用无参构造.new: 强类型.相对高效.能调用任何pub ...
python入门（Python和Pycharm安装）
Python简介 Python是一种计算机程序设计语言,它结合了解释性.编译性.互动性和面向对象的脚本语言,非常简单易用.Python 的设计具有很强的可读性,相比其他语言经常使用英文关键字,其他 ...
记一次sqoop同步到mysql
工作中需要用到将hive的数据导一份到mysql中,需求是这样的:hive每天会产生一份用户标签(tag)发生变化的结果表user_tag,这份结果同步到mysql中,并且保持一份全量表,存储当前用户 ...
java基础笔记（10）----集合之set集合
set接口特点: 存储任意Object元素无序,无下标,元素内容不可以重方法: 继承父接口Collection中的所有方法遍历: 有两种遍历方法,foreach遍历和迭代遍历 forEach遍历 ...
Java源码之HashMap
一.HashMap和Hashtable的区别 (1)HashMapl的键值(key)和值(value)可以为null,而Hashtable不可以 (2)Hashtable是线程安全类,而HashMap ...
浏览器关闭后，Session会话结束了么？
今天想和大家分享一个关于Session的话题: 当浏览器关闭时,Session就被销毁了? 我们知道Session是JSP的九大内置对象(也叫隐含对象)中的一个,它的作用是可以保存当前用户的状态信息 ...
bzoj千题计划214：bzoj3589: 动态树
http://www.lydsy.com/JudgeOnline/problem.php?id=3589 树链剖分用线段数维护扫描线的方式来写,标记只打不下传 #include<cstdio& ...

BeautifulSoup重点复习

BeautifulSoup重点复习的更多相关文章

随机推荐

热门专题