Day92

# session:用于保存客户端历史访问的信息
# BeautifulSoup是一个模块，该模块用于接收一个HTML或XML字符串，然后将其进行格式化，
# 之后遍可以使用他提供的方法进行快速查找指定元素，从而使得在HTML或XML中查找指定元素变得简单。
# 解析器           使用方法                                        优势                              劣势
# Python标准库     BeautifulSoup(markup,"html.parser")         容错能力强、内置标准库、速度一般     低版本容错能力差
# lxml HTML解析器  BeautifulSoup(markup,"lxml")                容错能力强、速度快                   需要C语言库
# pip install lxml
# 学习官方文档，以后想要看标签或者其他的方法、类，需要通过看源码，找到类、父类、基类
# 1.name名称
# tag = soup.find('a')
# name = tag.name # 获取
# print(name)
# tag.name = 'span' # 设置
# print(soup)
# 2.attr标签属性（获取的是字典类型）
# tag = soup.find('a')#>>找到a标签
# attrs = tag.attrs    # 获取所有属性
# print(attrs)
# tag.attrs = {'ik':123} # 设置属性的新值
# tag.attrs['id'] = 'iiiii' # 设置
# print(soup)
# 3. children,所有子标签
# body = soup.find('body')
# v = body.children
# children拿到的对象的type类型如果是NavigableString则是字符串，如果是Tag说明是标签
# 需要通过判断的方式来确定筛选标签
# 4. children,所有子子孙孙标签
# body = soup.find('body')
# v = body.descendants
# 一直找一条线找到底才会去第二条线，找所有的后代
# 5. clear,将标签的所有子标签全部清空（保留标签名）
# tag = soup.find('body')
# tag.clear()
# print(soup)
# 6. decompose,递归的删除所有的标签（不保留标签名）
# body = soup.find('body')
# body.decompose()
# print(soup)
# 7. extract,递归的删除所有的标签，并获取删除的标签（返回一个删除的标签，有点类似pop）
# body = soup.find('body')
# v = body.extract()
# print(soup)
# 8. decode,转换为字符串（含当前标签）；decode_contents（不含当前标签）
# body = soup.find('body')
# v = body.decode()
# v = body.decode_contents()
# print(v)
# 9. encode,转换为字节（含当前标签）；encode_contents（不含当前标签）
# body = soup.find('body')
# v = body.encode()
# v = body.encode_contents()
# print(v)
# 10. find,获取匹配的第一个标签
# tag = soup.find('a')
# print(tag)
# tag = soup.find(name='a', attrs={'class': 'sister'}, recursive=True, text='Lacie')
# tag = soup.find(name='a', class_='sister', recursive=True, text='Lacie')
# print(tag)
# 11. find_all,获取匹配的所有标签
# tags = soup.find_all('a')
# print(tags)

# tags = soup.find_all('a',limit=1)
# print(tags)

# tags = soup.find_all(name='a', attrs={'class': 'sister'}, recursive=True, text='Lacie')
# # tags = soup.find(name='a', class_='sister', recursive=True, text='Lacie')
# print(tags)

# ####### 列表 #######
# v = soup.find_all(name=['a','div'])
# print(v)

# v = soup.find_all(class_=['sister0', 'sister'])
# print(v)

# v = soup.find_all(text=['Tillie'])
# print(v, type(v[0]))

# v = soup.find_all(id=['link1','link2'])
# print(v)

# v = soup.find_all(href=['link1','link2'])
# print(v)

# ####### 正则 #######
# import re
# rep = re.compile('p')
# rep = re.compile('^p')
# v = soup.find_all(name=rep)
# print(v)

# rep = re.compile('sister.*')
# v = soup.find_all(class_=rep)
# print(v)

# rep = re.compile('http://www.oldboy.com/static/.*')
# v = soup.find_all(href=rep)
# print(v)

# ####### 方法筛选 #######
# def func(tag):
# return tag.has_attr('class') and tag.has_attr('id')
# v = soup.find_all(name=func)
# print(v)

# ## get,获取标签属性
# tag = soup.find('a')
# v = tag.get('id')
# print(v)
# 12. has_attr,检查标签是否具有该属性
# tag = soup.find('a')
# v = tag.has_attr('id')
# print(v)
# 13. get_text,获取标签内部文本内容
# tag = soup.find('a')
# v = tag.get_text('id')
# print(v)
# 14. index,检查标签在某标签中的索引位置
# tag = soup.find('body')
# v = tag.index(tag.find('div'))
# print(v)

# tag = soup.find('body')
# for i,v in enumerate(tag):
# print(i,v)
# 15. is_empty_element,是否是空标签(是否可以是空)或者自闭合标签，
#      判断是否是如下标签：'br' , 'hr', 'input', 'img', 'meta','spacer', 'link', 'frame', 'base'
# tag = soup.find('br')
# v = tag.is_empty_element
# print(v)
# 16. 当前的关联标签
# soup.next
# soup.next_element
# soup.next_elements
# soup.next_sibling
# soup.next_siblings
#
# tag.previous
# tag.previous_element
# tag.previous_elements
# tag.previous_sibling
# tag.previous_siblings
#
# tag.parent
# tag.parents
# 17. 查找某标签的关联标签
# tag.find_next(...)
# tag.find_all_next(...)
# tag.find_next_sibling(...)
# tag.find_next_siblings(...)
# tag.find_previous(...)
# tag.find_all_previous(...)
# tag.find_previous_sibling(...)
# tag.find_previous_siblings(...)
# tag.find_parent(...)
# tag.find_parents(...)
# 参数同find_all
# 18. select,select_one, CSS选择器
# soup.select("title")
#
# soup.select("p nth-of-type(3)")
#
# soup.select("body a")
#
# soup.select("html head title")
#
# tag = soup.select("span,a")
#
# soup.select("head > title")
#
# soup.select("p > a")
#
# soup.select("p > a:nth-of-type(2)")
#
# soup.select("p > #link1")
#
# soup.select("body > a")
#
# soup.select("#link1 ~ .sister")
#
# soup.select("#link1 + .sister")
#
# soup.select(".sister")
#
# soup.select("[class~=sister]")
#
# soup.select("#link1")
#
# soup.select("a#link2")
#
# soup.select('a[href]')
#
# soup.select('a[href="http://example.com/elsie"]')
#
# soup.select('a[href^="http://example.com/"]')
#
# soup.select('a[href$="tillie"]')
#
# soup.select('a[href*=".com/el"]')
#
# from bs4.element import Tag
#
#
# def default_candidate_generator(tag):
#     for child in tag.descendants:
#         if not isinstance(child, Tag):
#             continue
#         if not child.has_attr('href'):
#             continue
#         yield child
#
#
# tags = soup.find('body').select("a", _candidate_generator=default_candidate_generator)
# print(type(tags), tags)
#
# from bs4.element import Tag
#
#
# def default_candidate_generator(tag):
#     for child in tag.descendants:
#         if not isinstance(child, Tag):
#             continue
#         if not child.has_attr('href'):
#             continue
#         yield child
#
# tags = soup.find('body').select("a", _candidate_generator=default_candidate_generator, limit=1)
# print(type(tags), tags)
# 19. 标签的内容
# tag = soup.find('span')
# print(tag.string)          # 获取
# tag.string = 'new content' # 设置
# print(soup)

# tag = soup.find('body')
# print(tag.string)
# tag.string = 'xxx'
# print(soup)

# tag = soup.find('body')
# v = tag.stripped_strings  # 递归内部获取所有标签的文本
# print(v)
# 20.append在当前标签内部追加一个标签
# tag = soup.find('body')
# tag.append(soup.find('a'))
# print(soup)
#
# from bs4.element import Tag
# obj = Tag(name='i',attrs={'id': 'it'})
# obj.string = '我是一个新来的'
# tag = soup.find('body')
# tag.append(obj)
# print(soup)
# 21.insert在当前标签内部指定位置插入一个标签
# from bs4.element import Tag
# obj = Tag(name='i', attrs={'id': 'it'})
# obj.string = '我是一个新来的'
# tag = soup.find('body')
# tag.insert(2, obj)
# print(soup)
# 22. insert_after,insert_before 在当前标签后面或前面插入
# from bs4.element import Tag
# obj = Tag(name='i', attrs={'id': 'it'})
# obj.string = '我是一个新来的'
# tag = soup.find('body')
# # tag.insert_before(obj)
# tag.insert_after(obj)
# print(soup)
# 23. replace_with 在当前标签替换为指定标签
# from bs4.element import Tag
# obj = Tag(name='i', attrs={'id': 'it'})
# obj.string = '我是一个新来的'
# tag = soup.find('div')
# tag.replace_with(obj)
# print(soup)
# 24. 创建标签之间的关系
# tag = soup.find('div')
# a = soup.find('a')
# tag.setup(previous_sibling=a)
# print(tag.previous_sibling)
# 25. wrap，将指定标签把当前标签包裹起来
# from bs4.element import Tag
# obj1 = Tag(name='div', attrs={'id': 'it'})
# obj1.string = '我是一个新来的'
#
# tag = soup.find('a')
# v = tag.wrap(obj1)
# print(soup)

# tag = soup.find('a')
# v = tag.wrap(soup.find('p'))
# print(soup)
# 26. unwrap，去掉当前标签，将保留其包裹的标签
# tag = soup.find('a')
# v = tag.unwrap()
# print(soup)

Day92的更多相关文章

day92之支付宝支付
Python之支付宝支付正式环境:用营业执照,申请商户号,appid 基于支付宝的测试环境:https://openhome.alipay.com/platform/appDaily.htm?tab ...
python 全栈开发，Day92(编程式的导航,vue页面布局,marked包的使用)
昨日内容回顾 1. 组件间的传值 1. bus --> 空Vue对象通过向bus对象抛出自定义事件的方式在组件间传递信息 2. 注意事项: 1. bus.$on()应该在组件mounted(挂 ...
day92:flask:flask简介&基本运行&路由&HTTP请求和响应
目录 1.Flask简介 2.关于使用flask之前的准备 3.flask的基本运行 4.flask加载配置 5.传递路由参数(没有限定类型) 6.传递路由参数(通过路由转换器限定路由参数的类型) 7 ...
Python全栈day9（Python基础）
Python基础一,Windows安装Python3.5 下载地址:https://www.python.org/ftp/python/3.5.2/python-3.5.2rc1-amd64.exe ...
CRM——讲师与学生
一.课程记录和学习记录 1.初始化 course_record, study_record.2.学习记录3.录入成绩4.显示成绩 ajax 查询柱状图展示成绩 highcharts 5.上传作业(o ...
老男孩Python高级全栈开发工程师三期完整无加密带课件(共104天)
点击了解更多Python课程>>> 老男孩Python高级全栈开发工程师三期完整无加密带课件(共104天) 课程大纲 1.这一期比之前的Python培新课程增加了很多干货:Linux ...
22期老男孩Ptython全栈架构师视频教程
老男孩Ptython全栈架构师视频教程 Python最新整理完整版22期视频教程超60G课程容量<ignore_js_op> <ignore_js_op> <ignor ...

随机推荐

ServiceStack.Redis之IRedisClient（转载）
一.属性 IRedisClient的属性如下: 属性说明 ConnectTimeout 连接超时 Db 当前数据库的ID或下标 DbSize 当前数据库的 key 的数量 HadExceptio ...
Constants and Variables
1.定义 Constants :程序编译的时候就已经存在且在程序生命周期内不会改变的值. Variables:变量本身被用来存储特定类型的数据,可以根据需要随时改变变量中所存储的数据值.每个变量都有一 ...
ZBrush软件特性之Edit
ZBrush®中的Edit调控板控制撤销和重做命令,它有一或两个命令设置将根据Tool工具调控板当前选择的工具而定,默认配置的命令仅有文档编辑,不过当激活一个3D工具,只针对这个工具的两个按钮设置变成 ...
51nod 1113 矩阵快速幂（矩阵快速幂经典模板）
1113 矩阵快速幂链接:传送门思路:经典矩阵快速幂,模板题,经典矩阵快速幂模板. /******************************************************* ...
VS2015 C# 编写USB通信上位机时，改变net框架导致DLL调用失败的问题解决方法
最近在写USB通信的上位机,调用了windows里的DLL,开发环境:64位WIN7 .VS2015.NET4.5.2:开发完成后在自己的电脑可用,在32位电脑.NET其他版本以及WIN10的环境下不 ...
Maven系列--web.xml 配置详解
一 .web.xml介绍启动一个WEB项目的时候,WEB容器会去读取它的配置文件web.xml,读取<listener>和<context-param>两个结点. 紧接着,容 ...
【codeforces 501D】Misha and Permutations Summation
[题目链接]:http://codeforces.com/problemset/problem/501/D [题意] 给你两个排列; 求出它们的字典序num1和num2; 然后让你求出第(num1+n ...
Ubuntu 15.10 安装Qt5.5.1
本系列文章由 @YhL_Leo 出品,转载请注明出处. 文章链接: http://blog.csdn.net/yhl_leo/article/details/50300447 本人使用的ubuntu系 ...
HDU 2686 Matrix(最大费用最大流+拆点)
题目链接:pid=2686">http://acm.hdu.edu.cn/showproblem.php?pid=2686 和POJ3422一样删掉K把汇点与源点的容量改为2(由于有 ...
Eureka Server的REST端点
Eureka Server的REST端点 Windows下面可以安装Curl: 使用more命令可以显示xml内容: D:\Java\IdeaProjects>more rest-api-tes ...

Day92

Day92的更多相关文章

随机推荐

热门专题