1 三种信息类型的简介

xml : extensible markup language

与html非常相似

现有html后有xml

xml是html发展来的扩展通用

json 类型

javascript object notation

有类型的键值对表达的方式

一个key对应多个值

"key1":["asas",''asas'']

嵌套使用

"name":{

　　"newname":“北京理工大学”

　　"oldname":"延安自然科学院"

}

yaml (yaml ain't markup language) :)

name: 北京理工大学无类型的

通过缩写表示所属的相关关系(嵌套）

name:
　　oldname:xxxxx

　　newname:sasas

通过减号表达并列关系

name :

-xxxxxx

-asasasas

竖线表示整块数据

text:|

asdadsssssssssssssdsd

sdadasdasdasdasdasd

asdasd

#表示注释

xml 世界上最早的通用信息标记语言，可拓展性好

json 信息有类型，适合程序处理，简介

yaml 信息无类型文本型息比例最好，可读性好

xml internet上的交互与流动

json 程序对借口的使用,云端但是无注释

yaml 各类系统的配置文件有注释易读

2 信息提取的一般方法

方法一：完整解析信息的标记形式，需要表及解析器列如 bs4的标签书遍历

繁琐慢；

方法二：无视标记信息，直接提取关键信息，利用文本查找

准确性与内容相关

融合方法：结合形式解析与搜索方法

例：

提取html上所有的URL链接

1.找到所有的a标签

2.找到a标签中的href？

form bs4 import BeautifulSoup

soup=BeautifulSoup(demo,"html.parser")

for link in soup.find_all("a")：

　　 print(link.get("href"))

3基于BeautifulSoup的内容查找

方法find_all(name,attrs,recursive,string,**kwargs)

返回一个列表类型，存储查找的结果

soup.find_all("a”)

soup,find_all(["a","b"]) 同时查找ab标签

for tag in soup.find_all(True):

　　print(tag.name)

可以打印该soup中的所有tag信息

import re

for tag in soup.find_all(re.compile("b")):

　　print(tag.name)

打印以b开头的

attrs

查找p标签中带有course属性值的的

soup.find_all("p","course")

//soup.find_all("p",attrs={"ssdsd":"dssds})

也可以约定是某一个属性为XX

soup.find_all(id="link1")

#id属性为link1

import re //利用正则表达式

recursive 表示是否对所有子孙都搜索默认为TRUE

soup.find_all("a")

string 对标签中的字符穿检索的属性

例：
soup.find_all(string="Basic python")

也可以用正则表达式

简短形式

<tag>() 等价于 <tag>.find_all()

soup(...)等价于 soup.find_all()

7个拓展方法

find 只返回一个结果字符串类型

find_parents 只在先辈节点中搜索，返回一个列表

find_parent 只在黔北节点中搜索，返回结果字符串类型一个

find_next_siblings只在后续平行节点中搜索，返回列表类型

find_next_sibling 同上只返回一个字符串类型

find_previous_siblings

find_previsou_sibling 同上

差不多

PYTHON网络爬虫与信息提取[信息的组织与提取](单元五)的更多相关文章

Python网络爬虫与信息提取
1.Requests库入门 Requests安装用管理员身份打开命令提示符: pip install requests 测试:打开IDLE: >>> import requests ...
第3次作业-MOOC学习笔记：Python网络爬虫与信息提取
1.注册中国大学MOOC 2.选择北京理工大学嵩天老师的<Python网络爬虫与信息提取>MOOC课程 3.学习完成第0周至第4周的课程内容,并完成各周作业 4.提供图片或网站显示的学习进 ...
第三次作业-Python网络爬虫与信息提取
1.注册中国大学MOOC 2.选择北京理工大学嵩天老师的<Python网络爬虫与信息提取>MOOC课程 3.学习完成第0周至第4周的课程内容,并完成各周作业过程. 5.写一篇不少于100 ...
第三次作业-MOOC学习笔记：Python网络爬虫与信息提取
1.注册中国大学MOOC 2.选择北京理工大学嵩天老师的<Python网络爬虫与信息提取>MOOC课程 3.学习完成第0周至第4周的课程内容,并完成各周作业第一周 Requests库的爬 ...
Python网络爬虫与信息提取笔记
直接复制粘贴笔记发现有问题文档下载地址//download.csdn.net/download/hide_on_rush/12266493 掌握定向网络数据爬取和网页解析的基本能力常用的 Pytho ...
【学习笔记】PYTHON网络爬虫与信息提取(北理工嵩天)
学习目的:掌握定向网络数据爬取和网页解析的基本能力the Website is the API- 1 python ide 文本ide:IDLE,Sublime Text集成ide:Pychar ...
Python网络爬虫与信息提取（一）
学习北京理工大学嵩天课程笔记课程体系结构: 1.Requests框架:自动爬取HTML页面与自动网络请求提交 2.robots.txt:网络爬虫排除标准 3.BeautifulSoup框架:解 ...
PYTHON网络爬虫与信息提取[scrapy框架应用](单元十、十一)
scrapy 常用命令 startproject 创建一个新的工程 scrapy startproject <name>[dir] genspider 创建一个爬虫 ...
Python网络爬虫与信息提取（二）—— BeautifulSoup
BeautifulSoup官方介绍: Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式. 官方 ...

随机推荐

poj3167- Cow Patterns
传送门两个串相等定义为串中每一位排序后的相对大小相等. 一位相等等价于这一位前面比他小的和等于他的数的个数相等. 那么用kmp,比较的时候比较这两个个数就可以了. 一开始很瓜地想,询问一段区间内比我 ...
CentOS7使用firewalld打开关闭防火墙与端口（转）
CentOS7使用firewalld打开关闭防火墙与端口 1.firewalld的基本使用启动: systemctl start firewalld 关闭: systemctl stop ...
CSS中关于多个class样式设置的不同写法
html中: <div class="containerA"> 这是AAAAAAAAAAAAAAAAAAAAAAA样式 <div class="cont ...
报错C1189 #error: "No Target Architecture"
根本原因: 是因为单独包含了一些windows.h已经包含了的头文件如"fileapi.h","WinUser.h",但是却没有包含windows.h 或者先包 ...
GCC 参数详解
转载出处:http://blog.csdn.net/yff1030/article/details/8592077 原文:http://www.cppblog.com/SEMAN/archive/20 ...
Struts2中param的作用
1.页面传参与配置传参的区别:如果页面Form表单的参数在Action类中有相应的setter方法,则会优先取页面Form表单传过来的值,如果页面没有该属性同名的参数,则会从配置文件中取同名的参数值作 ...
JavaScript性能优化篇js优化
JavaScript性能优化篇js优化随着Ajax越来越普遍,Ajax引用的规模越来越大,Javascript代码的性能越来越显得重要,我想这就是一个很典型的例子,上面那段代码因为会被频繁使用, ...
JS基础语法之DOM02(事件）
1.常用事件 1.onclick 单击应用场景:为按钮绑定 2.ondbclick 双击 3.onfocus 获得焦点 4.onblur 失去焦点应用场景:用于表单验证,用户离开某个输入框时, ...
python学习笔记4.1_检测和过滤异常值
1.查看数据分布data.describe() 2.找出某列中符合筛选条件的值 3.找出符合筛选条件的行 4.用np.sign(data)*3设置绝对值的标准 data[np.abs(data)> ...
for update行级锁的作用
1.for update叫排它锁,是一种行级锁,一旦用户对某个行施加了行级加锁,则该用户可以查询也可以更新被加锁的数据行,其它用户只能查询但不能更新被加锁的数据行．如果其它用户想更新该表中的数据行,则 ...