安装：pip install BeautifulSoup4

下表列出了主要的解析器,以及它们的优缺点:看个人习惯选取自己喜欢的解析方式

 # 获取html代码

 import requests

 r = requests.get('http://www.python123.io/ws/demo.html')

 demo = r.text

 from bs4 import BeautifulSoup

 soup = BeautifulSoup(demo,'html.parser')

 print(soup.prettify()) #按照标准的缩进格式的结构输出，代码如下

 <html>

  <head>

   <title>

    This is a python demo page

   </title>

  </head>

  <body>

   <p class="title">

    <b>

     The demo python introduces several python courses.

    </b>

   </p>

   <p class="course">

    Python is a wonderful general-purpose programming language. You can learn Python from novice to professional by tracking the following courses:

    <a class="py1" href="http://www.icourse163.org/course/BIT-268001" id="link1">

     Basic Python

    </a>

    and

    <a class="py2" href="http://www.icourse163.org/course/BIT-1001870001" id="link2">

     Advanced Python

    </a>

    .

   </p>

  </body>

 </html>

简单浏览数据化方法的用法

#demo的源代码

html_d="""

<html><head><title>This is a python demo page</title></head>

<body>

<p class="title"><b>The demo python introduces several python courses.</b></p>

<p class="course">Python is a wonderful general-purpose programming language. You can learn Python from novice to professional by tracking the following courses:

<a href="http://www.icourse163.org/course/BIT-268001" class="py1" id="link1">Basic Python</a> and <a href="http://www.icourse163.org/course/BIT-1001870001" class="py2" id="link2">Advanced Python</a>.</p>

</body></html>

"""

from bs4 import BeautifulSoup

soup=BeautifulSoup(html_d,'html.parser')

# 获取title标签

print(soup.title)

#获取文本内容

print(soup.text)

#获取标签名称

print(soup.title.name)

#获取标签属性

print(soup.title.attrs)

#获取head标签的子节点

print(soup.p.contents)

print(soup.p.children)

#获取所有的a标签

print(soup.find_all('a'))

常用解析方法

#demo的源代码

html_d="""

<html><head><title>This is a python demo page</title></head>

<body>

<p class="title"><b>The demo python introduces several python courses.</b></p>

<p class="course">Python is a wonderful general-purpose programming language. You can learn Python from novice to professional by tracking the following courses:

<a href="http://www.icourse163.org/course/BIT-268001" class="py1" id="link1">Basic Python</a> and <a href="http://www.icourse163.org/course/BIT-1001870001" class="py2" id="link2">Advanced Python</a>.</p>

</body></html>

"""

from bs4 import BeautifulSoup

soup = BeautifulSoup(html_d,"lxml")

#p下面所有的子节点

print(soup.p.contents)

soup.contents[0].name

#children本身没有子节点，得到一个迭代器,包含p下所有子节点

print(soup.p.children)

for child in enumerate(soup.p.children):

    print(child)

#子孙节点p下面所有的标签都会出来

print(soup.p.descendants)

for i in enumerate(soup.p.children):

  print(i)

# string 下面有且只有一个子节皆可以取出，如有多个字节则返回为none

print(soup.title.string)

# strings 如果有多个字符串

for string in soup.strings:

    print(repr(string))

#去掉空白

for line in soup.stripped_strings:

    print(line)

#获取a标签的父节点

print(soup.a.parent)

#找到a标签的父辈节点

print(soup.a.parents)

#兄弟节点

print(soup.a.next_sibling) #同一个兄弟

print(soup.a.next_sibling) #上一个兄弟

print(soup.a.next_sibling) #下一个兄弟

find_all的用法( name, attrs, recursive, text, **kwargs)

import re
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_d,"lxml")
# name
for tag in soup.find_all(re.compile('b')):
print(tag.name)
#attrs
print(soup.find_all('p','course'))
#keyword
print(soup.find_all(id='link1'))
#recursive
# print(soup.find_all('a',recursive=False))
# string
# print(soup.find_all(string=re.compile('python')))

小案例

import requests

from bs4 import BeautifulSoup

import bs4

#获取URL里面信息

def getHtmlText(url):

    try:

        r= requests.get(url,timeout=30 )

        r.encoding=r.apparent_encoding

        return r.text

    except:

      return ""

#提起网页数据

def fillunivList(ulist,html):

    soup = BeautifulSoup(html,"html.parser")

    for tr in soup.find('tbody').children:

        if isinstance(tr,bs4.element.Tag):

            tds = tr('td')

            ulist.append([tds[0].string,tds[1].string,tds[2].string,tds[3].string])

    pass

#打印数据结果

def printUnivList(ulist,num):

    # tplt = "{0:^10}\t{1:{3}^10}\t{2:^10}\t{:^10}"

    # print(tplt.format('排名', '学校名称', '省份','总分',chr(12288)))

    # for i in range(num):

    #     u = ulist[i]

    #     print(tplt.format(u[0], u[1], u[2],u[3],chr(12288)))

    print("{:^10}\t{:^6}\t{:^10}\t{:^10}".format('排名', '学校名称', '地区', '总分'))

    for i in range(num):

         u = ulist[i]

         print("{:^10}\t{:^6}\t{:^10}\t{:^10}".format(u[0], u[1], u[2], u[3]))

    return

def main():

    unifo = []

    url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html'

    html = getHtmlText(url)

    fillunivList(unifo,html)

    printUnivList(unifo,20) #打印前20所

main()

爬虫之BeautifulSoup类的更多相关文章

爬虫模块BeautifulSoup
中文文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html# 1.1 安装BeautifulSoup模块 ...
BeautifulSoup类
from bs4 import BeautifulSoup soup1 = BeautifulSoup("<html>data</html>"," ...
使用Python爬虫库BeautifulSoup遍历文档树并对标签进行操作详解（新手必学）
为大家介绍下Python爬虫库BeautifulSoup遍历文档树并对标签进行操作的详细方法与函数下面就是使用Python爬虫库BeautifulSoup对文档树进行遍历并对标签进行操作的实例,都是最 ...
【Python爬虫】BeautifulSoup网页解析库
BeautifulSoup 网页解析库阅读目录初识Beautiful Soup Beautiful Soup库的4种解析器 Beautiful Soup类的基本元素基本使用标签选择器节点操作 ...
爬虫笔记之刷小怪练级：yymp3爬虫（音乐类爬虫）
一.目标爬取http://www.yymp3.com网站歌曲相关信息,包括歌曲名字.作者相关信息.歌曲的音频数据.歌曲的歌词数据. 二.分析 2.1 歌曲信息.歌曲音频数据下载地址的获取随便打开一 ...
爬虫之 BeautifulSoup与Xpath
知识预览 BeautifulSoup xpath BeautifulSoup 一简介简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据.官方解释如下: '' ...
Python 爬虫—— requests BeautifulSoup
本文记录下用来爬虫主要使用的两个库.第一个是requests,用这个库能很方便的下载网页,不用标准库里面各种urllib:第二个BeautifulSoup用来解析网页,不然自己用正则的话很烦. req ...
python爬虫之BeautifulSoup
爬虫有时候写正则表达式会有假死现象就是正则表达式一直在进行死循环查找例如:https://social.msdn.microsoft.com/forums/azure/en-us/3f4390ac ...
Python开发爬虫之BeautifulSoup解析网页篇：爬取安居客网站上北京二手房数据
目标:爬取安居客网站上前10页北京二手房的数据,包括二手房源的名称.价格.几室几厅.大小.建造年份.联系人.地址.标签等. 网址为:https://beijing.anjuke.com/sale/ B ...

随机推荐

Reading
Reading一共18min 需要背诵专业学科分类的词汇. 单词上,背四级词汇和托福词汇,达到约1w词汇. 句子上,练习速度和用词准确,其中准确包括含义准确和语序准确.
图形学创世纪——写在SIGGRAPH 40年的边上
40年的边上" title="图形学创世纪--写在SIGGRAPH 40年的边上"> 前言: SIGGRAPH是由ACM SIGGRAPH(美国计算机协会计算机图形 ...
STL：map中的lower_bound和upper_bound
今天在做leetcode的Longest Increasing Subsequence题目时,需要用到二分查找,于是翻看了<STL源码剖析>这本书,发现map里面有lower_bound和 ...
无标定量|有标定量|谱图计数|XIC|AMT数据库|RT对对齐|母离子|子离子|SILVER|SRM|iBAQ|APEX|差异蛋白筛选|MaxQuant|PANDA|C-HPP
生物医学大数据-蛋白质定量现今肽段定量效率存在巨大差异.比如相同质量蛋白质,但是肽段和蛋白信号不均一,在物理条件一致时,仅有70%的重复率,并且当重复次数变多时,overlapping在变少. 无标 ...
jQuery ajax中的参数含义
所有options均可选,下面简要说明每个option 1.async 默认为true,即请求为异步请求,这也是ajax存在的意义.但同时也可以将这个参数设置为false,实现同步请求.(同步请求会锁 ...
JQuery中易混淆的概念
append(): 向每个匹配的元素内部追加内容. <p>I would like to say: </p> $("p").append("< ...
吴裕雄--天生自然 R语言开发学习：基本统计分析
#---------------------------------------------------------------------# # R in Action (2nd ed): Chap ...
用PHP实现的快速排序算法（支持记录原始数组下标）
代码如下 <?php /** * 快速排序 */ define("MAX_LENGTH_INSERT_SORT", 7); class QuickSort { /** * 交 ...
Mysql SQL Mode简介
MySQL服务器能够工作在不同的SQL模式下,并能针对不同的客户端以不同的方式应用这些模式.这样,应用程序就能对服务器操作进行量身定制以满足自己的需求.这类模式定义了MySQL应支持的SQL语法,以及 ...
Jquery Ajax Post Json
var markers = { "markers": [ { "position": "128.3657142857143", " ...

爬虫之BeautifulSoup类

下表列出了主要的解析器,以及它们的优缺点:看个人习惯选取自己喜欢的解析方式

简单浏览数据化方法的用法

常用解析方法

小案例

爬虫之BeautifulSoup类的更多相关文章

随机推荐

热门专题