python HTMLparser

1.概述

 如果我们要编写一个搜索引擎，第一步是用爬虫把目标网站的页面抓下来，

 第二步就是解析该HTML页面，看看里面的内容到底是新闻、图片还是视频。

 假设第一步已经完成了，第二步应该如何解析HTML呢？

 HTML本质上是XML的子集，但是HTML的语法没有XML那么严格，所以不能用标准的DOM或SAX来解析HTML。

 也可以用 re正则表达式

 scrapy 框架下的css选择器或者xpath

 仁者见仁智者见智

2.HTMLparser

 # 使用时需要定义一个从类HTMLParser继承的类，重定义函数：

 # handle_starttag( tag, attrs)

 #handle_startendtag( tag, attrs)

 # handle_endtag( tag)

 # 来实现自己需要的功能。

 # tag是的html标签，attrs是 (属性，值)元组(tuple)的列表(list)。

 # HTMLParser自动将tag和attrs都转为小写

 from html.parser import HTMLParser

 class MyHTMLParser(HTMLParser):

     def __init__(self):

         HTMLParser.__init__(self)

         self.links = []

     def handle_starttag(self, tag, attrs):

         #print "Encountered the beginning of a %s tag" % tag

         if tag == "a":

             if len(attrs) == 0:

                 pass

             else:

                 for (variable, value) in attrs:

                     if variable == "href":

                         self.links.append(value)   

 if __name__ == "__main__":

     html_code = """ <a href="www.google.com"> google.com</a> <A Href="www.pythonclub.org"> PythonClub </a> <A HREF = "www.sina.com.cn"> Sina </a> """

     hp = MyHTMLParser()

     hp.feed(html_code)

     hp.close()

     print(hp.links)

 # 运行结果

 # ['www.google.com', 'www.pythonclub.org', 'www.sina.com.cn']

3.总结

个人观点如果是做搜索引擎建议还是用scrapy框架

参照：https://www.cnblogs.com/mfryf/p/3691563.html

python HTMLparser的更多相关文章

Python抓取页面中超链接(URL)的三中方法比较(HTMLParser、pyquery、正则表达式) <转>
Python抓取页面中超链接(URL)的3中方法比较(HTMLParser.pyquery.正则表达式) HTMLParser版: #!/usr/bin/python # -*- coding: UT ...
python中HTMLParser简单理解
找一个网页,例如https://www.python.org/events/python-events/,用浏览器查看源码并复制,然后尝试解析一下HTML,输出Python官网发布的会议时间.名称和地 ...
python模块学习---HTMLParser(解析HTML文档元素)
HTMLParser是Python自带的模块,使用简单,能够很容易的实现HTML文件的分析. 本文主要简单讲一下HTMLParser的用法. 使用时需要定义一个从类HTMLParser继承的类,重定义 ...
python模块介绍- HTMLParser 简单的HTML和XHTML解析器
python模块介绍- HTMLParser 简单的HTML和XHTML解析器 2013-09-11 磁针石 #承接软件自动化实施与培训等gtalk:ouyangchongwu#gmail.comqq ...
python网络爬虫之LXML与HTMLParser
Python lxml包用于解析html和XML文件,个人觉得比beautifulsoup要更灵活些 Lxml中的路径表达式如下: 在下面的表格中,我们已列出了一些路径表达式以及表达式的结果: 路径表 ...
python之HTMLParser解析HTML文档
HTMLParser是Python自带的模块,使用简单,能够很容易的实现HTML文件的分析.本文主要简单讲一下HTMLParser的用法. 使用时需要定义一个从类HTMLParser继承的类,重定义函 ...
Python HTML解析模块HTMLParser(爬虫工具)
简介先简略介绍一下.实际上,HTMLParser是python用来解析HTML的内置模块.它可以分析出HTML里面的标签.数据等等,是一种处理HTML的简便途径.HTMLParser采用的是一种事件 ...
Python HTML操作（HTMLParser）
HTML操作是编程中很重要的一块,下面用Python3.x中的html.parser中的HTMLParser类来进行HTML的解析. HTMLParser类定义及常用方法标准库中的定义 class ...
使用Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies（二）（转）
对搜索引擎.文件索引.文档转换.数据检索.站点备份或迁移等应用程序来说,经常用到对网页(即HTML文件)的解析处理.事实上,通过 Python语言提供的各种模块,我们无需借助Web服务器或者Web浏览 ...

随机推荐

P3853 [TJOI2007]路标设置(二分答案）
-------------------------------- 二分答案的典型题 --------------------------------- 注意一下check和输出就行 --------- ...
剑指offer-面试题34-二叉树中和为某一值的路径-二叉树遍历
/* 题目: 输入一颗二叉树和一个整数,打印从根节点到叶子节点中所有和为该整数的路径. */ /* 思路: 先序遍历,深度遍历. 从树根开始,记录路径之和,遍历到叶子节点,如果和为期望值,则输出. 回 ...
JS DOM属性+JS事件
DOM属性 console.log(ele.attributes) 获取ele元素的属性集合 ele.attributes.getNamesItem(attr).nodeValue 获取指定属性值 e ...
Error: cannot fetch last explain plan from PLAN_TABLE
最近遇到了错误"Error: cannot fetch last explain plan from PLAN_TABLE",于是稍微研究了一下哪些场景下碰到这种错误,具体参考下面 ...
lvs基础
lvs类型 lvs-nat: 上下文为masquerade 多目标的DNAT(iptables): 它通过修改请求报文的目标IP地址(同时可能会修改目标端口)至挑选出某RS的RIP地址实现转发: 特性 ...
gulp常用插件之gulp-filter使用
更多gulp常用插件使用请访问:gulp常用插件汇总 gulp-filter这是一款可以把stream里的文件根据一定的规则进行筛选过滤. 更多使用文档请点击访问gulp-filter工具官网. 安装 ...
sql注入文件写入和读取
系统固定文件路径:https://blog.csdn.net/ncafei/article/details/54616826 /etc/passwd c:/windows/win.ini 文件读取使用 ...
安全 - 内容安全策略（CSP）（未完）
威胁跨站脚本攻击(Cross-site scripting) 跨站脚本攻击Cross-site scripting (XSS)是一种安全漏洞,攻击者可以利用这种漏洞在网站上注入恶意的客户端代码. 攻 ...
LeetCode 572. 另一个树的子树
题目链接:https://leetcode-cn.com/problems/subtree-of-another-tree/ 给定两个非空二叉树 s 和 t,检验 s 中是否包含和 t 具有相同结构和 ...
laravel中redis数据库的简单使用
1.简介性能极高 – Redis能读的速度是110000次/s,写的速度是81000次/s . 丰富的数据类型 – Redis支持二进制案例的 Strings, Lists, Hashes, Set ...

python HTMLparser

python HTMLparser的更多相关文章

随机推荐

热门专题