python模块之HTMLParser抓页面上的所有URL链接

# -*- coding: utf-8 -*-

#python 27

#xiaodeng

#python模块之HTMLParser抓页面上的所有URL链接

import urllib

#MyParser类写法一

'''

from HTMLParser import HTMLParser

class MyParser(HTMLParser):

    def __init__(self):

        HTMLParser.__init__(self)

    def handle_starttag(self, tag, attrs):

        if tag == 'a':

            for name,value in attrs:

                if name == 'href' and value.startswith('http'):

                    print value

'''

#MyParser类写法二

import HTMLParser

class MyParser(HTMLParser.HTMLParser):

    def handle_starttag(self, tag, attrs):
　　　　　#这里重新定义了处理开始标签的函数

        if tag == 'a':#判断标签<a>的属性

            for name,value in attrs:

                if name == 'href' and value.startswith('http'):#以什么字符串开头

                    print value

if __name__ == '__main__':

    url='http://www.cnblogs.com/'

    content=urllib.urlopen(url).read()

    my=MyParser()

    my.feed(content)

    my.close()

'''

http://www.cnblogs.com/Jaryleely/p/careertwo.html

http://www.cnblogs.com/Jaryleely/

http://www.cnblogs.com/Jaryleely/

http://www.cnblogs.com/Jaryleely/p/careertwo.html#commentform

http://www.cnblogs.com/Jaryleely/p/careertwo.html

http://www.cnblogs.com/AndroidJotting/p/4983688.html

http://www.cnblogs.com/AndroidJotting/

http://www.cnblogs.com/AndroidJotting/

http://www.cnblogs.com/AndroidJotting/p/4983688.html#commentform

http://www.cnblogs.com/AndroidJotting/p/4983688.html

http://www.cnblogs.com/fuly550871915/p/4983682.html

http://www.cnblogs.com/fuly550871915/

http://www.cnblogs.com/fuly550871915/

http://www.cnblogs.com/fuly550871915/p/4983682.html#commentform

http://www.cnblogs.com/fuly550871915/p/4983682.html

http://www.cnblogs.com/Ray-liang/p/4983592.html

http://www.cnblogs.com/Ray-liang/

http://www.cnblogs.com/Ray-liang/

http://www.cnblogs.com/Ray-liang/p/4983592.html#commentform

http://www.cnblogs.com/Ray-liang/p/4983592.html

.......

'''

python模块之HTMLParser抓页面上的所有URL链接的更多相关文章

python模块之HTMLParser(原理很大程度上就是对类构造的熟练运用)
# -*- coding: utf-8 -*- #python 27 #xiaodeng #python模块之HTMLParser(原理很大程度上就是对类构造的熟练运用) import HTMLPar ...
python模块介绍- HTMLParser 简单的HTML和XHTML解析器
python模块介绍- HTMLParser 简单的HTML和XHTML解析器 2013-09-11 磁针石 #承接软件自动化实施与培训等gtalk:ouyangchongwu#gmail.comqq ...
python模块之HTMLParser之穆雪峰的案例(理解其用法原理)
# -*- coding: utf-8 -*- #python 27 #xiaodeng #python模块之HTMLParser之穆雪峰的案例(理解其用法原理) #http://www.cnblog ...
python模块之HTMLParser解析出URL链接
# -*- coding: utf-8 -*- #python 27 #xiaodeng #python模块之HTMLParser解析出URL链接 #http://www.cnblogs.com/mf ...
python模块之HTMLParser
HTMLParser是python用来解析html的模块.它可以分析出html里面的标签.数据等等,是一种处理html的简便途径. HTMLParser采用的是一种事件驱动的模式,当HTMLParse ...
history.pushState 实现浏览器页面不刷新修改url链接
最近遇到了在不刷新页面的情况下修改浏览器url链接的需求,遂求助于万能的度娘,最终通过history.pushState()完美解决问题.现在将我理解的一些内容分享一下,不对的地方欢迎大家指出. 在使 ...
python模块学习---HTMLParser(解析HTML文档元素)
HTMLParser是Python自带的模块,使用简单,能够很容易的实现HTML文件的分析. 本文主要简单讲一下HTMLParser的用法. 使用时需要定义一个从类HTMLParser继承的类,重定义 ...
python模块之HTMLParser简介
html.parser是一个非常简单和实用的库,它的核心是HTMLParser类. 工作的流程是:当你feed给它一个类似HTML格式的字符串时,它会调用goahead方法向前迭代各个标签,并调用对应 ...
python爬虫初级--获取指定页面上的菜单名称以及链接，然后导出
''' Created on 2017年4月5日 @author: Admin ''' import requests from bs4 import BeautifulSoup as bsp # 网 ...

随机推荐

jQuery的deferred对象详解 jquery回调函数
http://www.ruanyifeng.com/blog/2011/08/a_detailed_explanation_of_jquery_deferred_object.html jQuery的 ...
python将控制台输出保存至文件
很多时候在Linux系统下运行python程序时,控制台会输出一些有用的信息.为了方便保存这些信息,有时需要对这些信息进行保存.这里介绍几种将控制台输出保存到文件中的方式:1 重定向标准输出流重定向标 ...
怎样用纯HTML和CSS更改默认的上传文件按钮样式
如果你曾经试过,你就会知道,用纯CSS样式加HTML实现统一的上传文件按钮可能会很麻烦.看看下面的不同浏览器的截图.很明显的,他们长得很不一样. 我们的目标是创造一个简洁,用纯CSS实现的,在所有浏览 ...
一次Spark应用程序参数优化案例
并行度对于*ByKey等需要shuffle而生成的RDD,其Partition数量依如下顺序确定:1. 方法的第二个参数 > 2. spark.default.parallelism参数 &g ...
tensorflow基本操作介绍
1.tensorflow的基本运作为了快速的熟悉TensorFlow编程,下面从一段简单的代码开始: import tensorflow as tf #定义‘符号’变量,也称为占位符 a = tf. ...
xgboost入门与实战
xgboost入门与实战(实战调参篇) https://blog.csdn.net/sb19931201/article/details/52577592 前言前面几篇博文都在学习原理知识,是时候上 ...
Tensorflow Serving 模型部署和服务
http://blog.csdn.net/wangjian1204/article/details/68928656 本文转载自:https://zhuanlan.zhihu.com/p/233614 ...
CRF++地名实体识别（特征为词性和词）
http://x-algo.cn/index.php/2016/02/29/crf-name-entity-recognition/ 类似使用CRF实现分词和词性标注,地域识别也是需要生成相应的tag ...
List 集合的交集
private void Test() { List<string> lsA = new List<string>(); lsA.Add("A"); lsA ...
c#：对两个字符串大小比较（不使用c#/java内部的比较函数）,按升序排序
题目:首先需要实现一个函数:两个字符串大小比较(不得使用c#/java系统函数)的自定义函数:之后对一个字符串数据进行按升序排序(在排序过程中使用字符串大小比较时,使用自定义的字符串大小比较函数). ...

python模块之HTMLParser抓页面上的所有URL链接

python模块之HTMLParser抓页面上的所有URL链接的更多相关文章

随机推荐

热门专题