1. import urllib, urllib2, cookielib
  2. from HTMLParser import HTMLParser
  3. import sys
  4.  
  5. reload(sys)
  6. sys.setdefaultencoding('utf8')
  7.  
  8. class WebParser(HTMLParser):
  9. def __init__(self, links, path):
  10. HTMLParser.__init__(self)
  11. self.links = links
  12. self.path = path
  13.  
  14. def handle_starttag(self, tag, attrs):
  15. if tag == 'a':
  16. if len(attrs) == 0:
  17. pass
  18. else:
  19. for (key, val) in attrs:
  20. if key == 'href':
  21. if val.startswith('http'):
  22. self.links.add(val)
  23. elif val.startswith('/'):
  24. self.links.add(self.path + val)
  25.  
  26. class Crawl:
  27. def __init__(self):
  28. self.path = 'http://www.baidu.com'
  29. self.cookie = cookielib.CookieJar()
  30. handler = urllib2.HTTPCookieProcessor(self.cookie)
  31. self.opener = urllib2.build_opener(handler)
  32.  
  33. def open(self, path):
  34. self.response = self.opener.open(path)
  35.  
  36. def showCookie(self):
  37. for item in self.cookie:
  38. print 'Name = ' + item.name
  39. print 'value = ' + item.value
  40.  
  41. def showResponse(self):
  42. print self.response.read()
  43.  
  44. def getAllUrl(self, links, path):
  45. try:
  46. self.open(path)
  47. res = self.response.read()
  48. parser = WebParser(links, path)
  49. parser.feed(res)
  50. parser.close()
  51. except Exception, e:
  52. print e
  53.  
  54. def crawl(self):
  55. src_links = set()
  56. result_links = set()
  57. self.getAllUrl(src_links, self.path)
  58. n = 200
  59. while len(src_links) != 0 and n > 0:
  60. link = src_links.pop()
  61. if link in result_links:
  62. pass
  63. result_links.add(link)
  64. self.getAllUrl(src_links, link)
  65. n -= 1
  66. print n
  67.  
  68. return result_links | src_links
  69.  
  70. c = Crawl()
  71. rlt = c.crawl()
  72. for link in rlt:
  73. print link

提取网址的python练习的更多相关文章

  1. (学习网址)Python 自动化测试

    1.Python自动化测试地址 http://www.wtoutiao.com/author/python-selenium.html 2.unittest参考网址: 1)python自动化测试报告H ...

  2. 正则提取关键字符-python代码实现

    原文地址:http://www.bugingcode.com/blog/python_re_extraction_key.html 关于python的正则使用在以前的文章中 http://www.bu ...

  3. 基于 RTF specification v1.7 的 RTF 文件解析及 OLE 对象提取(使用 Python 开发)

    0x01 Office RTF 文件介绍 RTF 文件也称富文本格式(Rich Text Format, 一般简称为 RTF),意为多文本格式是由微软公司开发的跨平台文档格式.大多数的文字处理软件都能 ...

  4. [Python]爬取首都之窗百姓信件网址id python 2020.2.13

    经人提醒忘记发网址id的爬取过程了, http://www.beijing.gov.cn/hudong/hdjl/com.web.consult.consultDetail.flow?original ...

  5. javascript在字符串中提取网址并替换成超链接

    var str = " http://wasmip.baidu.com.cn/mip/km/archives/km_archives_main/kmArchivesMain.do?metho ...

  6. Python使用xslt提取网页数据

    1,引言 在Python网络爬虫内容提取器一文我们详细讲解了核心部件:可插拔的内容提取器类gsExtractor.本文记录了确定gsExtractor的技术路线过程中所做的编程实验.这是第一部分,实验 ...

  7. asp.net正则表达式提取网页网址、标题、图片实例以及过滤所有HTML标签实例

    无论你用什么语言,正则表达式的处理方法都是非常灵活.高效的,尤其是对某些字符串的抓取.过滤方面,更显其优势. 正则表达式的写法通常比较简单,几行短代码便能轻松完成看似很复杂的事情,更值得称赞的是,它的 ...

  8. Python基于共现提取《釜山行》人物关系

    Python基于共现提取<釜山行>人物关系 一.课程介绍 1. 内容简介 <釜山行>是一部丧尸灾难片,其人物少.关系简单,非常适合我们学习文本处理.这个项目将介绍共现在关系中的 ...

  9. 【Python】批量查询-提取站长之家IP批量查询的结果v1.0

    0 前言 写报告的时候为了细致性,要把IP地址对应的地区给整理出来.500多条IP地址找出对应地区复制粘贴到报告里整了一个上午. 为了下次更好的完成这项重复性很高的工作,所以写了这个小的脚本. 1 使 ...

随机推荐

  1. --1.plsql中学习job

    --1.plsql中学习job --学习job --建表 create table test_job(para_date date); commit; insert into test_job val ...

  2. 用户测评 | EDAS Serverless 上手体验

    背景 最初, 是因为对 Serverless 这一概念感兴趣, 所以开始试用阿里云函数计算,使用过程中感受到了函数计算快速.按需付费和弹性伸缩等方面的优势,随后我在天气预报.发送短信等场景下开始了更深 ...

  3. jnhs中国省市县区mysql数据表不带gps坐标

    1.查省 SELECT * FROM china WHERE china.Pid=0 2.查市 SELECT * FROM chinaWHERE china.Pid=330000 3.查区 SELEC ...

  4. jnhs 无法提交断点LineBreakpoint hibernate4CURD : -1, 原因是: 找不到 URL 'file:/E:/版本控制/Design-java/hibernate4CURD/' 的源根目录。请验证项目源的设置。

    无法提交断点LineBreakpoint hibernate4CURD : -1, 原因是: 找不到 URL 'file:/E:/版本控制/Design-java/hibernate4CURD/' 的 ...

  5. springmvc报404错误No mapping found for HTTP request with URI [/mavenSpringmvc/requesttest] in DispatcherServlet with name 'spring'

    问题404错误的原因有很多种 有这种,后边不带url的 这种一般就是没有进入到controller中 可以在toncat中看到信息 十一月 12, 2018 12:21:25 下午 org.sprin ...

  6. 利用javafx编写一个时钟制作程序

    1.首先创建一个时钟类,用于编写时钟的各种特有属性 package javaclock; /** * * @author admin */import java.util.Calendar;impor ...

  7. python 全局种子与局部种子

  8. 洛谷P2835 刻录光盘 [2017年6月计划 强连通分量02]

    P2835 刻录光盘 题目描述 在JSOI2005夏令营快要结束的时候,很多营员提出来要把整个夏令营期间的资料刻录成一张光盘给大家,以便大家回去后继续学习.组委会觉得这个主意不错!可是组委会一时没有足 ...

  9. JS中document对象和window对象的区别

    简单来说,document是window的一个对象属性. Window 对象表示浏览器中打开的窗口. 如果文档包含框架(frame 或 iframe 标签),浏览器会为 HTML 文档创建一个 win ...

  10. webpack学习之—— Loaders

    loader 用于对模块的源代码进行转换.loader 可以使你在 import 或"加载"模块时预处理文件.因此,loader 类似于其他构建工具中“任务(task)”,并提供了 ...