Python3爬虫之爬取某一路径的所有html文件

要离线下载易百教程网站中的所有关于Python的教程，需要将Python教程的首页作为种子url：http://www.yiibai.com/python/，然后按照广度优先（广度优先，使用队列；深度优先，使用栈），依次爬取每一篇关于Python的文章。为了防止同一个链接重复爬取，使用集合来限制同一个链接只处理一次。
使用正则表达式提取网页源码里边的文章标题和文章url，获取到了文章的url，使用Python根据url生成html文件十分容易。






import re





import urllib.request





import urllib





from collections import deque





# 保存文件的后缀





SUFFIX='.html'





# 提取文章标题的正则表达式





REX_TITLE=r'<title>(.*?)</title>'





# 提取所需链接的正则表达式





REX_URL=r'/python/(.+?).html'





# 种子url，从这个url开始爬取





BASE_URL='http://www.yiibai.com/python/'





 





 





# 将获取到的文本保存为html文件





def saveHtml(file_name,file_content):





#    注意windows文件命名的禁用符，比如 /





    with open (file_name.replace('/','_')+SUFFIX,"wb") as f:





#   写文件用bytes而不是str，所以要转码





        f.write(bytes(file_content, encoding = "utf8"))





#   获取文章标题





def getTitle(file_content):





    linkre = re.search(REX_TITLE,file_content)





    if(linkre):





        print('获取文章标题：'+linkre.group(1))





        return linkre.group(1)





 





#   爬虫用到的两个数据结构，队列和集合





queue = deque()





visited = set()





#   初始化种子链接 





queue.append(BASE_URL)





count = 0





 





while queue:





  url = queue.popleft()  # 队首元素出队





  visited |= {url}  # 标记为已访问





 





  print('已经抓取: ' + str(count) + '   正在抓取 <---  ' + url)





  count += 1





  urlop = urllib.request.urlopen(url)





  # 只处理html链接





  if 'html' not in urlop.getheader('Content-Type'):





    continue





 





  # 避免程序异常中止





  try:





    data = urlop.read().decode('utf-8')





    title=getTitle(data);





    # 保存文件





    saveHtml(title,data)





  except:





    continue





 





  # 正则表达式提取页面中所有链接, 并判断是否已经访问过, 然后加入待爬队列





  linkre = re.compile(REX_URL)





  for sub_link in linkre.findall(data):





      sub_url=BASE_URL+sub_link+SUFFIX;





# 已经访问过，不再处理





      if sub_url in visited:





          pass





      else:





          # 设置已访问





          visited |= {sub_url}





          # 加入队列





          queue.append(sub_url)





          print('加入队列 --->  ' + sub_url)

Python3爬虫之爬取某一路径的所有html文件的更多相关文章

【Python3爬虫】爬取美女图新姿势--Redis分布式爬虫初体验
一.写在前面之前写的爬虫都是单机爬虫,还没有尝试过分布式爬虫,这次就是一个分布式爬虫的初体验.所谓分布式爬虫,就是要用多台电脑同时爬取数据,相比于单机爬虫,分布式爬虫的爬取速度更快,也能更好地应对I ...
python3 爬虫之爬取安居客二手房资讯(第一版)
#!/usr/bin/env python3 # -*- coding: utf-8 -*- # Author;Tsukasa import requests from bs4 import Beau ...
python3爬虫应用--爬取网易云音乐（两种办法）
一.需求好久没有碰爬虫了,竟不知道从何入手.偶然看到一篇知乎的评论(https://www.zhihu.com/question/20799742/answer/99491808),一时兴起就也照葫 ...
使用htmlparse爬虫技术爬取电影网页的全部下载链接
昨天,我们利用webcollector爬虫技术爬取了网易云音乐17万多首歌曲,而且还包括付费的在内,如果时间允许的话,可以获取更多的音乐下来,当然,也有小伙伴留言说这样会降低国人的知识产权保护意识,诚 ...
[Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)
转载自:http://blog.csdn.net/eastmount/article/details/51231852 一. 文章介绍源码下载地址:http://download.csdn.net/ ...
from appium import webdriver 使用python爬虫,批量爬取抖音app视频（requests+Fiddler+appium）
使用python爬虫,批量爬取抖音app视频(requests+Fiddler+appium) - 北平吴彦祖 - 博客园 https://www.cnblogs.com/stevenshushu/p ...
使用htmlparser爬虫技术爬取电影网页的全部下载链接
昨天,我们利用webcollector爬虫技术爬取了网易云音乐17万多首歌曲,而且还包括付费的在内,如果时间允许的话,可以获取更多的音乐下来,当然,也有小伙伴留言说这样会降低国人的知识产权保护意识,诚 ...
【Python】【爬虫】爬取酷狗TOP500
好啦好啦,那我们来拉开我们的爬虫之旅吧~~~ 这一只小爬虫是爬取酷狗TOP500的,使用的爬取手法简单粗暴,目的是帮大家初步窥探爬虫长啥样,后期会慢慢变得健壮起来的. 环境配置在此之前需要下载一个谷 ...
Python爬虫之爬取站内所有图片
title date tags layut Python爬虫之爬取站内所有图片 2018-10-07 Python post 目标是 http://www.5442.com/meinv/ 如需在非li ...

随机推荐

python批量下载色影无忌和蜂鸟的图片爬虫小应用
有些冗余信息.由于之前測试正則表達式.所以没有把它们给移走.只是不影响使用. # -*- coding:utf-8 -*- import re,urllib,sys,os,time def getAl ...
Mono源码学习笔记:Console类(四)
NullStream 类 (internal class) 以下就是 mcs/class/corlib/System.IO/NullStream.cs: 01: namespace System.IO ...
用LogParser分析Windows日志
用LogParser分析Windows日志实战案例分享假设你已具有上面的基础知识,那么以下为你准备了更加深入的应用操作视频(从安装到使用的全程记录): http://www.tudou.com/p ...
angularjs 标签指令
<!DOCTYPE HTML> <html ng-app="myApp"> <head> <meta http-equiv="C ...
Cms WebSite 编译非常慢
第一次编译非常慢如果遇到错误,中途中断的话. 下一次编译的时候,上一次已经编译过的文件,会非常快的略过.很快就会到上一次遇到错误的地方,继续往下进行编译.
spring cloud集成 consul源码分析
1.简介 1.1 Consul is a tool for service discovery and configuration. Consul is distributed, highly ava ...
spring的quartz定时任务
一.版本: 1.spring:4.1.7: 2.quartz:2.2.1: 二.基于ssm项目: 1.引入jar包:quartz-2.2.1.jar:spring所需包. 2.说明:quartz ...
003.ES2015和ES2016新特性--类.md
JavaScript使用的是基于原型的OO模型,用对象字面量或者函数来实例化对象,用原型链来实现继承. 这样对于数据传统C++.Java的OO范式的开发者来说,会感到比较困惑,于是从ES2015开始逐 ...
[洛谷P3929]SAC E#1 - 一道神题 Sequence1
题目大意:给你一串数列,问你能否改变1个数或不改,使它变成波动数列? 一个长度为n的波动数列满足对于任何i(1 <= i < n),均有: a[2i-1] <= a[2i] 且 a[ ...
xargs---组合命令的工具
xargs命令是给其他命令传递参数的一个过滤器,也是组合多个命令的一个工具.它擅长将标准输入数据转换成命令行参数,xargs能够处理管道或者stdin并将其转换成特定命令的命令参数.xargs也可以将 ...

Python3爬虫之爬取某一路径的所有html文件

Python3爬虫之爬取某一路径的所有html文件的更多相关文章

随机推荐

热门专题