Python实现采集wordpress整站数据的爬虫

最近爱上了python，就非常喜欢使用python来练手，在上次的基础上完善一下代码，实现采集wordpress程序的网站的整站数据的爬虫程序，本站也是采用的wordpress，我就拿吾八哥网(http://www.5bug.wang/)来练手了！简单分析下这个爬虫的思路，从首页开始，抓取href标签，到子页面后还是要继续找href标签，那么很容易想到要用到递归了，直接贴代码吧！写了点简单的注释，如下：

import re

import bs4

import urllib.request

url_home = 'http://www.5bug.wang/'  #要采集的网站

url_pattern = url_home + '([\s\S]*)\.html' #正则表达式匹配文章页面，此处需完善为更好的写法

url_set = set()

url_cache = set()

url_count = 0

url_maxCount = 1000  #最大采集数量

#采集匹配文章内容的href标签

def spiderURL(url, pattern):

    html = urllib.request.urlopen(url).read().decode('utf8')

    soup = bs4.BeautifulSoup(html, 'html.parser')

    links = soup.find_all('a', href = re.compile(pattern))

    for link in links:

        if link['href'] not in url_cache:

            url_set.add(link['href'])

    return soup

#采集的过程  异常处理还需要完善，对于一些加了防采集的站，还需要处理header的，下次我们再学习

spiderURL(url_home, url_pattern)

while len(url_set) != 0:

    try:

        url = url_set.pop()

        url_cache.add(url)

        soup = spiderURL(url, url_pattern)

        page = soup.find('div', {'class':'content'})

        title = page.find('h1').get_text()

        autor = page.find('h4').get_text()

        content = page.find('article').get_text()

        print(title, autor, url)

    except Exception as e:

        print(url, e)

        continue

    else:

        url_count += 1

    finally:

        if url_count == url_maxCount:

            break

print('一共采集了： ' + str(url_count) + ' 条数据')

Python实现采集wordpress整站数据的爬虫的更多相关文章

quotes 整站数据爬取存mongo
安装完成scrapy后爬取部分信息已经不能满足躁动的心了,那么试试http://quotes.toscrape.com/整站数据爬取第一部分项目创建 1.进入到存储项目的文件夹,执行指令 scra ...
wordpress整站无损搬迁的几种方法最后一种最完美
网站建设之wordpress整站无损搬迁的几种方法最后一种最完美网站搬家,当我们更换php虚拟主机,空间升级或更好空间提供商都会发生,站长们请注意,掌握网站迁移方法,是网站日常维护技术中必须掌握的 ...
WordPress整站轻松开启HTTPS
近两年来HTTPS取代HTTP已经成为大势所趋.早在2014年google Chromium安全团队提议将所有的HTTP协议网站标注为不安全.现在,Chrome浏览器已经开始执行这一标准了.从 Chr ...
Python scrapy------分类获取美团整站数据
欢迎联系讨论:qq:1170370113 以下是我们获取美团页面的城市信息获取到了城市信息以后我们可以进行分类保存,以便于后续能够分类获取数据获取我们需要城市的景区的所有相关id并且进行保存最后 ...
【Python数据分析案例】python数据分析老番茄B站数据（pandas常用基础数据分析代码）
一.爬取老番茄B站数据前几天开发了一个python爬虫脚本,成功爬取了B站李子柒的视频数据,共142个视频,17个字段,含: 视频标题,视频地址,视频上传时间,视频时长,是否合作视频,视频分区,弹幕 ...
[Python] 通过采集两万条数据，对《无名之辈》影评分析
一.说明本文主要讲述采集猫眼电影用户评论进行分析,相关爬虫采集程序可以爬取多个电影评论. 运行环境:Win10/Python3.5. 分析工具:jieba.wordcloud.pyecharts.m ...
wordpress整站搬家总结
去年图便宜,也没准备认真写博文,所以花了几百元钱买了个国内空间(域名已经备案).购买了以后,放了一个wordpress博客,没事的时候写写博文,但从没有抽出时间去写,文章的质量也不追求.一开始还可以, ...
Scrapy：腾讯招聘整站数据爬取
项目地址:https://hr.tencent.com/ 步骤一.分析网站结构和待爬取内容以下省略一万字步骤二.上代码(不能略了) 1.配置items.py import scrapy class ...
[Python] 通过采集23万条数据，对《哪吒》影评分析
一.说明数据来源:猫眼: 运行环境:Win10/Python3.7 和 Win7/Python3.5: 分析工具:jieba.WorldCloud.pyecharts和matplotlib: 程序基 ...

随机推荐

201521123013 《Java程序设计》第8周学习总结
1. 本章学习总结 2. 书面作业 Q1.List中指定元素的删除(题目4-1) 1.1 实验总结 while(list.contains(str)) list.remove(str); Q2.统计文 ...
201521123001《Java程序设计》第7周学习总结
1. 本周学习总结以你喜欢的方式(思维导图或其他)归纳总结集合相关内容. 参考资料: XMind 答: 大多数情况下,从性能上来说ArrayList最好,但是当集合内的元素需要频繁插入.删除时Lin ...
201521123065《java程序设计》第10周学习总结
1. 本周学习总结 1.1 以你喜欢的方式(思维导图或其他)归纳总结异常与多线程相关内容. 2. 书面作业本次PTA作业题集异常.多线程 finally 题目4-2 1.1 截图你的提交结果(出现学 ...
201521123099 《Java程序设计》第11周学习总结
1. 本周学习总结 1.1 以你喜欢的方式(思维导图或其他)归纳总结多线程相关内容. 2. 书面作业本次PTA作业题集多线程互斥访问与同步访问完成题集4-4(互斥访问)与4-5(同步访问) 1. ...
解决liblzo2.so缺失
系统:CentOS5.8 提示错误: error while loading shared libraries: liblzo2.so.2: cannot open shared object fil ...
Eclipse rap 富客户端开发总结(6) ：如何发布rap到tomcat
1.先下载以来的打包插件 war products 输入下面的地址,选择相应的插件新建一个 war product Configutation向导下面的war product Configut ...
Mybatis第一篇【介绍、快速入门、工作流程】
什么是MyBatis MyBatis 本是apache的一个开源项目iBatis, 2010年这个项目由apache software foundation 迁移到了google code,并且改名为 ...
Oracle-SQL-按月统计自助终端交易量
SQL实现的目标: 基本情况现金交易情况转账情况转账交易情况(明细) 其它业务情况交易量汇总日均交易量交易金额绩效情况(万元) 支行名支行号所属网点网点号管理员帐户管理员终端 ...
非position:fixed，footer自動調到屏幕底部
一.980px手機端寫法: $(function(){ var sh=$('section').height(); var ww=$(window).width(); ...
Docker入门之二镜像
Docker大部分的操作都是围绕三大核心概念:镜像.容器.仓库.学Docker首先得了解这几个词.这几个词可能平时也会有涉及,但Docker中可能不是同样得概念. 一.三大核心概念镜像:可能在安装软 ...

Python实现采集wordpress整站数据的爬虫

Python实现采集wordpress整站数据的爬虫的更多相关文章

随机推荐

热门专题