搭建环境:

win10,Python3.6,pycharm,未设虚拟环境

之前写的爬虫并没有架构的思想,且不具备面向对象的特征,现在写一个基础爬虫架构,爬取百度百科,首先介绍一下基础爬虫框架的五大模块功能,包括爬虫调度器,URL管理器,HTML下载器,HTML解析器,数据存储器,功能分析如下:

  >>爬虫调度器主要负责统筹其他四个模块的协调工作

  >>URL管理器负责管理URL链接,维护已经爬取的URL集合和未爬取的URL集合,提供获取新URL链接的接口

  >>HTML下载器用于从URL管理器中获取未爬取的URL链接并下载HTML网页

  >>HTML解析器用于从HTML下载器中获取已经下载的HTML网页,并从中解析出新的URL链接交给URL管理器,解析出有效数据交给数据存储器

  >>数据存储器用于将HTML解析器解析出来的数据通过文件或者数据库的形式存储起来

URL管理器:

URL管理器主要包括两个变量,一个是已爬取的URL集合,另一个是未爬取的URL集合;链接去重很重要,因为爬取链接重复时容易造成死循环,防止链接重复方法主要有三种,一是内存去重,二是关系数据库去重,三是缓存数据库去重;大型成熟的爬虫基本上采用缓存数据库的去重方案,尽可能避免内存大小的限制,又比关系型数据库去重性能高得多(每爬一个链接之前都要在数据库中查询一遍);由于基础爬虫的爬取数量较小,因此我们使用Python中set这个内存去重方式

在pycharm中新建一个python项目,然后新建一个URLManager.py文件,敲入以下代码:

class UrlManager(object):
def __init__(self):
self.new_urls = set()#未爬取URL集合
self.old_urls = set()#已爬取URL集合 def has_new_url(self):
'''
判断是否有未爬取的url
:return
'''
return self.new_url_size()!= 0 def get_new_url(self):
'''
获取一个未爬取的url
:return:
'''
new_url = self.new_urls.pop()
self.old_urls.add(new_url)
return new_url def add_new_url(self,url):
'''
将新的url添加到未爬取的URL集合中
:return:
'''
if url is None:
return
if url not in self.new_urls and url not in self.old_urls:
self.new_urls.add(url) def add_new_urls(self,urls):
'''
将新的URL添加到未爬取的URL集合中
'''
if urls is None or len(urls)==0:
return
for url in urls:
self.add_new_url(url) def new_url_size(self):
'''
获取未爬取URL集合的大小
'''
return len(self.new_urls) def old_url_size(self):
'''
获取已经爬取URL集合的大小
'''
return len(self.old_urls)

HTML下载器

HTML下载器用来下载网页,这时候需要注意网页的编码,以保证下载的网页没有乱码,同样新建一个HtmlDownloader.py

import requests

class HtmlDownloader(object):

    def download(self,url):
if url is None:
return None
user_agent = 'Your user_agent'
headers = {'User-Agent': user_agent}
r = requests.get(url,headers=headers)
if r.status_code==200:
r.encoding='utf-8'
return r.text
return None

HTML解析器

在这里HTML解析器使用BeautifulSoup来解析网页源码,其他解析方式还有CSS选择器,xpath,pyquery(大杀器),正则等等,我们需要提取正文标题,摘要以及网页中存在的URL链接,

同样新建一个HtmlParser.py文件

看下网页源码:

定位到了标题位置,div > h1

所以可以这么写:

title = soup.find('dd',class_='lemmaWgt-lemmaTitle-title').find('h1').get_text()

再看摘要位置:

所以可以这么写:

summary = soup.find('div',class_='lemma-summary').get_text().strip()

再看网页中的URL链接:

大多数是这种格式:<a target="_blank" href="/item/%E4%B8%87%E7%BB%B4%E7%BD%91">万维网</a>,以及其他格式,因此写一个如下的提取(其实并不能提取以91结尾的URL,正则太久没写忘记了。。):

links = soup.find_all('a',href=re.compile(r'/item/[\w\W]*?91'))

具体代码:

import re
import urllib
from bs4 import BeautifulSoup
import requests class HtmlParser(object): def parser(self,page_url,html_cont):
'''
用于解析网页内容,抽取URL和数据
'''
if page_url is None or html_cont is None:
return
soup = BeautifulSoup(html_cont,'html5lib')
new_urls = self._get_new_urls(page_url,soup)
new_data = self._get_new_data(page_url,soup)
return new_urls,new_data def _get_new_urls(self,page_url,soup):
'''
抽取新的URL集合
'''
new_urls = set()
links = soup.find_all('a',href=re.compile(r'/item/[\w\W]*?91'))
for link in links:
new_url = link['href']
new_full_url= urllib.parse.urljoin(page_url,new_url)
new_urls.add(new_full_url)
return new_urls def _get_new_data(self,page_url,soup):
'''
抽取有效数据
'''
data = {}
data['url'] =page_url
title = soup.find('dd',class_='lemmaWgt-lemmaTitle-title').find('h1')
data['title'] = title.get_text()
summary = soup.find('div',class_='lemma-summary')
data['summary']=summary.get_text().strip() return data
'''
以下代码是我用来单独测试这个模块的
def download(self,page_url):
if page_url is None:
return None
user_agent = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'
headers = {'User-Agent': user_agent}
r = requests.get(page_url,headers=headers)
if r.status_code==200:
r.encoding='utf-8'
return r.text
return None parser = HtmlParser()
page_url = 'https://baike.baidu.com/item/%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB/5162711'
html_cont = parser.download(page_url)
new_urls,new_data = parser.parser(page_url,html_cont)
print(new_urls,new_data)
'''

数据存储器

包括两个方法,store_data用来将HTML解析模块解析出来的数据存储到内存中(list),out_html用来将存储的数据输出为HTML格式(利于展示),同样新建一个DataOutput.py文件

代码如下:

import codecs

class DataOutput(object):

    def __init__(self):
self.datas = []
def store_data(self,data):
if data is None:
return
self.datas.append(data) def output_html(self):
fout = codecs.open('baike.html','w',encoding='utf-8')
fout.write("<html>")
fout.write("<body>")
fout.write("<table>")
for data in self.datas:
fout.write("<tr>")
fout.write("<td>%s</td>"%data['url'])
fout.write("<td>%s</td>"%data['title'])
fout.write("<td>%s</td>"%data['summary'])
fout.write("</tr>")
self.datas.remove(data)
fout.write("</table>")
fout.write("</body>")
fout.write("</html>")
fout.close()

爬虫调度器

爬虫调度器要做的工作就是初始化各个模块,然后通过一个方法传入入口URL,按照流程运行各个模块,同样新建一个SpiderMan.py文件

代码如下:

from DataOutput import DataOutput
from HtmlDownloader import HtmlDownloader
from HtmlParser import HtmlParser
from UrlManager import UrlManager class SpiderMan(object):
def __init__(self):
self.manager = UrlManager()
self.downloader = HtmlDownloader()
self.parser = HtmlParser()
self.output = DataOutput() def crawl(self,root_url):
#添加入口url
self.manager.add_new_url(root_url)
#判断url管理器中是否有新的url,同时判断抓取了多少个url
while(self.manager.has_new_url() and self.manager.old_url_size() < 100):
try:
#从URL管理器获取新的url
new_url = self.manager.get_new_url()
#HTML下载器下载网页
html = self.downloader.download(new_url)
#print(html)
# #HTML解析器抽取网页数据
new_urls,data = self.parser.parser(new_url,html)
#print(new_urls,data)
# #将抽取的url添加到URL管理器中
self.manager.add_new_urls(new_urls)
# #数据存储器存储文件
self.output.store_data(data)
print("已经抓取%s个链接"%self.manager.old_url_size())
except Exception as e:
print("crawl failed")
self.output.output_html() if __name__ == "__main__":
spider_man = SpiderMan()
spider_man.crawl("https://baike.baidu.com/item/%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB/5162711")

最后输出的HTML文件如下:

并不是很利于展示。。。再接再厉

Python基础爬虫的更多相关文章

  1. Python基础+爬虫基础

    Python基础+爬虫基础 一.python的安装: 1.建议安装Anaconda,会自己安装一些Python的类库以及自动的配置环境变量,比较方便. 二.基础介绍 1.什么是命名空间:x=1,1存在 ...

  2. 零python基础--爬虫实践总结

    网络爬虫,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本. 爬虫主要应对的问题:1.http请求 2.解析html源码 3.应对反爬机制. 觉得爬虫挺有意思的,恰好看到知乎有人分享的一个爬虫 ...

  3. Python 基础爬虫架构

    基础爬虫框架主要包括五大模块,分别为爬虫调度器.url管理器.HTML下载器.HTML解析器.数据存储器. 1:爬虫调度器主要负责统筹其他四个模块的协调工作 2: URL管理器负责管理URL连接,维护 ...

  4. Python基础——爬虫以及简单的数据分析

    目标:使用Python编写爬虫,获取链家青岛站的房产信息,然后对爬取的房产信息进行分析. 环境:win10+python3.8+pycharm Python库: import requests imp ...

  5. python基础爬虫,翻译爬虫,小说爬虫

    基础爬虫: # -*- coding: utf-8 -*- import requests url = 'https://www.baidu.com' # 注释1 headers = { # 注释2 ...

  6. python 基础-爬虫-数据处理,全部方法

    生成时间戳 1. time.time() 输出 1515137389.69163 ===================== 生成格式化的时间字符串 1. time.ctime() 输出 Fri Ja ...

  7. python基础-爬虫

    爬虫引入 爬虫: 1 百度:搜索引擎 爬虫:spider   种子网站开始爬,下载网页,分析链接,作为待抓取的网页 分词 index:词--->某个结果 Page rank(1 网站很大(互链) ...

  8. python爬虫主要就是五个模块:爬虫启动入口模块,URL管理器存放已经爬虫的URL和待爬虫URL列表,html下载器,html解析器,html输出器 同时可以掌握到urllib2的使用、bs4(BeautifulSoup)页面解析器、re正则表达式、urlparse、python基础知识回顾(set集合操作)等相关内容。

    本次python爬虫百步百科,里面详细分析了爬虫的步骤,对每一步代码都有详细的注释说明,可通过本案例掌握python爬虫的特点: 1.爬虫调度入口(crawler_main.py) # coding: ...

  9. python 爬虫与数据可视化--python基础知识

    摘要:偶然机会接触到python语音,感觉语法简单.功能强大,刚好朋友分享了一个网课<python 爬虫与数据可视化>,于是在工作与闲暇时间学习起来,并做如下课程笔记整理,整体大概分为4个 ...

随机推荐

  1. ckeditor 上传图片解决跨域问题

    前后端分离ckeditor跨域问题处理 这个跨域问题很常见,特别是前后端分离的情况,IP地址不同导致了页面跨域,具体原因大多是因为前端ifame问题 分析 ckeditor插件里config.js需要 ...

  2. Redis深入之对象

    Redis对象系统 前面介绍了Redis用到的全部主要数据结构,如简单动态字符串(SDS).双端链表.字典.压缩列表.整数集合等 Redis并没有直接使用这些数据结构来实现键值对数据库.而是基于这些数 ...

  3. 添加JavaDoc

    使用javadoc比较容易生成文档,命令如下: javadoc -d doc -sourcepath src/main/java/ -subpackages com -encoding UTF-8 - ...

  4. 如何永久删除git仓库中敏感文件的提交记录

    如何永久删除git仓库中敏感文件的提交记录 参考: 1. https://help.github.com/articles/remove-sensitive-data/

  5. SNF快速开发平台--规则引擎在程序当中如何调用

    规则定义完如何在程序当中进行使用呢? 其时很简单,只需要如下代码就可以调用程序: 规则定义: 调用代码: #region 演示2:生成左表数据(规则) POST: /api/DEMO/DemoSing ...

  6. JsonCpp 的使用

    JSON全称为JavaScript ObjectNotation,它是一种轻量级的数据交换格式,易于阅读.编写.解析.jsoncpp是c++解析JSON串常用的解析库之一. jsoncpp中主要的类: ...

  7. golang:mime.Decode、mime.DecodeHeader

    最近在做邮件解析的相关工作,在使用mime.Decode/mime.DecodeHeader时有些疑问. 有些搞不懂mime.Encode和mime.EncodeHeader的区别.

  8. Linux x64系统上安装 oracle 11g R2 x64

    1.首先到官网上下载oracle 11g x64位软件包 下载地址: http://download.oracle.com/otn/linux/oracle11g/R2/linux.x64_11gR2 ...

  9. 【emWin】例程二十二:窗口对象——Framewin

    简介: 框架窗口为您的应用提供一个PC 应用程序的窗口外观.这些窗口由周围框架.标题栏和用户区组成. 触摸校准(上电可选择是否进入校准界面) 截图 实验指导书及代码包下载: 链接:http://pan ...

  10. 【原】关于AdaBoost的一些再思考

    一.Decision Stumps: Decision Stumps称为单层分类器,主要用作Ensemble Method的组件(弱分类器).一般只进行一次判定,可以包含两个或者多个叶结点.对于离散数 ...