coding=UTF-8

import html_download

import html_outputer

import html_parser

import url_maneger

class SpiderMain(object):

    # 构造器

    def __init__(self):

        # 1：初始化组件

        self.urls = url_maneger.urlManeger()

        self.downloader = html_download.htmlDownload()

        self.parser = html_parser.htmlParser()

        self.outputer = html_outputer.htmlOutputer()

    def crawl(self, root_url):

        # 2：定义爬取方法

        count = 1

        self.urls.add_new_url(root_url)

        while self.urls.has_new_url():

            # a.判断是否有新的url

            try:

                new_url = self.urls.get_new_url()

                print('正在爬取：' + new_url)

                # b.获得一个url

                html_cont = self.downloader.download(new_url)

                # c.下载url内容

                new_urls, data = self.parser.parse(new_url, html_cont)

                # d.解析url内容,得到新的列表和数据

                self.urls.add_new_urls(new_urls)

                # e.把列表添加到url未读列表

                self.outputer.collect_data(data)

                # f.获取解析结果

                count = count + 1

            except:

                print('error page')

            if count == 10000:

                break

        self.outputer.output()

if __name__ == "__main__":

    root_url = 'http://baike.baidu.com/item/python'  # 爬取起点

    spider = SpiderMain()

    spider.crawl(root_url)

spider_main.py的更多相关文章

python爬虫—爬取百度百科数据
爬虫框架:开发平台 centos6.7 根据慕课网爬虫教程编写代码片区百度百科url,标题,内容分为4个模块:html_downloader.py 下载器 html_outputer.py 爬取数 ...
Python 开发轻量级爬虫08
Python 开发轻量级爬虫 (imooc总结08--爬虫实例--分析目标) 怎么开发一个爬虫?开发一个爬虫包含哪些步骤呢? 1.确定要抓取得目标,即抓取哪些网站的哪些网页的哪部分数据. 本实例确定抓 ...
Python开发轻量级爬虫
这两天自学了python写爬虫,总结一下: 开发目的:抓取百度百科python词条页面的1000个网页设计思路: 1,了解简单的爬虫架构: 2,动态的执行流程: 3,各部分的实现: URL管理器:p ...
Python抓取百度百科数据
前言本文整理自慕课网<Python开发简单爬虫>,将会记录爬取百度百科"python"词条相关页面的整个过程. 抓取策略确定目标:确定抓取哪个网站的哪些页面的哪部分 ...
python爬虫慕课基础2
实战演练:爬取百度百科1000个页面的数据对于新手来说,可以把spider_main.py代码中的try和except去掉,运行报错就会在控制台出现,根据错误去调试自己的程序发现以下错误: req ...
自己动手python打造渗透工具集
难易程度:★★★阅读点:python;web安全;文章作者:xiaoye文章来源:i春秋关键字:网络渗透技术前言python是门简单易学的语言,强大的第三方库让我们在编程中事半功倍,今天我们就来谈谈 ...
Python开发简单爬虫
简单爬虫框架: 爬虫调度器 -> URL管理器 -> 网页下载器(urllib2) -> 网页解析器(BeautifulSoup) -> 价值数据 Demo1: # codin ...
python打造渗透工具集
python是门简单易学的语言,强大的第三方库让我们在编程中事半功倍,今天我们就来谈谈python在渗透测试中的应用,让我们自己动手打造自己的渗透工具集. 难易程度:★★★阅读点:python;web ...
用python编写简单爬虫
需求:抓取百度百科python词条相关词条网页的标题和简介,并将数据输出在一个html表格中入口页:python的百度词条页 https://baike.baidu.com/item/Python/ ...

随机推荐

无法找到msvcp90.dll的一个碰巧解决办法
作者:朱金灿来源:http://blog.csdn.net/clever101 上周同事使用VS2008编译一个C++的控制台工程.工程在release模式下可以编译成功,但是运行总是出现无法 ...
转：Windows任务计划实现自动执行ArcGIS相关功能
今天一不小心点开了Windows任务计划,以前咩有怎么用过,发现还挺好用,于是想到了以前用户的一些问题 1:用户环境使用ArcSDE服务连接,每次运行到一定的负载量(可能是几天),就会很慢,用户就喜欢 ...
C++ Knowledge series 4
Programming language evolves always along with Compiler's evolvement The Semantics of Function C++ s ...
Android GreenDao清空数据库的方法
最近在做项目的时候,为了方便测试人员测试,在应用中加入正式库和测试库切换的功能.为了防止正式库和测试库切换带来的数据冲突,切换的时候必须把当前的数据库清空.代码如下: package com.exam ...
Struts2_HelloWorld_2
设置 tomcat 的位置 (jre:并不是jdk) 打开 struts2目录:apps 示例程序docs 文档lib 类库src 源码打开 apps 目录下的 struts2-blank.war ...
php-fpm如何优化进程数
参考链接: php-fpm进程数优化
Extjs4几个小知识点
1.Why user "var me=this" in Extjs4?有个英文解释很好: Say you have a method in your object A which ...
April 6 2017 Week 14 Thursday
If you smile when no one else is around, you really mean it. 独处时的微笑,才是发自内心的. Recently I found I seld ...
sublime text2卸载和重新安装（转载）
很多同学使用 sublime text2 的时候,出现一些奇怪的bug,且重启无法修复. 于是,就会想到卸载 sublime text2 再重新安装. 然而,你会发现,重新安装后,这个bug任然存在, ...
初学React：组件的样式
React中组件的样式有三种: <!DOCTYPE html> <html lang="en"> <head> <meta charset ...

spider_main.py

coding=UTF-8

spider_main.py的更多相关文章

随机推荐

热门专题