Python实现爬虫从网络上下载文档

最近在学习Python，自然接触到了爬虫，写了一个小型爬虫软件，从初始Url解析网页，使用正则获取待爬取链接，使用beautifulsoup解析获取文本，使用自己写的输出器可以将文本输出保存，具体代码如下：

Spider_main.py

# coding:utf8

from baike_spider import url_manager, html_downloader, html_parser, html_outputer

class SpiderMain(object):

    def __init__(self):

        self.urls = url_manager.UrlManager()

        self.downloader = html_downloader.HtmlDownloader()

        self.parser = html_parser.HtmlParser()

        self.outputer = html_outputer.HtmlOutputer()

    def craw(self, root_url):

        count = 1

        self.urls.add_new_url(root_url)

        while self.urls.has_new_url():

            print("self.urls.has %s" % self.urls.new_urls)

            try:

                new_url = self.urls.get_new_url()

                print("craw %d : %s"%(count, new_url))

                html_cont = self.downloader.download(new_url)

                new_urls, new_data = self.parser.parse(new_url, html_cont)

                self.urls.add_new_urls(new_urls)

                self.outputer.collect_data(new_data)

                if count == 1000:

                    break

                count = count + 1

            except:

                print("craw failed")

        self.outputer.output_html()

        self.outputer.output_txt()

if __name__ == '__main__':

    root_url = "http://www.shushu8.com/jiangnan/longzu2qianzhuan/1"

    obj_spider = SpiderMain()

    obj_spider.craw(root_url)

url_manager.py

class UrlManager(object):

    def __init__(self):

        self.new_urls = set()

        self.old_urls = set()

    def add_new_url(self, url):

        print(url)

        if url is None:

            return

        if url not in self.new_urls and url not in self.old_urls:

            self.new_urls.add(url)

    def has_new_url(self):

        return len(self.new_urls) != 0

    def get_new_url(self):

        new_url = self.new_urls.pop()

        self.old_urls.add(new_url)

        # print('new url is %s' % new_url)

        return new_url

    def add_new_urls(self, urls):

        print("add_new_urls %s" % urls)

        if urls is None or len(urls) == 0:

            return

        for url in urls:

            self.add_new_url(url)

            print(url)

html_parser.py

import re

import urllib.parse

from bs4 import BeautifulSoup

class HtmlParser(object):

    def parse(self, page_url, html_cont):

        if page_url is None or html_cont is None:

            return

        soup = BeautifulSoup(html_cont, 'html.parser', from_encoding='utf-8')

        new_urls = self._get_new_urls(page_url, soup)

        print("parse new_urls %s" % new_urls)

        new_data = self._get_new_data(page_url, soup)

        return new_urls, new_data

    def _get_new_data(self, page_url, soup):

        res_data = {}

        res_data['url'] = page_url

        print(page_url)

        title_node = soup.find(class_="title").find("h1")

        print(title_node.get_text())

        res_data['title'] = title_node.get_text()

        print("_get_new_data")

        summary_node = soup.find('pre')

        print(summary_node.get_text())

        res_data['summary'] = summary_node.get_text()

        return res_data

    def _get_new_urls(self, page_url, soup):

        new_urls = set()

        links = soup.find_all('a', href=re.compile(r"/jiangnan/"))

        print(links)

        for link in links:

            new_url = link['href']

            new_full_url = urllib.parse.urljoin(page_url, new_url)

            new_urls.add(new_full_url)

            # print(new_full_url)

        return new_urls

html_downloader.py

import urllib.request

class HtmlDownloader(object):

    def download(self, url):

        if url is None:

            return None

        response = urllib.request.urlopen(url)

        if response.getcode() != 200:

            return None

        return response.read()

html_outputer.py

class HtmlOutputer(object):

    def __init__(self):

        self.datas = []

    def collect_data(self, data):

        if data is None:

            return

        self.datas.append(data)

    def output_txt(self):

        fout = open('output.txt', 'w', encoding='utf-8')

        for data in self.datas:

            fout.write('%s \n' % data['title'])

            fout.write('%s \n' % data['summary'])

    def output_html(self):

        fout = open('output.html', 'w', encoding='utf-8')

        fout.write('<html>')

        fout.write('<body>')

        fout.write('<table>')

        for data in self.datas:

            fout.write('<tr>')

            fout.write('<td>%s</td>' % data['url'])

            fout.write('<td>%s</td>' % data['title'])

            fout.write('<td>%s</td>' % data['summary'])

            fout.write('</tr>')

        fout.write('</table>')

        fout.write('</body>')

        fout.write('</html>')

        fout.close()

Python实现爬虫从网络上下载文档的更多相关文章

Python小爬虫-自动下载三亿文库文档
新手学python,写了一个抓取网页后自动下载文档的脚本,和大家分享. 首先我们打开三亿文库下载栏目的网址,比如专业资料(IT/计算机/互联网)http://3y.uu456.com/bl-197?o ...
python Cmd实例之网络爬虫应用
python Cmd实例之网络爬虫应用标签(空格分隔): python Cmd 爬虫废话少说,直接上代码 # encoding=utf-8 import os import multiproces ...
使用Python爬虫库BeautifulSoup遍历文档树并对标签进行操作详解（新手必学）
为大家介绍下Python爬虫库BeautifulSoup遍历文档树并对标签进行操作的详细方法与函数下面就是使用Python爬虫库BeautifulSoup对文档树进行遍历并对标签进行操作的实例,都是最 ...
第三百六十二节，Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)基本的索引和文档CRUD操作、增、删、改、查
第三百六十二节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)基本的索引和文档CRUD操作.增.删.改.查 elasticsearch(搜索引擎)基本的索引 ...
四十一 Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)基本的索引和文档CRUD操作、增、删、改、查
elasticsearch(搜索引擎)基本的索引和文档CRUD操作也就是基本的索引和文档.增.删.改.查.操作注意:以下操作都是在kibana里操作的 elasticsearch(搜索引擎)都是基 ...
Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱（转）
原文:http://www.52nlp.cn/python-网页爬虫-文本处理-科学计算-机器学习-数据挖掘曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开 ...
Python开发爬虫之理论篇
爬虫简介爬虫:一段自动抓取互联网信息的程序. 什么意思呢? 互联网是由各种各样的网页组成.每一个网页对应一个URL,而URL的页面上又有很多指向其他页面的URL.这种URL之间相互的指向关系就形成了 ...
【Python】Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱
本文转载自:https://www.cnblogs.com/colipso/p/4284510.html 好文 mark http://www.52nlp.cn/python-%E7%BD%91%E9 ...
最全数据分析资料汇总（含python、爬虫、数据库、大数据、tableau、统计学等）
一.Python基础 Python简明教程(Python3) Python3.7.4官方中文文档 Python标准库中文版廖雪峰 Python 3 中文教程 Python 3.3 官方教程中文版 P ...

随机推荐

python中的字符串列表字典
字符串一个有序的字符集合不可变 1,可以使用for in语句进行迭代循环,返回元素 2,in类是于str.find()方法但是是返回布尔结果 str.find()返回 ...
C# tcp udp 串口通信
简单的实现tcp同步和异步,udp,串口通信 static List<TcpClientState> clientArray = new List<TcpClientState> ...
ie7下属性书写不规范造成的easyui 弹窗布局紊乱
(一)在ie7下弹窗只是普通页面 (二)控制台报错 (三)原因: (四)解决去掉 data-options 属性里的 , 就可以了
如何获得ImageView中的图像
我们知道在Android中ImageView是一个用于显示图像的控件,比如在很多联系人方面的应用中,需要为联系人拍摄头像,并将得到的头像放在一个 ImageView对象中显示.通常,在没有为联系人拍摄 ...
requireJS基本配置相关
requireJS: (1)实现js文件的异步加载,避免页面失去响应: (2)管理模块之间的依赖性,便于代码的编写和维护. 加载: <script src="js/require.js ...
进程状态转换及其PCB的变化
代码实现了模拟进程状态转换及其相应PCB内容.组织结构的变化. #include<iostream> using namespace std; typedef struct pcb{ in ...
如何查找Fiori UI上某个字段对应的后台存储表的名称
今天微信群里有朋友问到这个问题. 如果是SAPGUI里的事务码,比如MM01,对于开发者来说这个任务非常容易完成. 比如我想知道下图"Sales Unit"这个字段的值到底保存在哪 ...
Android（java）学习笔记22：我们到底该如何处理异常？
1. 我们到底该如何处理异常? (1)原则: 如果该功能内部可以将问题处理,用try,自己能解决就自己解决问题. 如果处理不了,交由调用者处理,这是用throws,自己不能解决的问题,我们就抛出去交个 ...
cocos2d-x3.1 下实现相似Android下ExpandListView的效果
在左Android開始有SDK提供ExpandListView的可扩展列表,而在iOS下有很多第三方做好的Demo,这里我是參照iOS下RATreeView这个第三方库实现的. 本文代码:须要在3.1 ...
PS中会使用到的快捷键有那些？
P.S:我刚刚在百度上,搜了一些关于PS的快捷键的使用. 我把它总结了一下.对我今后的P图有所帮助. PS的所有快捷键 1. 显示/隐藏选择区域 [Ctrl]+[H] 2. 取消当前命令:Esc: 工 ...

Python实现爬虫从网络上下载文档

Python实现爬虫从网络上下载文档的更多相关文章

随机推荐

热门专题