写在开头

纪念我的第一个爬虫程序，一共写了三个白天，其中有两个上午没有看，中途遇到了各种奇怪的问题，伴随着他们的解决，对于一些基本的操作也弄清楚了。果然，对于这些东西的最号的学习方式，就是在使用中学习，通过解决问题的方式来搞定这些知识。按需索取，才能更有针对性。

大体记录下整个过程。

准备构思

出于对于python的热爱，想要尝试一些练手的项目，但是不论是看书，还是直接尝试别人的项目，到最后都会沦为不停地复制粘贴...最实际的就是自己来上手亲自写代码。思路都是一样的，但是具体的实现还得靠自己。

以前的复制粘贴给我的帮助也就是告诉了我大致的流程。

确定目标网址

目标网址是关键。我梦想中的爬虫是那种偏向于更智能的，直接给他一个想要获取的关键词，一步步的流程直接自己完成，可以自己给定范围，也可以直接爬取整个互联网或者更实际的就是整个百度上的内容，但是，目前就我而言，见到的爬虫，都是给定目标网址，通过目标页面上的内容进一步执行规定的操作，所以现在来看，我们在写爬虫之前，需要确定一个基准页面，这个是需要我们事先制定的。在考虑我们需要程序完成怎样的功能，获取页面文本还是相关链接内容还是其他的目的。

我这个程序想要获取的是《剑来》小说，把各个章节的内容爬去下载存储到文件里。

编程只是实现目的的工具。

所以重点是分析我们的需求。

获取小说目录页面是基本。这里有各个章节的链接，标题等等内容。这是我们需要的。

有了各个章节的链接，就需要进入其中获得各个章节的内容。

所以，我们需要获得页面内容，需要从中获得目标内容。

所以使用 urllib.request，re 库。

前者用来获得网页内容，后者获得目标信息。

headers

直接使用urllib.request的urlopen()，read()方法是会报类似以下的错误（这里是网上查找过来的，都是类似的）：

raise HTTPError(req.get_full_url(), code, msg, hdrs, fp)

HTTPError: HTTP Error 403: Forbidden

出现urllib2.HTTPError: HTTP Error 403: Forbidden错误是由于网站禁止爬虫，可以在请求加上头信息，伪装成浏览器。

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; Win64; x64; rv:55.0) Gecko/20100101 Firefox/55.0'}

request = url_req.Request(url, headers=headers)

response = url_req.urlopen(request, data=None, timeout=3)

html = response.read().decode('GBK')

注意：这里存在两个容易出问题的地方。

编码：编码问题是使用爬虫中有时候会很头痛的问题，由于网页源代码编码格式不明确，所以这里尝试了许久。

使用chardet库的detect()方法可以检测字节字符串的编码。所以直接检测这里的html(先不要解码)。输出的是GB2312，但是在后面页面的爬取中，会出现提示有的字符的编码异常，所以这里采取了比其范围更广的中文字符集GBK，解决了这个问题。

设置超时范围：由于频繁的获取网页内容，目标网站有时候会出现没有响应的问题。

（这个问题可以见我在CSDN上的提问：关于python爬虫程序中途停止的问题）

于是我采取了捕获 urlopen()的socket.timeout异常，并在出现异常的时候再循环访问，直到获得目标页面。

获得目标内容

这里使用的是正则表达式。re模块。这里的使用并不复杂。

首先需要一个模式字符串。以re.I指定忽略大小写，编译后的对象拥有本身匹配的方法，这里使用的是findall()，返回一个所有结果组成的列表。可以及时返回输出其内容，进而选择合适的部分进行处理。

python 正则表达式

通过查看相关的符号，这里使用(.+?)来实现匹配非贪婪模式(尽量少的)下任意无限字符，对之使用()，进而匹配括号内的模式。

文件写入

使用with open() as file:，进而可以处理文件。并且可以自动执行打开和关闭文件，更为便捷安全。

with open(findall_title[0] + '.txt', 'w+', encoding='utf-8') as open_file:

这里也要注意编码的问题，指定utf-8。会避免一些问题。
这里使用w+模式，追加写文件。

完整代码

# -*- coding: utf-8 -*-

"""

Created on Fri Aug 11 16:31:42 2017

@author: lart

"""

import urllib.request as url_req

import re, socket, time

def r_o_html(url):

    print('r_o_html begin')

    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; Win64; x64; rv:55.0) Gecko/20100101 Firefox/55.0'}

    request = url_req.Request(url, headers=headers)

    NET_STATUS = False

    while not NET_STATUS:

        try:

            response = url_req.urlopen(request, data=None, timeout=3)

            html = response.read().decode('GBK')

            print('NET_STATUS is good')

            print('r_o_html end')

            return html

        except socket.timeout:

            print('NET_STATUS is not good')

            NET_STATUS = False

def re_findall(re_string, operation, html):

    print('re_findall begin')

    pattern = re.compile(re_string, re.I)

    if operation == 'findall':

        result = pattern.findall(html)

    else:

        print('this operation is invalid')

        exit(-1)

    print('re_findall end')

    return result

if __name__ == '__main__':

    url_base = 'http://www.7kankan.la/book/1/'

    html = r_o_html(url_base)

    findall_title = re_findall(r'<title>(.+?)</title>', 'findall', html)

    findall_chapter = re_findall(r'<dd class="col-md-3"><a href=[\',"](.+?)[\',"] title=[\',"](.+?)[\',"]>', 'findall', html)

    with open(findall_title[0] + '.txt', 'w+', encoding='utf-8') as open_file:

        print('article文件打开', findall_chapter)

        for i in range(len(findall_chapter)):

            print('第' + str(i) + '章')

            open_file.write('\n\n\t' + findall_chapter[i][1] + '\n --------------------------------------------------------------------- \n')

            url_chapter = url_base + findall_chapter[i][0]

            html_chapter = r_o_html(url_chapter)

            findall_article = re_findall(r'&nbsp;&nbsp;&nbsp;&nbsp;(.+?)<br />', 'findall', html_chapter)

            findall_article_next = findall_chapter[i][0].replace('.html', '_2.html')

            url_nextchapter = url_base + findall_article_next

            html_nextchapter = r_o_html(url_nextchapter)

            if html_nextchapter:

                findall_article.extend(re_findall(r'&nbsp;&nbsp;&nbsp;&nbsp;(.+?)<br />', 'findall', html_nextchapter))

                for text in findall_article:

                    open_file.write(text + '\n')

            time.sleep(1)

    print('文件写入完毕')

【Python】我的第一个完整的小说爬虫的更多相关文章

python入门学习之Python爬取最新笔趣阁小说
Python爬取新笔趣阁小说,并保存到TXT文件中我写的这篇文章,是利用Python爬取小说编写的程序,这是我学习Python爬虫当中自己独立写的第一个程序,中途也遇到了一些困难,但是最后 ...
用Python编写的第一个回测程序
用Python编写的第一个回测程序 2016-08-06 def savfig(figureObj, fn_prefix1='backtest8', fn_prefix2='_1_'): import ...
Python开发【第一篇】：目录
本系列博文包含 Python基础.前端开发.Web框架.缓存以及队列等,希望可以给正在学习编程的童鞋提供一点帮助!!! Python开发[第一篇]:目录 Python开发[第二篇]:初识Python ...
Python自动化培训第一周学习总结
Python自动化培训第一周学习结束,看视频复习,把作业完成了. 总体来说,开卷有益. 首先,工具真是好东西,能够极大提升效率,也是人区别于动物所在.想起前任大领导对工具的不屑,本质也是对效率的不屑, ...
Python开发【第一篇】:目录
本系列博文包含Python基础.前端开发.Web框架.缓存以及队列等,希望可以给正在学习Python编程的朋友们提供一点帮助! .Python开发[第一篇]:目录 .Python开发[第二篇]:初始P ...
python测试mysql写入性能完整实例
这篇文章主要介绍了python测试mysql写入性能完整实例,具有一定借鉴价值,需要的朋友可以参考下本文主要研究的是python测试mysql写入性能,分享了一则完整代码,具体介绍如下. 测试环境: ...
通过游戏学python 3.6 第一季第九章实例项目猜数字游戏--核心代码--猜测次数--随机函数和屏蔽错误代码--优化代码及注释--简单账号密码登陆--账号的注册查询和密码的找回修改--锁定账号--锁定次数--菜单功能'menufile
通过游戏学python 3.6 第一季第九章实例项目猜数字游戏--核心代码--猜测次数--随机函数和屏蔽错误代码--优化代码及注释--简单账号密码登陆--账号的注册查询和密码的找回修改--锁 ...
通过游戏学python 3.6 第一季第八章实例项目猜数字游戏--核心代码--猜测次数--随机函数和屏蔽错误代码--优化代码及注释--简单账号密码登陆--账号的注册查询和密码的找回修改--锁定账号--锁定次数
通过游戏学python 3.6 第一季第八章实例项目猜数字游戏--核心代码--猜测次数--随机函数和屏蔽错误代码--优化代码及注释--简单账号密码登陆--账号的注册查询和密码的找回修改--锁定账 ...
通过游戏学python 3.6 第一季第二章实例项目猜数字游戏--核心代码--猜测次数可复制直接使用娱乐可封装函数
猜数字游戏--核心代码--猜测次数 #猜数字--核心代码--猜测次数 number=33 amount=3 count=0 while count<=amount: conversion ...

随机推荐

【Linux】环境搭建基础
1 部署环境基本过程有部署文档的话,根据文档进行部署.一般情况下,部署过程如下 1.1第一次的时候 1.安装依赖软件 java(jdk.tomcat.redis.mysql) python py2 ...
Struts 2 配置Action详解_java - JAVA
文章来源:嗨学网敏而好学论坛www.piaodoo.com 欢迎大家相互学习实现了Action处理类之后,就可以在struts.xml中配置该Action,从而让Struts 2框架知道哪个Act ...
小小程序员的生产力工具——2017款MacBook pro 13.3（附使用技巧和常用链接）
新买的2017款 MacBook pro 13.3 九号到了,第一次用苹果笔记本,用了两天基本熟悉了,各种软件也安装的差不多,把一些小技巧分享给大家.先放几张图使用小常识,希望可以帮到您一:尽量 ...
【leetcode】Network Delay Time
题目: There are N network nodes, labelled 1 to N. Given times, a list of travel times as directed edge ...
Python 字典(Dictionary)Ⅱ
删除字典元素能删单一的元素也能清空字典,清空只需一项操作. 显示删除一个字典用del命令,如下实例: 但这会引发一个异常,因http://www.xuanhe.net/为用del后字典不再存在: 注 ...
python 从入门到实践第三章
在第3章,你将学习如何在被称为列表的变量中存储信息集,以及如何通过遍历列表来操作其中的信息写注释 # 代码越长标识好代码的重要性越来越重要要求习惯:在代码中编写清晰,简洁的注释开始研究更复杂的主 ...
Java多线程的创建方法
Java 线程类也是一个 object 类,它的实例都继承自java.lang.Thread 或其子类. 可以用如下方式用 java 中创建一个线程,执行该线程可以调用该线程的 start()方法: ...
CQOI2010 传送带
题目链接:戳我分别枚举线段AB上的出发点,和线段CD上的到达点,然后时间直接计算,取min就可以了. 但是这样子显然会T飞,(相当于1e5的平方吧?)所以我们进一步考虑性质. 然后打表(或者感性理解 ...
【Mark】博弈类题目小结（HDU,POJ,ZOJ）
转载请注明出处,谢谢http://blog.csdn.net/ACM_cxlove?viewmode=contents by---cxlove 首先当然要献上一些非常好的学习资料: 基础博弈的小 ...
DVWA--XSS(stored)
XSS 0X01 1.简介跨站脚本(cross site script)为了避免与样式css混淆,所以简称为XSS. XSS是一种经常出现在web应用中的计算机安全漏洞,也是web中最主流的攻击方式 ...

【Python】我的第一个完整的小说爬虫