爬虫（正则）—

工具：python3

步骤：

1）定义spider类，将具体功能封装成方法

2）观察html页面，写好正确的正则表达式来找到符合规则的文字

3）写一个方法测试一下，保证每写好一个都是对的

4）加入提示语，完善每个方法

5）得到的页面发现乱码，需要将response进行decode，尝试utf-8提示错误，gbk得到想要的页面！开心！

# coding:utf-8

import urllib.request

import re

class Spider:

    def __init__(self):

        # 初始化其实页面

        self.page = 1

        # 爬取开关，true继续爬取

        self.switch = True

    def loadPage(self):

        """

        下载页面

        """

        print("正在下载数据。。。。。。")

        url = "http://www.neihan8.com/article/list_5_" + str(self.page) + ".html"

        headers = {

    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36",

           }

        request = urllib.request.Request(url, headers=headers)

        html = urllib.request.urlopen(request).read()

        # 获取每页的HTML源码字符串

        html = html.decode("gbk")

        # 创建正则表达式规则，匹配每页里的段子内容，re.S表示匹配全部字符串内容

        pattern = re.compile('<div\sclass="f18 mb20">(.*?)</div>', re.S)

        # 返回所有段子的列表

        content_list = pattern.findall(str(html))

        self.dealPage(content_list)

    def dealPage(self, content_list):

        """

        处理每页的段子

        :return:

        """

        for item in content_list:

            item = item.replace("<p>","").replace("<br />","").replace("</p>","")

            self.writePage(item)

            print("正在写入数据。。。。。。")

    def writePage(self,item):

        """

        把每条段子逐个写入文件

        """

        with open("duanzi.txt","a") as f:

            f.write(item)

    def startWork(self):

        """

        控制爬虫运行

        :return:

        """

        while self.switch:

            self.loadPage()

            commend = input("如果继续爬取请按回车（退出按q）")

            if commend =="q":

                self.switch = False

            # 每次循环页面+1

            self.page += 1

if __name__ == "__main__":

    duanziSpider = Spider()

    duanziSpider.startWork()

爬虫（正则）——爬neihan8的更多相关文章

[Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)
转载自:http://blog.csdn.net/eastmount/article/details/51231852 一. 文章介绍源码下载地址:http://download.csdn.net/ ...
scrapy进阶（CrawlSpider爬虫__爬取整站小说）
# -*- coding: utf-8 -*- import scrapy,re from scrapy.linkextractors import LinkExtractor from scrapy ...
第三百三十四节，web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻，爬取Ajax动态生成的信息
第三百三十四节,web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻,爬取Ajax动态生成的信息 crapy爬取百度新闻,爬取Ajax动态生成的信息,抓取百度新闻首页的新闻rul地址有多 ...
第三百三十节，web爬虫讲解2—urllib库爬虫—实战爬取搜狗微信公众号—抓包软件安装Fiddler4讲解
第三百三十节,web爬虫讲解2—urllib库爬虫—实战爬取搜狗微信公众号—抓包软件安装Fiddler4讲解封装模块 #!/usr/bin/env python # -*- coding: utf- ...
正则爬取某段子网站前20页段子(request库)
首先还是谷歌浏览器抓包对该网站数据进行分析,结果如下: 该网站地址:http://www.budejie.com/text 该网站数据都是通过html页面进行展示,网站url默认为第一页,http:/ ...
python爬虫实战---爬取大众点评评论
python爬虫实战—爬取大众点评评论(加密字体) 1.首先打开一个店铺找到评论很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手.很多已经 ...
scrapy-redis实现爬虫分布式爬取分析与实现
本文链接:http://blog.csdn.net/u012150179/article/details/38091411 一 scrapy-redis实现分布式爬取分析所谓的scrapy-redi ...
网络爬虫之定向爬虫：爬取当当网2015年图书销售排行榜信息（Crawler）
做了个爬虫,爬取当当网--2015年图书销售排行榜 TOP500 爬取的基本思想是:通过浏览网页,列出你所想要获取的信息,然后通过浏览网页的源码和检查(这里用的是chrome)来获相关信息的节点,最后 ...
使用htmlparse爬虫技术爬取电影网页的全部下载链接
昨天,我们利用webcollector爬虫技术爬取了网易云音乐17万多首歌曲,而且还包括付费的在内,如果时间允许的话,可以获取更多的音乐下来,当然,也有小伙伴留言说这样会降低国人的知识产权保护意识,诚 ...
python 爬虫之爬取大街网（思路）
由于需要,本人需要对大街网招聘信息进行分析,故写了个爬虫进行爬取.这里我将记录一下,本人爬取大街网的思路. 附:爬取得数据仅供自己分析所用,并未用作其它用途. 附:本篇适合有一定爬虫基础 crawl ...

随机推荐

(转)RTSP协议详解
转自:https://www.cnblogs.com/lidabo/p/6553212.html RTSP简介 RTSP(Real Time Streaming Protocol)是由Real ...
PyNLPIR python中文分词工具
官网:https://pynlpir.readthedocs.io/en/latest/ github:https://github.com/tsroten/pynlpir NLP ...
linux 下errno各个值的意义(转) errno.h
strerror(errno):获取errno对应的错误查看错误代码errno是调试程序的一个重要方法.当linux C api函数发生异常时,一般会将errno变量(需include errno. ...
phantomjs学习
PhantomJS快速入门本文简要介绍了PhantomJS的相关基础知识点,主要包括PhantomJS的介绍.下载与安装.HelloWorld程序.核心模块介绍等.由于鄙人才疏学浅,难免有疏漏之处, ...
几个重要的 ASM Disk Groups 参数
几个重要的Disk group 属性: 1. ACCESS_CONTROL.ENABLED该属性用来控制某个disk group 上ASM FILE Access Control. 该参数有2个值:t ...
Component概念
转自:http://www.cnblogs.com/NEOCSL/archive/2012/05/06/2485227.html 1.总结 Component就是组建的意思,可以在DefaultPro ...
Linux命令总结_sort排序命令
1.sort命令是帮我们依据不同的数据类型进行排序,其语法及常用参数格式: sort [-bcfMnrtk][源文件][-o 输出文件] 补充说明:sort可针对文本文件的内容,以行为单位 ...
(二)搭建SSH环境
一.struts 1.添加jar包: commons-fileupload-1.3.1.jar,[文件上传相关包] commons-io-2.2.jar, commons-lang-2.4.jar , ...
读取web应用下的资源文件（例如properties）
package gz.itcast.b_resource; import java.io.IOException; import java.io.InputStream; import java.ut ...
java之异常处理、异常分类、Throwable、自定义异常
参考http://how2j.cn/k/exception/exception-trycatch/336.html 异常处理 try catch 1.将可能抛出FileNotFoundExceptio ...

爬虫（正则）——爬neihan8

爬虫（正则）——爬neihan8的更多相关文章

随机推荐

热门专题