Python爬虫-《神雕侠侣》

Python3.5

爬取《神雕侠侣》http://www.kanunu8.com/wuxia/201102/1610.html

武侠迷，所以喜欢爬取武侠小说

#!/usr/bin/python

# -*- coding: utf-8 -*-

from selenium import webdriver

import os

from docx import Document

import re

class House():

    def __init__(self):

        self.headers = {

            'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.95 Safari/537.36'}

        self.baseUrl = 'http://www.kanunu8.com/wuxia/201102/1610.html'

        self.basePath = os.path.dirname(__file__)

    def makedir(self, name):

        path = os.path.join(self.basePath, name)

        isExist = os.path.exists(path)

        if not isExist:

            os.makedirs(path)

            print('File has been created.')

        else:

            print('The file is existed.')

        #切换到该目录下

        os.chdir(path)

    def connect(self, url):

        try:

            driver = webdriver.PhantomJS()

            driver.get(url)

            return driver

        except:

            print('This page is not existed.')

    #爬取每个板块中每一章节的链接地址

    def getBookLinkList(self, url):

        driver = self.connect(url)

        bookLinkList = []

        try:

            #找到所有href链接

            bookLinks = driver.find_elements_by_xpath("//a")

            for link in bookLinks:

                temp = link.get_attribute('href')

                print(temp)

                try:

                    #通过正则表达式筛选出各章节的链接

                    pattern = re.compile(".+\/[0-9]{5}\.html$")

                    if pattern.match(temp):

                        print('ok')

                        bookLinkList.append(link.get_attribute('href'))

                except:

                    print('little error')

        except:

            print('Error')

        return bookLinkList

    #爬取每本书的细节数据

    def getBookDetail(self, url):

        driver = self.connect(url)

        try:

            #找到标题和文章内容

            title = driver.find_element_by_xpath('//h2').text

            content = driver.find_element_by_xpath('//p').text

            print(title)

            print(content)

        except:

            print('Error.')

        return title, content

    def getData(self):

        doc = Document()

        self.makedir('StoryFiles')

        bookLinkList = self.getBookLinkList(self.baseUrl)

        for linkUrl in bookLinkList:

            doc.add_paragraph(self.getBookDetail(linkUrl))

        doc.save('神雕侠侣.docx')

if __name__ == '__main__':

    house = House()

    house.getData()

Python爬虫-《神雕侠侣》的更多相关文章

爬虫前篇 /https协议原理剖析
爬虫前篇 /https协议原理剖析目录爬虫前篇 /https协议原理剖析 1. http协议是不安全的 2. 使用对称秘钥进行数据加密 3. 动态对称秘钥和非对称秘钥 4. CA证书的应用 5. ...
Python网络爬虫http和https协议
一.HTTP协议 1.官方概念: HTTP协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW:World Wide Web )服务器传输超文 ...
Python爬虫-02：HTTPS请求与响应，以及抓包工具Fiddler的使用
目录 1. HTTP和HTTPS 1.1. HTTP的请求和响应流程:打开一个网页的过程 1.2. URL 2. 客户端HTTP请求 3. Fiddler抓包工具的使用 3.1. 工作原理 3.2. ...
java爬虫爬取https协议的网站时，SSL报错， java.lang.IllegalArgumentException TSLv1.2 报错
目前在广州一家小公司实习,这里的学习环境还是挺好的,今天公司从业十几年的大佬让我检查一下几年前的爬虫程序是否还能使用…… 我从myeclipse上check out了大佬的程序,放到workspace ...
Python爬虫帮你打包下载所有抖音好听的背景音乐，还不快收藏一起听歌【华为云技术分享】
版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/devcloud/article/detai ...
Python爬虫入门教程 48-100 使用mitmdump抓取手机惠农APP-手机APP爬虫部分
1. 爬取前的分析 mitmdump是mitmproxy的命令行接口,比Fiddler.Charles等工具方便的地方是它可以对接Python脚本. 有了它我们可以不用手动截获和分析HTTP请求和响应 ...
python爬虫相关
一.Python re模块的基本用法: https://blog.csdn.net/chenmozhe22/article/details/80601971 二.爬取网页图片 https://www. ...
02.Python网络爬虫第二弹《http和https协议》
一.HTTP协议 1.官方概念: HTTP协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW:World Wide Web )服务器传输超文 ...
Python网络爬虫第二弹《http和https协议》
一.HTTP协议 1.官方概念: HTTP协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW:World Wide Web )服务器传输超文 ...
python网络爬虫《http和https协议》
一.HTTP协议 1.官方概念: HTTP协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW:World Wide Web )服务器传输超文 ...

随机推荐

设计不严谨 - Get参数传日期空格未转义字符出现截断请求，后端无法处理
设计不严谨 Get参数传递日期的时候有空格,如果未转义的话,会截断请求,然后后端无法处理. 从业务场景看从产品的角度看,产品想要看每个活动的效果,而不是想知道技术. 角度不同,视觉不同 mark
Delphi 堆栈 [ heap(堆) 和 stack(栈) ]
程序需要的内存空间分为 heap(堆) 和 stack(栈); heap(堆) 是自由存储区, stack(栈) 是自动存储区; 使用 heap 需要手动申请.手动释放, 使用 stack 是自动申请 ...
CentOS 7.2 安装MySQL 5.7
CentOS 7之后的版本yum的默认源中使用MariaDB替代原先MySQL,因此安装方式较为以往有一些改变: 下载mysql的源 wget http://dev.mysql.com/get/mys ...
【在线工具】java开发常用在线工具
转自:常用工具页面 Java源代码搜索 Grepcode是一个面向于Java开发人员的网站,在这里你可以通过Java的projects.classes等各种关键字在线查看它对应的源码,知道对应的pro ...
linux IPC socket
套接字是通讯端点的抽象创建一个套接字 #include <sys/types.h> #include <sys/socket.h> int socket(int domain ...
kubernetes(k8s)集群安全机制RBAC
1.基本概念 RBAC(Role-Based Access Control,基于角色的访问控制)在k8s v1.5中引入,在v1.6版本时升级为Beta版本,并成为kubeadm安装方式下的默认选项, ...
python爬虫 mac下安装使用Fiddler
HTTP代理工具Fiddler Fiddler是一款强大Web调试工具,它能记录所有客户端和服务器的HTTP请求. Getting started 在安装之前需要准备Mono环境 If you don ...
转-C++之手写strcpy
转自:strcpy函数的实现知strcpy函数的原型是: char *strcpy(char *dst, const char *src); 实现strcpy函数解释为什么要返回char * 假如 ...
python使用threading获取线程函数返回值的实现方法
python使用threading获取线程函数返回值的实现方法这篇文章主要介绍了python使用threading获取线程函数返回值的实现方法,需要的朋友可以参考下 threading用于提供线程相 ...
RZ、NRZ、NRZI、曼彻斯特编码
Frm: http://blog.sina.com.cn/s/blog_78e87ba10102wj9g.html 在数字电路中,组成一连串信息的基元就是0和1,无论是在CPU.DSP.MCU甚至是个 ...

Python爬虫-《神雕侠侣》

Python爬虫-《神雕侠侣》的更多相关文章

随机推荐

热门专题