笔趣阁小说 selenium爬取

import re

from time import sleep

from lxml import etree

from selenium import webdriver

options = webdriver.ChromeOptions()

#options.add_argument('--headless')

options.add_argument(

    "User-Agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36")

options.add_argument("Referer=https://s.weibo.com/")

options.add_argument('--no-sandbox')

options.add_argument('--disable-dev-shm-usage')

options.add_argument('blink-settings=imagesEnabled=false')

options.add_argument('--disable-gpu')

options.add_argument('--hide-scrollbars')  # 隐藏滚动条, 应对一些特殊页面

options.add_argument(

    'Cookie: ')

class Qidian:

    def __init__(self, url, driver):

        self.url = url

        self.driver = driver

        content = self.get_content(url)

        self.file_name = self.pase_file_name(content)

    def crawl_start(self):

        content = self.get_content(self.url)

        self.parse_detail(content)

    def get_content(self,url):

        self.driver.get(url)

        content = driver.page_source

        return content

    def pase_file_name(self, content):

        html = etree.HTML(content)

        file_info = html.xpath('//*[@id="info"]/h1/text()')

        file_name = file_info[0] + ".txt"

        return file_name

    def parse_detail(self, content):

        html = etree.HTML(content)

        ul = html.xpath('//div[@id="list"]/dl//dd')

        open(self.file_name, 'w')

        for li in ul:

            item = {}

            title = li.xpath('./a/text()')

            href = li.xpath('./a/@href')

            item['title'] = title[0]

            item['href'] = "http://www.biquge.info/0_273/" + href[0]

            print(item)

            driver.get(item['href'])

            html = etree.HTML(driver.page_source)

            details = html.xpath('//*[@id="content"]//text()')

            detail = ''.join(details)

            self.save_to_file(self.file_name, title[0], detail)

            sleep(3)

    def save_to_file(self, file_name, title, content):

        with open(file_name, 'a+') as f:

            f.write(title + '\n')

            f.write(content)

            f.write('\n')

            f.close()

if __name__ == "__main__":

    url = "http://www.biquge.info/0_273/"

    driver = webdriver.Chrome(options=options)

    try:

        qidian = Qidian(url, driver)

        qidian.crawl_start()

        driver.quit()

    except Exception as e:

        print(str(e))

笔趣阁小说 selenium爬取的更多相关文章

python入门学习之Python爬取最新笔趣阁小说
Python爬取新笔趣阁小说,并保存到TXT文件中我写的这篇文章,是利用Python爬取小说编写的程序,这是我学习Python爬虫当中自己独立写的第一个程序,中途也遇到了一些困难,但是最后 ...
Jsoup-基于Java实现网络爬虫-爬取笔趣阁小说
注意!仅供学习交流使用,请勿用在歪门邪道的地方!技术只是工具!关键在于用途! 今天接触了一款有意思的框架,作用是网络爬虫,他可以像操作JS一样对网页内容进行提取初体验Jsoup <!-- Ma ...
bs4爬取笔趣阁小说
参考链接:https://www.cnblogs.com/wt714/p/11963497.html 模块:requests,bs4,queue,sys,time 步骤:给出URL--> 访问U ...
免app下载笔趣阁小说
第一次更新:发现一个问题,就是有时候网页排版有问题的话容易下载到多余章节,如下图所示: 网站抽风多了一个正文一栏,这样的话就会重复下载1603--1703章节. 解决办法: 于是在写入内容前加了一个章 ...
Python爬取笔趣阁小说，有趣又实用
上班想摸鱼?为了摸鱼方便,今天自己写了个爬取笔阁小说的程序.好吧,其实就是找个目的学习python,分享一下. 1. 首先导入相关的模块 import os import requests from ...
scrapycrawl 爬取笔趣阁小说
前言第一次发到博客上..不太会排版见谅最近在看一些爬虫教学的视频,有感而发,大学的时候看盗版小说网站觉得很能赚钱,心想自己也要搞个,正好想爬点小说能不能试试做个网站(网站搭建啥的都不会...) 站 ...
python应用：爬虫框架Scrapy系统学习第四篇——scrapy爬取笔趣阁小说
使用cmd创建一个scrapy项目: scrapy startproject project_name (project_name 必须以字母开头,只能包含字母.数字以及下划线<undersco ...
HttpClients+Jsoup抓取笔趣阁小说，并保存到本地TXT文件
前言首先先介绍一下Jsoup:(摘自官网) jsoup is a Java library for working with real-world HTML. It provides a very ...
scrapy框架爬取笔趣阁
笔趣阁是很好爬的网站了,这里简单爬取了全部小说链接和每本的全部章节链接,还想爬取章节内容在biquge.py里在加一个爬取循环,在pipelines.py添加保存函数即可 1 创建一个scrapy项目 ...

随机推荐

linux（centos）下密码有效期和密码复杂度设置
1.密码有效期方法一: chage -l 用户名查看用户的过期时间 chage -M 99999 用户名用命令修改过期时间为永久 chage -M 90 用户名设置密码有效期为90天 chag ...
《C++深度解析》课程目录
<C++深度解析>课程目录第1课 - 学习 C++ 的意义第2课 - C到C++的升级第3课 - 进化后的const分析第4课 - 布尔类型和引用第5课 - 引用的本质分 ...
UGOPEN实现解析NX表达式
UGOPEN函数UF_MODL_dissect_exp_string可以解析表达式,但是当表达式存在附注信息时,会将附注信息附加在 rhs_str上,例如: 这样,当单独获取附注信息时还需要拆分字符串 ...
[安洵杯 2019]iamthinking&&thinkphp6.0反序列化漏洞
[安洵杯 2019]iamthinking&&thinkphp6.0反序列化漏洞刚开始是403,扫描以下目录,扫描到三个目录. [18:06:19] 200 - 1KB - /REA ...
吴恩达-机器学习+Logistic回归分类方案
RabbitMQ与Kafka选型对比
背景本公司是.Net项目,在.Net可选的MQ比较少,主要Kafka和RabbitMQ,RabbitMQ我也是使用多年了,最近的Kafka广告与流行度打得使我也是无法无视,因此也是花了点时间收集了资 ...
jdk在linux下安装、配置环境变量
1.jdk下载: 下载地址:https://www.oracle.com/java/technologies/javase-downloads.html 2. 3. 4.解压jdk到/usr/loca ...
shiro安全框架和spring整合
上干货......... 整合spring的配置文件 <?xml version="1.0" encoding="UTF-8"?><beans ...
Python-迭代协议-__iter__ __next__ iter next yield
iter 本质是for循环调用的实质,for循环通过调用这个函数返回可迭代对象生成器形式,开始迭代取值捕获StopIteration错误退出循环 for循环首先找__iter__方法,然后再找 __g ...
【typedef】Type definitions 自定义类型

笔趣阁小说 selenium爬取

笔趣阁小说 selenium爬取的更多相关文章

随机推荐

热门专题