title: 爬小说_BeautifulSoup解析_easy

author: 杨晓东

permalink: 爬小说_BeautifulSoup解析_easy

date: 2021-10-02 11:27:04

categories:

- 嗯哼

tags:

- 无聊

小说_五术传人.txt

# 小说_五术传人.txt    针对  脚本  test  demo  

import requests

from bs4 import BeautifulSoup

def get_html():

    url = 'https://www.yeshuyuan.com/read/53887/17033995.html'

    req = requests.get(url)

    req.encoding = 'utf-8'

    html = req.text

    soup = BeautifulSoup(html, "html.parser")

    with open('./五术传人.txt', 'a', encoding='utf-8') as fp:

        # 全本710章

        for i in range(712):

            # 找到标题对应标签节点

            table = soup.find("li", class_="active")

            # 获取节点内容-标题

            name = table.text

            print(name)

            # 找到内容对应标签节点and获取内容

            content = soup.find('div', class_="readcontent").text

            print(content)

            # 写入到txt

            fp.write('\n'+name+'\n')

            fp.write('\n')

            fp.write(content+'\n')

            print('已写入: ', name)

            urls = soup.find('a', id="linkNext").get('href')

            req = requests.get(urls)

            req.encoding = 'utf-8'

            html = req.text

            soup = BeautifulSoup(html, "html.parser")

if __name__ == '__main__':

    get_html()

爬小说_BeautifulSoup解析_easy的更多相关文章

使用C#爬小说
最近因朋友需要在研究如何从网站上爬小说,说到爬,很多人首先想到的是Python,但是因为没有用过Python,加上时程比较紧,就直接使用C#. 其原理也很简单,就是利用HttpWebRequest对象 ...
Python爬虫-爬小说
用途用来爬小说网站的小说默认是这本御天邪神,虽然我并没有看小说,但是丝毫不妨碍我用爬虫来爬小说啊. 如果下载不到txt,那不如自己把txt爬下来好了. 功能将小说取回,去除HTML标签记录已爬过 ...
python爬虫爬小说网站涉及到(js加密,CSS加密)
我是对于xxxx小说网进行爬取只讲思路不展示代码请见谅一.涉及到的反爬 js加密 css加密请求头中的User-Agent以及 cookie 二.思路 1.对于js加密对于有js加密信息,我们一 ...
nodejs中使用cheerio爬取并解析html网页
nodejs中使用cheerio爬取并解析html网页转 https://www.jianshu.com/p/8e4a83e7c376 cheerio用于node环境,用法与语法都类似于jquery ...
学习使用re做解析器爬小说
一.背景:近期学习python爬虫中看到,在对网页内容进行解析的技术中,re正则表达式工具也是一个很好的工具,使用re编制爬虫工具正好熟悉re正则表达式的使用. 二.环境及爬取目标 1.linux c ...
学习使用pyquery解析器爬小说
一.背景:个人喜欢在网上看小说,但是,在浏览器中阅读小说不是很方便,喜欢找到小说的txt版下载到手机上阅读,但是有些小说不太好找txt版本,考虑自己从网页上爬一爬,自己搞定小说的txt版本.正好学习一 ...
一个用来爬小说的简单的Node.js爬虫
小说就准备点天下霸唱和南派三叔的系列,本人喜欢看,而且数据也好爬.貌似因为树大招风的原因,这两作者的的书被盗版的很多,乱改的也多.然后作者就直接在网上开放免费阅读了,还提供了官网,猜想作者应该是允许爬 ...
php实现TXT小说章节解析、小说章节在线阅读
每天学习一点点编程PDF电子书.视频教程免费下载:http://www.shitanlife.com/code 要实现TXT文本章节的解析,大概思路是在每个章节加入了特定的字符,然后根据字符的起始位 ...
使用beautifulsoup和pyquery爬小说
# -*- coding:UTF-8 -*- from bs4 import BeautifulSoup #BeautifulSoup就是处理字符串的工具 import requests, sys & ...
Java爬虫框架 | 爬小说
Jsoup,Java爬虫解决方案,中文文档:jsoup 不得不说Java的生态真的好,原来我以为爬虫是只能用Pyhton来写的,结果发现Java的爬虫框架不要太多…… 一分钟你就可以写 ...

随机推荐

下载kali以及安装
一.kali下载下载地址:https://www.kali.org/get-kali/#kali-virtual-machines 二.kali安装 1.打开VMware,打开文件,选择刚刚下载并解 ...
Redis RDB 与AOF
参考书籍<Redis设计与实现> 一丶为什么redis需要持久化 redis 作为一个内存数据库,如果不想办法将存储在内存中的数据,保存到磁盘中,那么一旦服务器进程退出,那么redis数据 ...
CSP/S 2022 游寄
初赛 HN 初赛分数线好像大 \(32\) 分左右,通过率极高!本人弱弱的拿了 \(60.5\) 分(周围的同学平均分 \(>80\).) Day -1 这一天晚上,我背了背 dijkstra, ...
通过Terraform创建GCP Pubsub
1 简介 Terraform是管理许多平台的基础设施的工具,如AWS.GCP和Azure.这篇文章将讲解如何通过Terraform来管理GCP Pub/Sub. 创建GCP项目请参考:初始化一个GCP ...
浅谈LCA问题（最近公共祖先）（四种做法）
[模板]最近公共祖先(LCA) \(update \ 2023.1.3\) 新增了树链剖分题目描述如题,给定一棵有根多叉树,请求出指定两个点直接最近的公共祖先. 输入格式第一行包含三个正整数 \ ...
Flutter新版本2.X系列--01创建项目
1.新建项目,打开Android studio,点击红圈部分 2.选择第一个 3.设置你的项目名称,flutter sdk位置,以及项目存储路径 4.设置包名,这个要唯一 5.好啦 ~ 作为一名前端开 ...
JS循环类数组对象，获得页面所有的某个ClssaName，处理它的属性
举例:获得所有的某个ClssaName,处理它的第一个子元素中的title赋值给内容 let links = Array.from(document.getElementsByClassName('m ...
vue中使用echarts来绘制中国地图,NuxtJS制作疫情地图，内有详细注释，我就懒得解释了，vue cli制作疫情地图代码略有不同哦~~~
我的代码自我感觉----注释一向十分详细,就不用过多解释都是什么了~~ 因为最近疫情期间在家实在是没事干,想找点事,就练手了个小demo 首先上 NuxtJs版本代码,这里面 export defau ...
C# 托管堆遭破坏问题溯源分析
一:背景 1. 讲故事年前遇到了好几例托管堆被损坏的案例,有些运气好一些,从被破坏的托管堆内存现场能观测出大概是什么问题,但更多的情况下是无法做出准确判断的,原因就在于生成的dump是第二现场,借用 ...
Win10环境下yolov8(ultralytics) 快速配置与测试
win10下亲测有效!(如果想在tensorrt+cuda下部署,直接看第五5章) 一.win10下创建yolov8环境 # 注:python其他版本在win10下,可能有坑,我已经替你踩坑了,这里p ...

爬小说_BeautifulSoup解析_easy

小说_五术传人.txt

爬小说_BeautifulSoup解析_easy的更多相关文章

随机推荐

热门专题