Beautifusoup

text = soup.find('div', {'class': 'mulu'})  #查找目录，坑死我了。就这个东西，
知乎上看别人写的爬取网络小说，这个最适合我。
我一开始老是使用beautifulsoup ，find老是不准，原来是这个样子的。这个格式的。真是太无情了。
不准的原因还有一个，那就是解析的页面错了。愚蠢的人类
继续学习。

作者：周小馬

链接：https://www.zhihu.com/question/48900224/answer/266561350

来源：知乎

著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

# -*- coding: utf-8 -*-

# 导入俩库，足够了

import requests

from bs4 import BeautifulSoup

url = "http://www.88dushu.com/xiaoshuo/2/2392/index.html"  # 小说索引页

url_text = "http://www.88dushu.com/xiaoshuo/2/2392/"  # 小说主页面，后面还需加上每一章的链接

page = range(174, 294)  # 第三部是174-294页

# 定义第一个函数， 用来爬取每一章的url和章节名

def get_url(url):

    content = requests.get(url).content

    soup = BeautifulSoup(content)

    # 找到每一章所在的位置，都在'li'这个标签

    text = soup.find('div', {'class': 'mulu'}).find('ul').find_all('li')

    urls = []

    titles = []

    for i in page:  # 循环第三部的每一章

        url1 = text[i].find('a').get('href')

        title = text[i].find('a').get_text()

        urls.append(url1)

        titles.append(title)

    #返回链接和章节名

    return urls, titles

# 定义第二个函数，用来得到每一章的内容，并存入TXT文件

def get_text():

    # 从上一个函数获取链接和章节名

    urls, titles = get_url(url)

    # 文本文件设置为追加模式'a'，避免前面的内容被覆盖

    f = open('d:/kuanglong.txt', 'a')

    for i in range(len(urls)):

        url_tt = url_text + str(urls[i])  # 每一章完整的链接

        content = requests.get(url_tt).content

        soup = BeautifulSoup(content)

        # 得到一章的内容

        text = soup.find('div', {'class': 'yd_text2'}).get_text()

        # 将得到的内容清洗，去除广告

        text = text.replace("****[ 请到  六九中文阅读最新章节 ]****", '').replace('[\****/[  六九中文急速更新 ]\****/]', '')\

            .replace('\xa0', '')

        # 章节名 + 章节内容

        texts = titles[i] + text

        # 写入txt文件

        f.write(texts)

    # 循环完之后关闭文件句柄

    f.close()

# 运行程序

if __name__ == '__main__':

    get_text()

获取文档链接

for link in soup.find_all('a'):

    print(link.get('href'))

    # http://example.com/elsie

    # http://example.com/lacie

    # http://example.com/tillie

获取文档文字内容

print(soup.get_text())

# The Dormouse's story

#

# The Dormouse's story

#

# Once upon a time there were three little sisters; and their names were

# Elsie,

# Lacie and

# Tillie;

# and they lived at the bottom of a well.

#

# ...

慢不要快，稳才是对的。

Beautifusoup的更多相关文章

爬虫实例之使用requests和Beautifusoup爬取糗百热门用户信息
这次主要用requests库和Beautifusoup库来实现对糗百的热门帖子的用户信息的收集,由于糗百的反爬虫不是很严格,也不需要先登录才能获取数据,所以较简单. 思路,先请求首页的热门帖子获得用户 ...
BeautifuSoup的使用
BeautifulSoup是一个模块,该模块用于接收一个HTML或XML字符串,然后将其进行格式化,之后遍可以使用他提供的方法进行快速查找指定元素,从而使得在HTML或XML中查找指定元素变得简单.
爬虫工具--Beautifusoup
import requests from bs4 import BeautifulSoup s=requests.Session() r=s.get('https://www.tumblr.com/l ...
【转】Python练习，网络爬虫框架Scrapy
一.概述下图显示了Scrapy的大体架构,其中包含了它的主要组件及系统的数据处理流程(绿色箭头所示).下面就来一个个解释每个组件的作用及数据的处理过程. 二.组件 1.Scrapy Engine(S ...
python Scrapy安装和介绍
python Scrapy安装和介绍 Windows7下安装1.执行easy_install Scrapy Centos6.5下安装 1.库文件安装yum install libxslt-devel ...
爬虫：把廖雪峰的教程转换成 PDF 电子书
写爬虫似乎没有比用 Python 更合适了,Python 社区提供的爬虫工具多得让你眼花缭乱,各种拿来就可以直接用的 library 分分钟就可以写出一个爬虫出来,今天就琢磨着写一个爬虫,将廖雪峰的 ...
利用python设计PDF报告，jinja2，whtmltopdf，matplotlib，pandas
转自:https://foofish.net/python-crawler-html2pdf.html 工具准备弄清楚了网站的基本结构后就可以开始准备爬虫所依赖的工具包了.requests.beau ...
Scrapy 爬虫入门 +实战
爬虫,其实很早就有涉及到这个点,但是一直没有深入,今天来搞爬虫.选择了,scrapy这个框架 http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tut ...
Scrapy架构及其组件之间的交互
最近在学Python,同时也在学如何使用python抓取数据,于是就被我发现了这个非常受欢迎的Python抓取框架Scrapy,下面一起学习下Scrapy的架构,便于更好的使用这个工具. 一.概述下 ...

随机推荐

Mac下最好用的文本编辑器
友情提醒:图多杀猫. 曾经在Windows下一直用gVim.能够用键盘控制一切,操作起来是又快又爽,还支持一大堆插件.想怎么玩就怎么玩.后来转Mac后,也沿袭着之前的习惯.一直在用终端的Vim.偶尔会 ...
SPDY
转载SPDY 是什么 SPDY 是 Google 开发的基于传输控制协议 (TCP) 的应用层协议 ,开发组正在推动 SPDY 成为正式标准(现为互联网草案).SPDY 协议旨在通过压缩.多路复用和优 ...
关于Java中的toString()方法
package c07; class ewq{ public String toString() { return "ppppppppp"; } public static voi ...
查看hive的配置信息
在启动hive时设置配置属性信息 $ bin/hive --hiveconf <property=value> 查看当前所有的配置信息 hive > set ; hive (db_h ...
002-unity3d插件使用
一.导入第三方的工具包(.unitypackage文件) 1.NGUI项 NGUI是一款收费的插件,在Asset Store中大家可以看到价格.在未购买正版的前提下我们可以通过两种方法来使用NGUI, ...
STL之内存处理工具
STL处理内存主要是使用五个全局函数construct,deconstruct,construct实现: template<typename T1,tyname T2> void cons ...
spring 登录提示 Bad credentials
spring 日志输出:Authentication failed: password does not match stored value in spring security 3.2,检查密码发 ...
corethink功能模块探索开发（一）根据已有模块推测目录结构
corethink是opencmf的一个开源版本,如果自己要进行二次开发,开发模块等,需要在官方开一个中级会员(50大洋吧),官网的一个“一键生成demo”就能给你最基础的目录结构,从而可以在此基础上 ...
Charles安装与使用
Charles是在 Mac 下常用的网络封包截取工具,在做移动开发时,我们为了调试与服务器端的网络通讯协议,常常需要截取网络封包来分析. Charles 通过将自己设置成系统的网络访问代理服务器,使 ...
Java底层代码实现单文件读取和写入（解决中文乱码问题）
需求: 将"E:/data/车站一次/阿坝藏族羌族自治州.csv"文件中的内容读取,写入到"E:/data//车站一次.csv". 代码: public cla ...

Beautifusoup

Beautifusoup的更多相关文章

随机推荐

热门专题