1. 什么是Requests?

  Requests是用Python语言编写的,基于urllib3来改写的,采用Apache2 Licensed 来源协议的HTTP库。

  它比urllib更加方便,可以节约我们大量的工作,完全满足HTTP测试需求。

  一句话---Python实现的简单易用的HTTP库。

2. 什么是Beausoup?

 Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。

Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。

Beautiful Soup已成为和lxml、html6lib一样出色的python解释器,为用户灵活地提供不同的解析策略或强劲的速度。
3. 爬取17k网站小说内容。

首先,导入request库和Beausoup库

import requests
from bs4 import BeautifulSoup

构建一个最简单的GET请求,请求的链接为https://www.17k.com/chapter/2932117/36683845.html,该网站会判断如果客户端发起的是GET 请求的话,他返回相应的请求信息:

import requests
from bs4 import BeautifulSoup r=requests.get("https://www.17k.com/chapter/2932117/36683845.html")

将编码方式强制转换成utf-8,否则输出的中文会出现乱码

r.encoding='utf-8'

创建 beautifulsoup 对象

result=r.text
soup=BeautifulSoup(result,'html.parser')

soup对象里面存储的是网站的html源码,然后我们需要分类选择需要的数据和内容

name=soup.find_all('p')
for i in name:
print(i.string)

源代码:

import requests
from bs4 import BeautifulSoup r=requests.get("https://www.17k.com/chapter/2932117/36683845.html")
r.encoding='utf-8'
result=r.text
soup=BeautifulSoup(result,'html.parser') name=soup.find_all('p')
for i in name:
print(i.string)

运行结果:

G:\Python\python.exe H:/PyCharm5.0/Projects/Draw/.idea/zhaopin.py
好多人都向我打听过一个问题,为什么我那七十多岁被查出患了肝癌晚期的爷爷,居然能活过85岁?
原因说出来没人信。
因为我家养了九条龙。
九龙聚气,锁阳归一。爷爷曾经对我说,家里镇着九条龙,就是阎王爷也不敢上门锁魂。
爷爷养的当然不是真龙,而是一种热带风水鱼,叫龙鱼。
89年,爷爷在县城开办了第一家观赏鱼店,这九条“鱼爷”就是那时候进入我家的,爷爷花了半个月时间,在老家地窖打了一口鱼池安置它们。
九十年代谁家都不富裕,爷爷养鱼却舍得下血本,供着几条鱼爷当宝贝,谁都不能靠近,也不准碰。
七岁那年,我正跟几个小伙伴蹲在门口玩石子,远远看见逛完集市的爷爷背着一篓河鲜回家,我馋得直流口水,问他是不是能改善伙食了?
爷爷让我滚犊子。
一背篓河鲜,爷爷自己不吃,也舍不得给我吃,全都喂那九条“鱼爷”。同村几个小伙伴都嘲笑我,说我不是爷爷亲生的,家里有好东西,宁愿喂鱼都不给我。
我为这事嫉恨上了,当晚趁爷爷睡着之后偷了家里的鱼竿潜入地窖,用大铁钩子穿上鱼饵,远远丢进鱼池。
龙鱼闻到腥味,在水池中搅动水浪,蹿起半米多高,抢食的动作倒真有几分“跃龙门”的气势,巨嘴一张,含着鱼饵落水,又是一阵浪花翻腾。
我抓紧鱼线一拽,绷紧的鱼线带出了血丝,龙鱼吃痛,水中扑腾了几下,搅动一片水花,咕噜噜冒着血沫泡泡。
可算出了口恶气!
我正得意,谁知绷紧的鱼线却涌来一股怪力,这龙鱼被我爷爷养的又壮又肥,我被反拽着往前一扑,脑门磕在台阶上,挣扎着爬起,一模额头,全是血。
我磕痛了就坐在地上大哭,没等干嚎出几声,水池中“哗啦啦”巨浪翻涌,九条“鱼爷”全都拱起脖子,把脑袋探出水面瞪我。
那鱼眼珠子,红得渗血,比电灯泡子还要亮。
我分明感受到它们眼神中传递的愤怒,仿佛在质问我。
这鱼成精了!
我吓傻了转身就跑,一回头却撞在正赶来的爷爷身上,“你个兔崽子作什么死?”
他同样阴沉着脸看我,眼珠子和鱼眼睛一样,红得吓人,能够挤出血来。
我眼前一黑,吓晕了。
醒来时,我已经躺在医院。
我发了高烧,在医院打了一整天吊瓶,不仅高烧没退,反而烧得更迷糊了。只要一闭眼睛,我就做恶梦,梦见自己被泡在大鱼池里,四周一片漆黑,几双血糊糊的眼睛在水下瞪着我,直到我吓醒。
醒来时,我烧得更重了。感觉脑门奇痒难耐,一摸额头,又滑又腥,拿镜子一照,脑门上居然长出了一片片块状的鱼鳞,鱼鳞下长满燎泡,一个个肉疙瘩爬满整张脸。
治了几天,我额头上的鱼鳞和肉疙瘩却越长越多,高烧逼近42度,医生下了病危通知书,通知家里人早做准备。
住院第七天,家人已经不抱希望了,高烧下的我只能躺在病床上等死,忍受不断重复的怪梦煎熬。
可病危通知书下达的第二天,爷爷却出现在了病房。他二话没说,用一张草席子卷着我,扛起来就往老家跑。二叔跟在后面追,说你抱着孩子跑什么?他病得这么重,不能离开医院。
爷爷头也没回,“老子就是要带他去治病!”
爷爷扛着我回了老家,刚进地窖,就把我狠狠摔在地上,不顾我哇哇大哭,指着水花沸腾鱼池的鱼池喊道,“跪下,磕头!”
我不仅被爷爷逼着给鱼磕了头,而且还焚香祭拜,认了那九条“鱼爷”当干爹,祭拜完“鱼爷”,爷爷从水池中勺了一碗水给我喝。
说也奇怪,我喝完之后呼呼大睡,这怪病第二天就好了。
十八岁那年,我高中毕业,光荣落榜,爷爷便将自己经营的观赏鱼店让给了让我,自己一个人鳏居在祖宅里过活。
经营了几年观赏鱼店,生意马马虎虎,这天我刚要收市关门,村长却跑来告诉我,说我爷爷病倒了,让我赶紧回家去看。
我住的地方在县城,距离老家十几里地,赶紧联系了二叔三叔,披星戴月赶回老家。
爷爷的确病了,生命已到弥留之际,一个人孤零零地睡在老家地窖,身边不远就是他养鱼的池子。
地窖里没有灯,点了几根蜡烛,烛头上的火苗跳跃,昏黄的火苗即将燃烧到尾声。
发黄的被窝里面有一个风烛残年的老头,头发是雪白的,皮肤松弛,一脸黑黄色的老人褐斑,两眼无神。这就是我爷爷,一个接近死亡的老人。
“爷,你怎么忽然病成这样?上星期不还好好的吗?”我上前抓着爷爷的手,眼泪禁不住就留下来了。
我父母早亡,是爷爷把我带大的,老爷子性情古板,却和我最亲。
二叔也急坏了,说老爷子病成这样怎么还睡地窖?湿气这么大,换谁受得了,赶紧的,老三你来帮忙,咱们带老爷子上医院!
听见二叔的话,爷爷睁开浑浊的眼珠,嗓子眼卡着一口痰,声音嘶哑,“不用了,鱼要死了,我也不能活。”
我看向水池里那九条“鱼爷”,全都挺着大白肚子,翻身浮在水面上,脑袋栽进水面,半天不见游动,和我爷爷一样,都走到了生命的最后关头。
二叔直跺脚,“老爷子,鱼是鱼,人是人,不能因为鱼死了,人就不治了啊!”
爷爷捂着胸口剧烈地喘着,几分钟后咳出一口浓痰,才在小叔搀扶下坐起来,居然气顺了好多,“我的命,我自己知道,十几年前查出肝癌就该走了,是靠家里这九条龙爷抬着我,才能不被阎王老子勾魂,现在,鱼爷老了,抬不动我了,它们这一走,阎王老子就要上门啦。”
二叔道,“爸,你乱讲啥?这些疯言疯语可不能让别人听到!”
爷爷虚弱地喘,说你在县里当官了,是怕别人说你有个搞封建迷信的老爹,扯你后腿是不?
二叔没敢接茬。
爷爷没看他,颤颤巍巍地伸手,拉着我说,“伢子,你从小体弱多病,这些年,都靠这九位‘干爹’抬着你,才能安稳渡日啊,承了人家这么大份人情,你也送它们一送?”
我说爷,鱼先别管了,我们送你去医院好不好?
“不行!”风烛残年的爷爷不知道从哪儿来这么大力气,忽然站起来,硬按着我,要我给鱼磕头。
我犟不过,只能跪下,把头磕了。
他蹲在鱼池边上,颤颤巍巍地把手伸到水下搅动,有条细得跟麻绳一样的黑影蹿起来,在爷爷手背上蹭了几下,我定睛去看,发现是一条龙鱼的幼崽,还不到五公分。
我说爷,这是九位“鱼爷”留下来的幼崽?
爷爷满脸的褶子肉皱成一堆,笑了笑,说是啊,我快走了,没有精力照顾它,现在我把它留给你,能养成什么样就看你的造化了!
我含着泪,说好,这条鱼给我照顾,我等它养大了再还给你。
爷爷挣扎着坐回病榻,“我不行了,这条鱼,是我最后给你留下来的财产,你一定要好好……好好……”
他忽然喘息得厉害,一口气提不上来,倒回床上,胸口一起一伏,同时那九条“鱼爷”也在水中扑腾了一下,大白肚子一翻,都飘了起来。
“你们把人守住,我去请医生!”二叔撒腿就往外跑,我顾不上再看鱼,赶紧和小叔把爷爷抬回床上。
爷爷的呼吸渐渐微弱下去,小叔也哽咽了。
地窖里静悄悄的,只有爷爷微弱捣气的声音。三叔忽然站起来,让我好好守着爷爷,我问他干嘛去?
小叔背对着我说,“你爷爷上个月已经托人打好了棺材,我……我去帮他布置布置。”
烛火微晃,回头时,我发现爷爷的脸没有血色了,淡淡地“嗯”了一声。
三叔离开了,他走的匆忙,忘记把门带上,冷风呼呼刮着,打着气旋飘进地窖里,蜡烛毫无征兆地灭掉,视线一下陷入漆黑。
我赶紧冲过去摸打火机,火星子一闪,重新点亮蜡烛,墙上却投射出一道被拉长的人影。
我回头时,看见爷爷居然站在门口。
他表情木讷地对我挥手,我赶紧说,“爷你怎么起来了?快躺下啊你!”
爷爷没说话,木然转身,走出了地窖。
“爷,你别乱走!”我后脚跑出屋,没看见爷爷去哪儿,正奇怪,二叔已经领着医生走进了小院,老远看见我,他跑过来问我怎么不守好老爷子?
我指像爷爷离开的方向,说我爷刚走出去了。
二叔脸皮一抖,说你胡说八道什么啊,人不还在床上躺着吗?
啊?
我回头,果然看见爷爷还平躺在床上,心里一突突。
那刚才走出去的人影是……
“爹呀!”
二叔推开我,脸色发白地走到病榻前,一探鼻息,回头对我喊道,“快叫你小叔,你爷没了!”
我双肩一抖,脸顿时就青了。
这么说,我刚才看见的,是爷爷离开的魂儿?
None
None
None
None
None
None
None
None
None
None
None
None
None
None
None
None
None
None
None
None
None
None
None
None
None
None
None
None
None
None
None
None

进程已结束,退出代码0

利用python的requests和BeautifulSoup库爬取小说网站内容的更多相关文章

  1. 利用Python3的requests和re库爬取猫眼电影笔记

    以下笔记,作为参考借鉴,如有疑问可以联系我进行交流探讨! 代码思路很简单,简单概括为:   首先利用requests的get方法获取页面的html文件,之后对得到的html文件进行相对应的正则处理,然 ...

  2. 03:requests与BeautifulSoup结合爬取网页数据应用

    1.1 爬虫相关模块命令回顾 1.requests模块 1. pip install requests 2. response = requests.get('http://www.baidu.com ...

  3. 初次尝试python爬虫,爬取小说网站的小说。

    本次是小阿鹏,第一次通过python爬虫去爬一个小说网站的小说. 下面直接上菜. 1.首先我需要导入相应的包,这里我采用了第三方模块的架包,requests.requests是python实现的简单易 ...

  4. Python实战项目网络爬虫 之 爬取小说吧小说正文

    本次实战项目适合,有一定Python语法知识的小白学员.本人也是根据一些网上的资料,自己摸索编写的内容.有不明白的童鞋,欢迎提问. 目的:爬取百度小说吧中的原创小说<猎奇师>部分小说内容 ...

  5. python爬虫学习之使用BeautifulSoup库爬取开奖网站信息-模块化

    实例需求:运用python语言爬取http://kaijiang.zhcw.com/zhcw/html/ssq/list_1.html这个开奖网站所有的信息,并且保存为txt文件和excel文件. 实 ...

  6. 利用requests, beautifulsoup包爬取股票信息网站

    这是第一次用requests, beautifulsoup实现爬虫,此次爬取的是一个股票信息网站:http://www.gupiaozhishi.net.cn. 实现非常简单,只是为了demo使用的数 ...

  7. 用python爬取小说章节内容

    在学爬虫之前, 最好有一些html基础, 才能更好的分析网页. 主要是五步: 1.  获取链接 2. 正则匹配 3. 获取内容 4. 处理内容 5. 写入文件 代码如下: #导入相关model fro ...

  8. Golang 简单爬虫实现,爬取小说

    为什么要使用Go写爬虫呢? 对于我而言,这仅仅是练习Golang的一种方式. 所以,我没有使用爬虫框架,虽然其很高效. 为什么我要写这篇文章? 将我在写爬虫时找到资料做一个总结,希望对于想使用Gola ...

  9. $python爬虫系列(2)—— requests和BeautifulSoup库的基本用法

    本文主要介绍python爬虫的两大利器:requests和BeautifulSoup库的基本用法. 1. 安装requests和BeautifulSoup库 可以通过3种方式安装: easy_inst ...

随机推荐

  1. 洛谷:P5072 [Ynoi2015]盼君勿忘

    原题地址:https://www.luogu.org/problem/P5072 题目简述 给定一个序列,每次查询一个区间[l,r]中所有子序列分别去重后的和mod p 思路 我们考虑每个数的贡献.即 ...

  2. 超链接target属性的取值和作用?

    <a>标签的target属性规定在何处打开连接文档 属性值 _black:点击一次打开一个新窗口 _new:始终在同一个新窗口中打开 _self:默认,在当前窗口打开 _parent:在父 ...

  3. parse_args(argsparse):python和命令行之间的交互

    初始化 假设我们创建一个“argp.py”的文件. import argparse # 引入模块 # 建立解析对象 parser = argparse.ArgumentParser() parser. ...

  4. Three Key Points of Success 成功三要素

    Everyone wants to be successful. Today I would like to share three simple key points of success. Num ...

  5. Python实现电子邮件的发送

    利用Python smtplib.SMTP类方法来实现电子邮件的发送. 列举SMTP对象常见的方法: sendmail(from, to ,msg[,mopts,ropts]) :将msg从from发 ...

  6. 解读C#中的正则表达式

    本文摘自LTP.NET知识库. regexp规则类包含在System.Text.RegularExpressions.dll文件中,在对应用软件进行编译时你必须引用这个文件: System.Text. ...

  7. 算法学习之剑指offer(十一)

    一 题目描述 请实现一个函数按照之字形打印二叉树,即第一行按照从左到右的顺序打印,第二层按照从右至左的顺序打印,第三行按照从左到右的顺序打印,其他行以此类推. import java.util.*; ...

  8. 常见PHP危险函数及特殊函数

    PHP代码执行函数 - eval & assert & preg_replace mixed eval ( string $code ) 把字符串 $code 作为PHP代码执行. 很 ...

  9. cmd 环境下载文件的几种方法

    今天渗透测试面试提到cmd下载文件  ,自己只写了js和certutil,还有几种常见的方法自己没想起来 这里记录和总结下 . (自己还是太菜太垃圾.) 0x01 certutil certutil ...

  10. Circle Problem From 3Blue1Brown (分圆问题)

    Background\text{Background}Background Last night, lots of students from primary school came to our c ...