python 爬虫系列06--古诗文

读书破万卷,下笔如有神

import requests

import re

def parse_page(url):

    headers = {

        'USer-Agent':'user-agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.84 Safari/537.36'

    }

    respose = requests.get(url,headers)

    text = (respose.text)

    titles = re.findall(r'<div\sclass="cont">.*?<b>(.*?)</b>',text,re.DOTALL)

    dynsties = re.findall(r'<p class="source">.*?<a.*?>(.*?)</a>',text,re.DOTALL)

    authors = re.findall(r'<p class="source".*?<a.*?>.*?<a.*?>(.*?)</a>',text,re.DOTALL)

    wenben = re.findall(r'<div class="contson" .*?>(.*?)</div>',text,re.DOTALL)

    peoms = []

    for conter in wenben:

        x = re.sub(r'<.*?>',"",conter)

        peoms.append(x.strip())

    poem2 = []

    for calue in zip(titles,dynsties,authors,wenben):

        titles,dynsties,authors,wenben = calue

        poem = {

            '标题':titles,

            '朝代':dynsties,

            '作者':authors,

            '文本':wenben

        }

        poem2.append(poem)

    for poem in poem2:

        print(poem)

        print('*'*40)

def main():

    #url = 'https://www.gushiwen.org/default_1.aspx'

    for x in range(1,10):

        url = "https://www.gushiwen.org/default_%s.aspx" % x

        x

        parse_page(url)

if __name__ == "__main__":

    main()

python 爬虫系列06--古诗文的更多相关文章

python 爬虫系列教程方法总结及推荐
爬虫,是我学习的比较多的,也是比较了解的.打算写一个系列教程,网上搜罗一下,感觉别人写的已经很好了,我没必要重复造轮子了. 爬虫不过就是访问一个页面然后用一些匹配方式把自己需要的东西摘出来. 而访问页 ...
$python爬虫系列（2）—— requests和BeautifulSoup库的基本用法
本文主要介绍python爬虫的两大利器:requests和BeautifulSoup库的基本用法. 1. 安装requests和BeautifulSoup库可以通过3种方式安装: easy_inst ...
Python爬虫系列 - 初探：爬取旅游评论
Python爬虫目前是基于requests包,下面是该包的文档,查一些资料还是比较方便. http://docs.python-requests.org/en/master/ POST发送内容格式爬 ...
python爬虫系列（2）—— requests和BeautifulSoup
本文主要介绍python爬虫的两大利器:requests和BeautifulSoup库的基本用法. 1. 安装requests和BeautifulSoup库可以通过3种方式安装: easy_inst ...
Python爬虫系列（七）：提高解析效率
如果仅仅因为想要查找文档中的<a>标签而将整片文档进行解析,实在是浪费内存和时间.最快的方法是从一开始就把<a>标签以外的东西都忽略掉. SoupStrainer 类可以定义文 ...
【数量技术宅 | Python爬虫系列分享】实时监控股市重大公告的Python爬虫
实时监控股市重大公告的Python爬虫小技巧精力有限的我们,如何更加有效率地监控信息? 很多时候特别是交易时,我们需要想办法监控一些信息,比如股市的公告.如果现有的软件没有办法实现我们的需求,那么就 ...
Python爬虫系列（三）：requests高级耍法
昨天,我们更多的讨论了request的基础API,让我们对它有了基础的认知.学会上一课程,我们已经能写点基本的爬虫了.但是还不够,因为,很多站点是需要登录的,在站点的各个请求之间,是需要保持回话状态的 ...
Python爬虫系列（一）：从零开始，安装环境
在上一个系列,我们学会使用rabbitmq.本来接着是把公司的celery分享出来,但是定睛一看,celery4.0已经不再支持Windows.公司也逐步放弃了服役多年的celery项目.恰好,公司找 ...
Python 爬虫系列
爬虫简介网络爬虫爬虫指在使用程序模拟浏览器向服务端发出网络请求,以便获取服务端返回的内容. 但这些内容可能涉及到一些机密信息,所以爬虫领域目前来讲是属于灰色领域,切勿违法犯罪. 爬虫本身作为一门技 ...

随机推荐

angular 守卫路由
import { NgModule } from '@angular/core'; import { Routes, RouterModule } from '@angular/router'; im ...
golang 重构博客统计服务
欢迎关注楼主与他的小伙伴们的小站,每周分享一些技术文章,让我们在技术上一起成长------> 戳这里,欢迎光临小站 -_- 作为一个后端开发,在docker,etcd,k8s等新技术不断涌现的今 ...
C#质因子（自己别扭的逻辑。。）
static int length1(int num) //想着要定义一个函数取,质因子数组的长度 { ; ; i <= num; i++) //for循环中I 不会归零只能遍历一次 { if ...
1233: 传球游戏 [DP]
1233: 传球游戏 [DP] 时间限制: 1 Sec 内存限制: 128 MB 提交: 4 解决: 3 统计题目描述上体育课的时候,小蛮的老师经常带着同学们一起做游戏.这次,老师带着同学们一起做 ...
JavaScript 错误监控Fundebug
https://www.fundebug.com/ 等待接收错误请先将Fundebug插件集成到您的应用中测试插件为验证集成是否成功,请在浏览器的控制台执行以下命令: fundebug.noti ...
洛谷P4724 【模板】三维凸包
题面传送门题解先理一下关于立体几何的基本芝士好了--顺便全都是从$xzy$巨巨的博客上抄来的加减三维向量加减和二维向量一样模长 $|a|=\sqrt{x^2+y^2+z^2}$ 点 ...
spring boot 自签发https证书
一.使用Jdk自带的工具生成数字证书,如下: Java代码 ./keytool -genkey -v -alias tomcat -keyalg RSA -keystore /root/tomca ...
【Guava】RateLimiter类
Guava官方文档-RateLimiter类原文链接作者:Dimitris Andreou 译者:魏嘉鹏校对:方腾飞 RateLimiter 从概念上来讲,速率限制器会在可配置的速率下分配许可 ...
Sql Server两个数据库中有一张表的结构一样，怎么快速将一张表中的数据复制到另一个表中
1,下面这句会把表2数据删除,然后把表1复制到表一,两表内容一样 SELECT * into 表2 FROM 表1 2,这句只追加,不删除表2的数据 insert into 表1 select * f ...
Python实现——二次多项式回归(最小二乘法)
2019/3/25 真的,当那个图像出现的时候,我真的感觉太美了. 或许是一路上以来自我的摸索加深的我对于这个模型的感受吧. 二次函数拟合--最小二乘法公式法与线性回归相似,对二次函数进行拟合某种意 ...

python 爬虫系列06--古诗文

python 爬虫系列06--古诗文的更多相关文章

随机推荐

热门专题