Python之py9-py9博客情况获取

#!/usr/bin/env python

# -*- coding:utf-8 -*-

import os

import re

import datetime

import requests

url_name_str='''朱子超  https://www.cnblogs.com/heroknot/

赵嘉豪 https://www.cnblogs.com/zhoajiahao/

巩景云 https://www.cnblogs.com/gongjingyun123--/

李琦 https://www.cnblogs.com/1naonao/

潘立府 https://www.cnblogs.com/plf-Jack/

胡凯琴 https://www.cnblogs.com/863652104kai/

雷俊 https://www.cnblogs.com/lucky75/

刘闯 https://www.cnblogs.com/miaowugulu/

毛毅智 https://www.cnblogs.com/acate/

葛林丽 https://www.cnblogs.com/geyatou322/

朱缘应 https://www.cnblogs.com/zhuyuanying123--/

雷鸣 https://www.cnblogs.com/leimingqq2/

赵刚 https://www.cnblogs.com/zhaogang0104/

吴锡 https://www.cnblogs.com/ZDQ1/

张岩 https://www.cnblogs.com/zuihoudebieli/

高化焱 https://www.cnblogs.com/gaohuayan/

孔凡平 https://www.cnblogs.com/WilliamKong94/

王强 https://www.cnblogs.com/bruce123/

杨文益 https://www.cnblogs.com/pythonywy/

伍开日 https://www.cnblogs.com/clarence203/

朱竹平 https://www.cnblogs.com/Hades123/

周瑞星 https://www.cnblogs.com/zrx19960128/

许长义 https://www.cnblogs.com/xcyandwxl/

储皖浏 https://www.cnblogs.com/chuwanliu/

陈石 https://www.cnblogs.com/chencharry/

徐浩 https://www.cnblogs.com/einsam/

吴奇宇 https://www.cnblogs.com/blog5434/

张天承 https://www.cnblogs.com/bladecheng/

赵志强 https://www.cnblogs.com/wsxiaoyao/

朱健 https://www.cnblogs.com/masterjian924/

魏义军 https://www.cnblogs.com/Dr-wei/

曹降祥 https://www.cnblogs.com/fengxuemuyangren/

陈跃春 https://www.cnblogs.com/chenych/

黄云 https://www.cnblogs.com/yellowcloud/

段力钢 https://www.cnblogs.com/raynduan/

刘金 https://www.cnblogs.com/itboy-newking/

'''

def get_name_url_dict():

    """读取文件"""

    if not os.path.exists('博客地址.txt'):

        with open('博客地址.txt', 'w', encoding='utf8') as fw:

            fw.write(url_name_str)

            fw.flush()

            print('写入文件成功...')

    with open('博客地址.txt', 'r', encoding='utf8') as fr:

        name_urls = fr.readlines()

    name_url_dict = dict()

    for name_url in name_urls:

        name_url_split = name_url.split()

        name = name_url_split[0]

        url = name_url_split[1]

        name_url_dict[name] = url

    print(f'同学数：{len(name_url_dict)}')

    return name_url_dict

def request_next_url_data(next_url, url_list):

    """请求下一个网页"""

    next_response = requests.get(next_url)

    next_data = next_response.text

    next_url_list = re.findall('href="(.*?)">(.*?)</a>', next_data)

    url_list.extend(next_url_list)

    re_next_url = re.findall('<a href="(https://www.cnblogs.com/.{0,30}/default\.html\?page=\d+)">下一页</a>', next_data)

    if re_next_url:

        re_next_url = re_next_url[0]

        request_next_url_data(re_next_url, url_list)

    return url_list

def for_every_name_urls(name_url_dict):

    """循环爬取所有人的博客信息"""

    s_sum = ''

    for name, home_url in name_url_dict.items():

        # 拼接主页

        s_sum = f'{s_sum}{name} {home_url}\n'

        print(name, home_url)

        # 获取第一页的内容

        response = requests.get(home_url)

        data = response.text

        url_list = re.findall('href="(.*?)">(.*?)</a>', data)

        # 判断是否存在下一页

        next_url = re.findall('[^;]<a href="(https://www.*?/default\.html\?page=\d+)">下一页</a>', data)

        if next_url:

            next_url = next_url[0]

            url_list = request_next_url_data(next_url, url_list)

        # 去重处理

        url_set = set()

        for url in url_list:

            if url[0].startswith(f'{home_url}p/') and url[0].endswith('html'):

                url_set.add(url)

        print(url_set)

        for url in url_set:

            s = f'{name} {url[0]} {url[1]}'

            s_sum = f'{s_sum}{s}\n'

        s_sum = f'{s_sum}\n'

    return s_sum

def save_file(s_sum):

    day_time = str(datetime.datetime.now()).split(' ')[0]

    f = open(f'{day_time}-py9博客情况汇总.txt', 'w', encoding='utf8')

    f.write(s_sum)

    f.close()

if __name__ == '__main__':

    name_url_dict = get_name_url_dict()

    s_sum = for_every_name_urls(name_url_dict)

    print(s_sum)

    save_file(s_sum)

Python之py9-py9博客情况获取的更多相关文章

python实现文章或博客的自动摘要(附java版开源项目)
python实现文章或博客的自动摘要(附java版开源项目) 写博客的时候,都习惯给文章加入一个简介.现在可以自动完成了!TF-IDF与余弦相似性的应用(三):自动摘要 - 阮一峰的网络日志http: ...
用python爬虫监控CSDN博客阅读量
作为一个博客新人,对自己博客的访问量也是很在意的,刚好在学python爬虫,所以正好利用一下,写一个python程序来监控博客文章访问量效果代码会自动爬取文章列表,并且获取标题和访问量,写入exc ...
Python课程设计搭建博客
安装包Github地址 Python综合设计 233博客注意还有个email文件是需要填入自己信息的,比如最高权限账号和要发送邮件的账号密码请安装Python2.7环境,本服务器所用环境为设置环 ...
python抓取51CTO博客的推荐博客的全部博文，对标题分词存入mongodb中
原文地址: python抓取51CTO博客的推荐博客的全部博文,对标题分词存入mongodb中
Python爬取CSDN博客文章
0 url :http://blog.csdn.net/youyou1543724847/article/details/52818339Redis一点基础的东西目录 1.基础底层数据结构 2.win ...
python+selenium之悠悠博客学习笔记
1 Python之自动化测试框架selenium学习 offical website 悠悠之selenium浅谈·博客园悠悠软件测试系列 1.1 基础环境准备 1.1.1 python包下载工具的安 ...
Python 爬取CSDN博客频道
初次接触python,写的很简单,开发工具PyCharm,python 3.4很方便 python 部分模块安装时需要其他的附属模块之类的,可以先 pip install wheel 然后可以直接下载 ...
使用原生 python 造轮子搭建博客
这篇用来记录一个从零开始的博客搭建,希望坚持下去,因为python 开发效率令人发指,所以会原生从零写 ORM ,Web 框架前提是打好异步 io 的基础, 使用异步,有一点要谨记,一旦开始 ...
用Python给你的博客加上水印
之前写的博客里面用到的图片都没有加水印,今天才在别的网站上发现自己的博客居然一个字不动的出现在了别人的文章里,而且还不标注出处,简直醉了. 其实博客这种东西讲真我是很愿意让别人看得,因为自己写的也比较 ...
Python 通用爬虫和讯博客 scrapy
目标站点需求分析通用爬虫,获取和讯博客所有博文涉及的库 scrapy,re,requests,mysql URL RULE 解析单页源码保存到数据库结果

随机推荐

【ActiveJdbc】01 入门
官方快速上手文档: https://javalite.io/activejdbchttps://javalite.io/getting_started 完整介绍: https://javalite.i ...
【JS】07 JS对象
所有事物都是对象 JavaScript 提供多个内建对象,比如 String.Date.Array 等等. 对象只是带有属性和方法的特殊数据类型. 布尔型可以是一个对象. 数字型可以是一个对象. 字符 ...
从.net开发做到云原生运维(五)——云原生时代绕不开的Kubernetes
1. 前言前面的几篇文章主要是讲.net技术栈里的web开发技术,只是单纯的开发,从一个简单的项目到最后的打包成镜像进行分发. Kubernetes算是开启了一个新时代. 2. Kubernetes ...
全球2023年自然科学指数（Nature Index），各单位排名表
地址: https://www.nature.com/nature-index/annual-tables/2023/institution/all/all/global 自然科学指数(Nature ...
gpg 密钥的导入、导出
参考: gpg 密钥生成.导入.导出.自动输入密码 How do I delete secret subkeys correctly? 注意: 本文不对GPG的操作做详细介绍,有深入了解者自行参考:g ...
亲测可用的 Linux（Ubuntu18.04下）可运行的超级玛丽奥（gym-super-mario-bros）游戏的仿真环境—————————可用于强化学习算法的游戏模拟器环境
与前文中的俄罗斯方块游戏一样都是可以用于强化学习算法的游戏模拟器,这里介绍的是超级玛丽奥(gym-super-mario-bros)游戏的仿真环境. Python库,代码地址: https://git ...
白鲸调度系统助力国内头部券商打造国产信创化 DataOps 平台
导读国内某头部券商是国内排名前三的全国性大型综合证券公司.作为证券行业领头羊之一,该券商一直高度重视核心系统的自主可控以及网络信息安全.早些时候,其已经完成了信创化数据库改造和OA系统适配,接下来的 ...
使用一次sql请求，返回分页数据和总条数
日常搬砖,总少不了需要获取分页数据和总行数. 一直以来的实践是编码两次sql请求,分别拉分页数据和totolCount. 最近我在思考: 常规实践为什么不是在一次sql请求中中执行多次sql查询或多 ...
零基础学习人工智能—Python—Pytorch学习（七）
前言本文主要讲神经网络的下半部分. 其实就是结合之前学习的全部内容,进行一次神经网络的训练. 神经网络下面是使用MNIST数据集进行的手写数字识别的神经网络训练和使用. MNIST 数据集,是一个 ...
虚拟文件系统VFS-片段一
文件系统类型基于磁盘的文件系统如FAT.EXT4 虚拟文件系统如proc 网络文件系统顾名思义,网络文件系统还将网络通信封装起来,这意味可以直接通过通信访问另一台设备的文件系统. man fs ...

Python之py9-py9博客情况获取

Python之py9-py9博客情况获取的更多相关文章

随机推荐

热门专题