python3爬虫-爬取B站排行榜信息

import requests, re, time, os

category_dic = {

    "all": "全站榜",

    "origin": "原创榜",

    "rookie": "新人榜",

}

day_dic = {1: "日排行榜", 3: "三日排行榜", 7: "周排行榜", 30: "月排行榜"}

all_or_origin_dic = {

    0: "全站",

    1: "动画",

    168: "国创相关",

    3: "音乐",

    129: "舞蹈",

    4: "游戏",

    36: "科技",

    188: "数码",

    160: "生活",

    119: "鬼畜",

    155: "时尚",

    5: "娱乐",

    181: "影视",

}

bangumi_dic = {

    "番剧": 1,

    "国产动画": 4,

}

cinema_dic = {

    "记录篇": 177,

    "电影": 23,

    "电视剧": 11,

}

rookie_dic = {

    0: "全站",

    1: "动画",

    3: "音乐",

    129: "舞蹈",

    4: "游戏",

    36: "科技",

    188: "数码",

    160: "生活",

    119: "鬼畜",

    155: "时尚",

    5: "娱乐",

    181: "影视",

}

BaseDict = {

    "all": all_or_origin_dic,

    "origin": all_or_origin_dic,

    # "bangumi": bangumi_dic,

    # "cinema": cinema_dic,

    "rookie": rookie_dic,

}

dic = {

    "all": 1,

    "origin": 2,

    "rookie": 3,

}

base_path = "D:\图片\\bilibili_ranking"       # 文件保存的位置

def get_url():

    for first in category_dic.keys():

        if first in ["all", "origin", "rookie"]:

            for second in BaseDict.get(first).keys():

                for third in day_dic.keys():

                    url = "https://api.bilibili.com/x/web-interface/ranking?jsonp=jsonp&rid={}&day={}&type={}&arc_type=0&callback=__jp1".format(

                        second, third, dic.get(first))

                    yield url, [first, second, third]

s = requests.Session()

headers = {

    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36",

    "Referer": "https://www.bilibili.com/ranking/all/0/0/3"

}

url_list = get_url()

for url in url_list:

    print("向{}发请求".format(url[0]))

    response = s.get(url=url[0], headers=headers)

    data = response.text.replace('"', "")

    pattern = r'.*?author:(?P<author>.*?),.*?play:(?P<play>.*?),.*?pts:(?P<pts>.*?),.*?title:(?P<title>.*?),'

    result_list = re.findall(pattern, data)

    path = os.path.join(base_path, "{}-{}-{}".format(category_dic.get(url[1][0]),

                                                     rookie_dic.get(url[1][1]) or all_or_origin_dic.get(url[1][1]),

                                                     day_dic.get(url[1][2])))

    f = open(path + ".txt", "a", encoding="utf-8")

    print('正在写入....{}'.format(path + ".txt"))

    for index, res in enumerate(result_list):

        # print("排名：{}".format(index + 1))

        # print("作者：{}".format(res[0]))

        # print("播放量：{}".format(res[1]))

        # print("综合分数：{}".format(res[2]))

        # print("标题：{}".format(res[3]))

        # print("-" * 90)

        f.write("排名：{}\n".format(index + 1))

        f.write("标题：{}\n".format(res[3]))

        f.write("作者：{}\n".format(res[0]))

        f.write("播放量：{}\n".format(res[1]))

        f.write("综合分数：{}\n".format(res[2]))

        f.write("-" * 90 + "\n")

    f.close()

    time.sleep(2)

python3爬虫-爬取B站排行榜信息的更多相关文章

python爬取b站排行榜
爬取b站排行榜并存到mysql中目的 b站是我平时看得最多的一个网站,最近接到了一个爬虫的课设.首先要选择一个网站,并对其进行爬取,最后将该网站的数据存储并使其可视化. 网站的结构目标网站:bil ...
Python爬取B站视频信息
该文内容已失效,现已实现scrapy+scrapy-splash来爬取该网站视频及用户信息,由于B站的反爬封IP,以及网上的免费代理IP绝大部分失效,无法实现一个可靠的IP代理池,免费代理网站又是各种 ...
爬虫---爬取b站小视频
前面通过python爬虫爬取过图片,文字,今天我们一起爬取下b站的小视频,其实呢,测试过程中需要用到视频文件,找了几个网站下载,都需要会员什么的,直接写一篇爬虫爬取视频~~~ 分析b站小视频 1.进入 ...
Node.js爬虫-爬取慕课网课程信息
第一次学习Node.js爬虫,所以这时一个简单的爬虫,Node.js的好处就是可以并发的执行这个爬虫主要就是获取慕课网的课程信息,并把获得的信息存储到一个文件中,其中要用到cheerio库,它可以让 ...
python3爬虫爬取网页思路及常见问题（原创）
学习爬虫有一段时间了,对遇到的一些问题进行一下总结. 爬虫流程可大致分为:请求网页(request),获取响应(response),解析(parse),保存(save). 下面分别说下这几个过程中可以 ...
python3爬虫-爬取58同城上所有城市的租房信息
from fake_useragent import UserAgent from lxml import etree import requests, os import time, re, dat ...
python3 爬虫---爬取糗事百科
这次爬取的网站是糗事百科,网址是:http://www.qiushibaike.com/hot/page/1 分析网址,参数''指的是页数,第二页就是'/page/2',以此类推... 一.分析网页 ...
python3 爬虫---爬取豆瓣电影TOP250
第一次爬取的网站就是豆瓣电影 Top 250,网址是:https://movie.douban.com/top250?start=0&filter= 分析网址'?'符号后的参数,第一个参数's ...
python3 爬虫爬取深圳公租房轮候库（深圳房网）
深圳公租房轮候库已经朝着几十万人的规模前进了,这是截至16年10月之前的数据了,贴上来大家体会下所以17年已更新妥妥的10W+ 今天就拿这个作为爬虫的练手项目 1.环境准备: 操作系统:win10 ...

随机推荐

C++学习笔记(8)----C++类的大小
C++类的大小 (i) 如下代码: #include<iostream> using namespace std; class CBase { }; class CDerive :publ ...
Wasserstein GAN最新进展：从weight clipping到gradient penalty，更加先进的Lipschitz限制手法
前段时间,Wasserstein GAN以其精巧的理论分析.简单至极的算法实现.出色的实验效果,在GAN研究圈内掀起了一阵热潮(对WGAN不熟悉的读者,可以参考我之前写的介绍文章:令人拍案叫绝的Was ...
Oracle 11g 管理工具及SQL Deverloper 的使用教程
Oracle 管理工具及SQL Deverloper 的使用教程默认的网站的管理工具网址格式:https://机器名:1158/em 默认:https://localhost:1158/em 机器 ...
javascript通用代码合集
1.逐一绑定操作到window.onload上 //func:新函数 function addLoadEvent(func){ //把现有的window.onload事件处理函数的值存入变量oldon ...
ASP.NET中的身份验证有那些？你当前项目采用什么方式验证请解释
ASP.NET身份验证模式包括Windows.Forms(窗体).Passport(护照)和None(无). l Windows身份验证—常结合应用程序自定义身份验证使用使用这种身份验证模式时,AS ...
Shell使用手册
1.循环数组 list=(20180531 20180430 20180331 20180228 20180131 20171231 20171130 20171031 20170930 201708 ...
Apache配置支持目录浏览
主配置文件 httpd.conf 中修改: 1)添加支持模块 LoadModule autoindex_module modules/mod_autoindex.so LoadModule dir ...
【重构.改善既有代码的设计】14、总结&读后感
14.总结首先,这是一本太老的书,很多观点已经被固化或者过时了.但核心观点没有问题,虽然大多数观点已经被认为是理所当然的事情了. 重构的定义重构分几种: 1.狭义的代码重构就是本书讲的, ...
Android Studio 动态调试 apk 反编译出的 smali 代码
在信安大赛的准备过程中,主要通过 Android Studio 动态调试 apk 反编译出来的 smali 代码的方式来对我们分析的执行流程进行验证.该技巧的主要流程在此记录.以下过程使用 Andro ...
JavaScript浏览器对象模型（BOM）之history对象
history 对象是 window 对象的属性,它保存着用户上网的记录,从窗口被打开的那一刻算起. 一.history对象的属性可以通过判断 history.length,得到是否有历史记录和记录 ...

python3爬虫-爬取B站排行榜信息

python3爬虫-爬取B站排行榜信息的更多相关文章

随机推荐

热门专题