python爬取b站排行榜视频信息

和上一篇相比，差别不是很大

 import xlrd#读取excel

 import xlwt#写入excel

 import requests

 import linecache

 import wordcloud

 import jieba

 import matplotlib.pyplot as plt

 from bs4 import BeautifulSoup

 if __name__=="__main__":

     f = xlwt.Workbook(encoding='utf-8') #创建工作簿

     sheet1 = f.add_sheet(u'sheet1') #创建sheet

     row0 = [u'ID',u'name',u'av',u'play_num',u'comment_num']

     #生成第一行

     for i in range(0,len(row0)):

         sheet1.write(0,i,row0[i])

     yun=""

     n=0#ID编号

     target='https://www.bilibili.com/ranking/all/160/0/3'#b站

     user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36'

     headers = {'User-Agent':user_agent}

     req=requests.get(url=target)

     html=req.text

     html=html.replace('<br>',' ').replace('<br/>',' ').replace('/>','>')

     bf=BeautifulSoup(html,"html.parser")   

     texts=bf.find('ul',class_='rank-list')

     texts_div=texts.find_all('div',class_='info')

     #print(texts_div)

     for item in texts_div:

         n=n+1

         item_name=item.find('a').text#标题

         yun+=str(item_name)

         item_href=item.find('a')['href']#链接

         h=item_href.rfind('/')

         item_href=item_href[h+1:]

         item_refer=item.find_all('span',class_='data-box')

         item_refer1=item_refer[0].text

         item_refer2=item_refer[1].text

         #print('{} {} {} {}\n'.format(item_name,item_href,item_refer1,item_refer2))

         mid=[n,item_name,item_href,item_refer1,item_refer2]

         #print(mid)

         for i in range(len(row0)):#写入excel

             sheet1.write(n,i,mid[i])

     f.save('demo1.xls') #保存文件

     # 结巴分词，生成字符串，wordcloud无法直接生成正确的中文词云

     cut_text = " ".join(jieba.cut(yun))

     wc = wordcloud.WordCloud(

     #设置字体，不然会出现口字乱码，文字的路径是电脑的字体一般路径，可以换成别的

     font_path="C:/Windows/Fonts/simfang.ttf",

     #设置了背景，宽高

     background_color="white",width=1000,height=880).generate(cut_text)

     plt.imshow(wc, interpolation="bilinear")

     plt.axis("off")

     plt.show()

     print("Done!")

python爬取b站排行榜视频信息的更多相关文章

python爬取b站排行榜
爬取b站排行榜并存到mysql中目的 b站是我平时看得最多的一个网站,最近接到了一个爬虫的课设.首先要选择一个网站,并对其进行爬取,最后将该网站的数据存储并使其可视化. 网站的结构目标网站:bil ...
爬取b站互动视频信息
首先分辨视频是不是互动视频可以看 https://api.bilibili.com/x/player.so?id=cid:1&aid=89017 这个api返回的xml中的 <inter ...
Python爬取B站视频信息
该文内容已失效,现已实现scrapy+scrapy-splash来爬取该网站视频及用户信息,由于B站的反爬封IP,以及网上的免费代理IP绝大部分失效,无法实现一个可靠的IP代理池,免费代理网站又是各种 ...
用Python爬取B站、腾讯视频、爱奇艺和芒果TV视频弹幕！
众所周知,弹幕,即在网络上观看视频时弹出的评论性字幕.不知道大家看视频的时候会不会点开弹幕,于我而言,弹幕是视频内容的良好补充,是一个组织良好的评论序列.通过分析弹幕,我们可以快速洞察广大观众对于视频 ...
萌新学习Python爬取B站弹幕+R语言分词demo说明
代码地址如下:http://www.demodashi.com/demo/11578.html 一.写在前面之前在简书首页看到了Python爬虫的介绍,于是就想着爬取B站弹幕并绘制词云,因此有了这样 ...
爬虫---爬取b站小视频
前面通过python爬虫爬取过图片,文字,今天我们一起爬取下b站的小视频,其实呢,测试过程中需要用到视频文件,找了几个网站下载,都需要会员什么的,直接写一篇爬虫爬取视频~~~ 分析b站小视频 1.进入 ...
使用python爬取MedSci上的期刊信息
使用python爬取medsci上的期刊信息,通过设定条件,然后获取相应的期刊的的影响因子排名,期刊名称,英文全称和影响因子.主要过程如下: 首先,通过分析网站http://www.medsci.cn ...
python爬取当当网的书籍信息并保存到csv文件
python爬取当当网的书籍信息并保存到csv文件依赖的库: requests #用来获取页面内容 BeautifulSoup #opython3不能安装BeautifulSoup,但可以安装Bea ...
Python爬取b站任意up主所有视频弹幕
爬取b站弹幕并不困难.要得到up主所有视频弹幕,我们首先进入up主视频页面,即https://space.bilibili.com/id号/video这个页面.按F12打开开发者菜单,刷新一下,在ne ...

随机推荐

LibreOJ #517. 「LibreOJ β Round #2」计算几何瞎暴力
二次联通门 : LibreOJ #517. 「LibreOJ β Round #2」计算几何瞎暴力 /* LibreOJ #517. 「LibreOJ β Round #2」计算几何瞎暴力叫做计算几 ...
javascript使用history api防止|阻止页面后退
奇葩需求啥时候都会有,最近有个需求是不允许浏览器回退,但是所有页面都是超链接跳转,于是乎脑壳没转弯就回答了做不到,结果尼玛被打脸了,这打脸的声音太响,终于静下心来看了下history api. 先上代 ...
JS实现Base64编码、解码，即window.atob，window.btoa功能
window.atob(),window.btoa()方法可以对字符串精选base64编码和解码,但是有些环境比如nuxt的服务端环境没法使用window,所以需要自己实现一个base64的编码解码功 ...
Mac下Pycharm中升级pip失败，通过终端升级pip
使用 Pycharm 使,需要下载相关的第三方包,结果提示安装失败,提示要升级 pip 版本,但是通过 Pycharm 重新安装却失败,原因可能是出在通过 Pycharm 时升级 pip 是没有权限的 ...
Flume（一） —— 启动与基本使用
基础架构 Flume is a distributed, reliable(可靠地), and available service for efficiently(高效地) collecting, a ...
第10组Alpha冲刺（1/4）
队名:凹凸曼组长博客作业博客组员实践情况童景霖过去两天完成了哪些任务文字/口头描述学习Android studio和Java,基本了解APP前端的制作完善项目APP原型展示GitHu ...
idea docker docker-compose发布springboot站点到tomcat
允许docker被远程访问见:https://www.cnblogs.com/wintersoft/p/10921396.html 教程:https://spring.io/guides/gs/sp ...
从安装PHP到第一个tomcat执行的hello world其实没那么难
001 初入门的朋友问我为什么她的PHP老是不能安装运行成功,作为一个乐(shi)于(li)助(liao)人(mei)的半程序员, 自然是要好好研究然后手把手教妹纸了! 002 话不多说,进入正题为 ...
vue---splitpane分割
使用splitpane可以对窗口进行拆分,这个splitpane组件还是比较好用的, 首先安装: npm install vue-splitpane 引入使用: import splitPane fr ...
爬虫urllib2 的异常错误处理URLError和HTTPError
urllib2 的异常错误处理在我们用urlopen或opener.open方法发出一个请求时,如果urlopen或opener.open不能处理这个response,就产生错误. 这里主要说的是U ...

python爬取b站排行榜视频信息

python爬取b站排行榜视频信息的更多相关文章

随机推荐

热门专题