• 获取url
  • 设定请求头
  • requests发出get请求
  • 实例化BeautifulSoup对象
  • BeautifulSoup提取数据
import requests
2 from bs4 import BeautifulSoup
3
4 url = "https://s.weibo.com/top/summary"
5 date = {
6 "Refer":"top_hot",
7 "topnav":"1",
8 "wvr":"6"
9 }
10 headers = {
11 "User-Agent":"Mozilla/5.0 (X11; Ubuntu; Linux x86_6 4; rv:81.0) Gecko/20100101 Firefox/81.0"
12 }
13 response = requests.get(url,params = date,headers = headers )
14 content = response.content.decode("utf-8")
15 soup = BeautifulSoup(content,"lxml")
16 tds_list = soup.find_all("td",class_ = "td-02")[1:]
17 event_list = []
18 for td in tds_list:
19 event = td.find_all("a")[0].string
20 hot = td.find_all("span")[0].string
21 sina = {
22 "事件":event,
23 "热度":hot
24 }
25 event_list.append(sina)
26 for event in event_list:
27 print(event)
28 with open("weobohot.txt","w") as f:
29 for event in event_list:
30 f.write(str(event) + "\n"

生成的weohot.txt文件

{'事件': '冯绍峰给赵丽颖的祝福评论被淹了', '热度': '4907890'}
{'事件': '成都大学党委书记毛洪涛的遗体已被找到', '热度': '1643868'}
{'事件': '任嘉伦在发光', '热度': '1635768'}
{'事件': '李玟身材', '热度': '1598868'}
{'事件': '苹果回应不配耳机和充电器', '热度': '1521308'}
{'事件': '胡杏儿首次直播', '热度': '1364689'}
{'事件': '狗仔101', '热度': '1334856'}
{'事件': '复方板蓝根对新冠病毒有效', '热度': '1057010'}
{'事件': '18岁女大学生捐献遗体', '热度': '562891'}
{'事件': '泰国爆发抗议示威活动', '热度': '560373'}
{'事件': '南航回应乘客抠出氧气面罩致延误', '热度': '560244'}
{'事件': '教育部谈体育老师当班主任遭投诉', '热度': '558928'}
{'事件': '游客晕倒遇18名医生救助守护', '热度': '471445'}
{'事件': '中考体育将达到和语数外同分值水平', '热度': '463011'}
{'事件': '4人26天捕鸟8万余只', '热度': '442804'}
{'事件': 'S10门票摇号结果', '热度': '437430'}
{'事件': '喜宝', '热度': '402599'}
{'事件': '凤姐', '热度': '402548'}
{'事件': '韩国献血者中有42人确诊新冠', '热度': '395386'}
{'事件': '军训下雨时袜子没洗干净', '热度': '393559'}
{'事件': '吴中天给杨子姗做9周年视频', '热度': '386616'}
{'事件': '王清远', '热度': '383780'}
{'事件': '青岛此次疫情为医院聚集性疫情', '热度': '382168'}
{'事件': '上海破获首例网红直播带货售假案', '热度': '315914'}
{'事件': '南方菜市场有多贴心', '热度': '281595'}
{'事件': '鹿晗重庆', '热度': '275778'}
{'事件': '龙丹妮收到报备了吗', '热度': '275400'}
{'事件': '原来河狸也会搓澡', '热度': '257896'}
{'事件': '打工人你好狠的心', '热度': '218550'}
{'事件': '雅思', '热度': '183550'}
{'事件': '广州疫情', '热度': '183547'}
{'事件': '夏之光恋情', '热度': '183523'}
{'事件': '刘诗诗复古蜂窝头', '热度': '183514'}
{'事件': '花都', '热度': '183497'}
{'事件': '老师将一次性餐盒改造成昙花灯', '热度': '183485'}
{'事件': '唐嫣头巾造型', '热度': '183445'}
{'事件': '江苏大学通报学生坠楼身亡事件', '热度': '183218'}
{'事件': '三句话读懂国产剧', '热度': '179326'}
{'事件': '成都西岭雪山下雪', '热度': '164400'}
{'事件': '妈妈神奇的语言描述能力', '热度': '152580'}
{'事件': '任豪王者荣耀', '热度': '152088'}
{'事件': '任豪道歉', '热度': '150707'}
{'事件': '李栋旭身材', '热度': '149847'}
{'事件': '易建联康复时间预计30周', '热度': '149218'}
{'事件': '全国统一的家庭群名称', '热度': '148772'}
{'事件': '电竞班的作业', '热度': '145234'}
{'事件': '乡村医生遗愿穿戴整齐捐给国家', '热度': '144878'}
{'事件': '张培萌妻子称只想要女儿抚养权', '热度': '144583'}
{'事件': '同济大学新生作业每份10米长', '热度': '143680'}
{'事件': '全球首个埃博拉病毒治疗方法', '热度': '140690'}
可以看出我们已经成功的爬取到了热搜榜的内容

BeautifulSoup爬取微博热搜榜的更多相关文章

  1. nodejs实现定时爬取微博热搜

    The summer is coming " 我知道,那些夏天,就像青春一样回不来. - 宋冬野 青春是回不来了,倒是要准备渡过在西安的第三个夏天了. 废话 我发现,自己对 coding 这 ...

  2. Python网络爬虫-爬取微博热搜

    微博热搜的爬取较为简单,我只是用了lxml和requests两个库 url=https://s.weibo.com/top/summary?Refer=top_hot&topnav=1& ...

  3. Python爬取微博热搜以及链接

    基本操作,不再详述 直接贴源码(根据当前时间创建文件): import requests from bs4 import BeautifulSoup import time def input_to_ ...

  4. 40行代码爬取猫眼电影TOP100榜所有信息

    主要内容: 一.基础爬虫框架的三大模块 二.完整代码解析及效果展示 1️⃣  基础爬虫框架的三大模块 1.HTML下载器:利用requests模块下载HTML网页. 2.HTML解析器:利用re正则表 ...

  5. 【网络爬虫】【java】微博爬虫(一):小试牛刀——网易微博爬虫(自定义关键字爬取微博数据)(附软件源码)

    一.写在前面 (本专栏分为"java版微博爬虫"和"python版网络爬虫"两个项目,系列里所有文章将基于这两个项目讲解,项目完整源码已经整理到我的Github ...

  6. 2020不平凡的90天,Python分析三个月微博热搜数据带你回顾

    前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:刘早起早起 PS:如有需要Python学习资料的小伙伴可以加点击下方链 ...

  7. python定时器爬取豆瓣音乐Top榜歌名

    python定时器爬取豆瓣音乐Top榜歌名 作者:vpoet mail:vpoet_sir@163.com 注:这些小demo都是前段时间为了学python写的,现在贴出来纯粹是为了和大家分享一下 # ...

  8. 爬虫系列(1)-----python爬取猫眼电影top100榜

    对于Python初学者来说,爬虫技能是应该是最好入门,也是最能够有让自己有成就感的,今天在整理代码时,整理了一下之前自己学习爬虫的一些代码,今天先上一个简单的例子,手把手教你入门Python爬虫,爬取 ...

  9. ASO关键词优化技巧:如何充分利用热搜榜与相关热点?

    ASO关键词优化对提高市场曝光率.增加APP下载量有着至关重要的作用.那如何充分利用热搜榜与相关热点来进行ASO优化呢?   一.产品定位   因为此文主要是讲优化APP关键词的,所以产品定位这一块就 ...

随机推荐

  1. 痞子衡嵌入式:超级下载算法(RT-UFL)开发笔记(3) - 统一FlexSPI驱动访问

    大家好,我是痞子衡,是正经搞技术的痞子.今天痞子衡给大家介绍的是超级下载算法开发笔记(3)之统一FlexSPI驱动访问. 文接上篇 <超级下载算法(RT-UFL)开发笔记(2) - 识别当前i. ...

  2. 正则表达式 js 怎么获取匹配的变量

    正则表达式 js 怎么获取匹配的变量 $0 ~ $9 refs xgqfrms 2012-2020 www.cnblogs.com 发布文章使用:只允许注册用户才可以访问!

  3. React Hooks: useReducer All In One

    React Hooks: useReducer All In One useReducer https://reactjs.org/docs/hooks-reference.html#usereduc ...

  4. React Suspense All In One

    React Suspense All In One 挂起让组件在渲染之前"等待"某些东西. 如今,Suspense仅支持一种用例:使用React.lazy动态加载组件. 将来,它将 ...

  5. redux 中间件 redux-saga 使用教程

    redux 中间件 redux-saga 使用教程 redux middleware refs https://redux-saga.js.org/docs/ExternalResources.htm ...

  6. NGK数字增益平台的算力是什么?

    今年的币价回暖带来了新一轮的"信仰充值",部分投资者对比特币的兴趣从购买向更源头的算力转移.随着比特币开采数量逐渐减少,全网算力一直在增加,算力难度也是越来越高.同时在算力行业中竞 ...

  7. NGK公链:在规则明确的环境下运行超级节点机制

    首先要跟大家明确的一点是,21个超级节点是投票选举出来的,并不是系统在创立之初就已经确定好了的.那么相信大家也一定很好奇,这21个超级节点是通过什么方式产生? NGK.IO对分布式超级节点使用了一个自 ...

  8. [转]ROS中使用message_filters进行多传感器消息同步

    转:http://www.rosclub.cn/post-1030.html 最近实验室老师在做一个多传感器数据采集实验,涉及到了消息同步.所以就学习了ROS官网下的消息同步工具message_fil ...

  9. 自己的Scrapy框架学习之路

    开始自己的Scrapy 框架学习之路. 一.Scrapy安装介绍 参考网上资料,先进行安装 使用pip来安装Scrapy 在开始菜单打开cmd命令行窗口执行如下命令即可 pip install Scr ...

  10. vue之下拉菜单Dropdown的使用

    通过组件slot来设置下拉触发的元素以及需要通过具名slot为dropdown 来设置下拉菜单.默认情况下,下拉按钮只要hover即可,无需点击也会显示下拉菜单. <el-dropdown> ...