python抓取知乎热榜
知乎热榜讨论话题,https://www.zhihu.com/hot,本文用python抓取下来分析
#!/usr/bin/python
# -*- coding: UTF-8 -*- from urlparse import urljoin import re
import requests def main():
headers = {'user-agent':'Baiduspider',
'cookie':'*****'
}
proxies = {
'http':'http://122.114.31.177:808'
}
base_url = 'https://www.zhihu.com/'
seed_url = urljoin(base_url, 'hot')
resp = requests.get(seed_url,
headers=headers,
proxies=proxies)
html = resp.text
match_obj = re.compile(r'<h2 class="HotItem-title">.*?</h2>', re.S)
results = re.findall(match_obj, html)
for item in results:
match_title = r'<h2 class="HotItem-title">(.*?)</h2>'
title = re.findall(match_title, item)[0]
print title if __name__ == '__main__':
main()
最后抓取到的话题如下所示(2019年05月28日16:19分的知乎热榜):
如何看待南昌红谷滩女孩子大街上被陌生人杀害事件?
安卓一旦「抛弃」华为,华为改用自研的「鸿蒙」系统,你是否愿意尝试?
如何看待珠穆朗玛峰大拥堵致 14 人死亡重大事件?
假如地球上所有体重超过 20kg 的生物都拥有人类的智商,会碰撞出怎样的文明火花?
有哪些瞬间「 hold 住全场 」的表情包?
有什么特别恐怖,听了背后凉飕飕的鬼故事?
2019 年 5 月 28 日发布的红米新旗舰 K20 手机有哪些值得一提的亮点和想吐槽的方面?
如何看待网传联邦快递私自转运华为邮件,华为将审查与联邦快递合作关系一事?
刘慈欣的作品中有哪些史诗感很强的片段?
梦会不会是在给你暗示?
为什么施工单位的年轻人越来越少了?
学习哲学有什么坏处?
有哪些让你见过就无法忘记的文身?
如何评价 HBO 新剧《切尔诺贝利》第 4 集?
晋升很快的职场人都有什么共性?
室友无意中打碎了我两瓶香水,应不应该让她赔?
有哪些很皮的句子?
现代社会为何还要学习拗口难懂的古文?
如何看待郑州「奥迪女」因孩子挡路掌掴 5 岁女童一事?
宅男如何正常和女生聊天?
游戏《全面战争:三国》有哪些技巧和战术?
如何看待现今部分医生对患者的不良态度?
人为什么会得痔疮?
男人更愿意找宝钗还是黛玉?
每天跑步五公里,能给自己带来什么?
张云雷有哪些惊艳你的神图?
为何男女比例失调下我依然没有男朋友?
《破冰行动》是以哪起真实事件改编的?具体情况是怎样的?
如何看待黄磊和王迅发两条庆祝微博?
不出国如何练就一口流利的英语?
前女友到底是怎样的存在?
是否存在某些大学辅导员比较嚣张的现象,为什么?
有哪些瘦腿的方法?
如何看待张艺兴首场演唱会 8 秒售完?
如果地球只剩你自己,你会怎样?
如何评价 Dior 的口红?
都说支付宝促进了社会信用的进步,是否夸张了?
四月中旬决定考研还来得及吗?每天至少复习多久?
如何评价《英雄联盟》重做后的「铁男」莫德凯撒?
沈眉庄为什么大家都叫她眉儿而不是庄儿?
有哪些很多人觉得很烂但你要吹爆的动漫?
如何评论张艺兴演唱会无团票,而且票价挺贵的?
有哪些「随手一做好吃又饱肚 」的美食?
如何评价《这就是街舞》第二季第二期中易烊千玺 2v2battle 的表现 ?
红米 K20 搭载全面屏和 7 代屏下指纹,说明小米产品线布局发生了哪些变化?
如何看待吴昕将钟汉良送的礼物转卖了?
经常便秘日常吃什么?
怎么评价《龙珠超:布罗利》这部作品?
黄磊在节目里叫子枫女儿,多多看了会怎么想?
有什么明日方舟玩家看了能会心一笑的笑话或图片?
python抓取知乎热榜的更多相关文章
- 爬取知乎热榜标题和连接 (python,requests,xpath)
用python爬取知乎的热榜,获取标题和链接. 环境和方法:ubantu16.04.python3.requests.xpath 1.用浏览器打开知乎,并登录 2.获取cookie和User—Agen ...
- 使用python抓取知乎日报的API数据
使用 urllib2 抓取数据时,最简单的方法是: import urllib2, json def getStartImage(): stream = urllib2.urlopen('http:/ ...
- 用 python 抓取知乎指定回答下的视频
前言 现在知乎允许上传视频,奈何不能下载视频,好气哦,无奈之下研究一下了,然后撸了代码,方便下载视频保存. 接下来以 猫为什么一点也不怕蛇? 回答为例,分享一下整个下载过程. 调试一下 打开 F12, ...
- 用python+selenium抓取知乎今日最热和本月最热的前三个问题及每个问题的首个回答并保存至html文件
抓取知乎今日最热和本月最热的前三个问题及每个问题的首个回答,保存至html文件,该html文件的文件名应该是20160228_zhihu_today_hot.html,也就是日期+zhihu_toda ...
- python学习-抓取知乎图片
#!/bin/usr/env python3 __author__ = 'nxz' """ 抓取知乎图片webdriver Chromedriver驱动需要安装,并指定d ...
- 使用Python抓取猫眼近10万条评论并分析
<一出好戏>讲述人性,使用Python抓取猫眼近10万条评论并分析,一起揭秘“这出好戏”到底如何? 黄渤首次导演的电影<一出好戏>自8月10日在全国上映,至今已有10天,其主演 ...
- Python 抓取网页并提取信息(程序详解)
最近因项目需要用到python处理网页,因此学习相关知识.下面程序使用python抓取网页并提取信息,具体内容如下: #---------------------------------------- ...
- 使用 Python 抓取欧洲足球联赛数据
Web Scraping在大数据时代,一切都要用数据来说话,大数据处理的过程一般需要经过以下的几个步骤 数据的采集和获取 数据的清洗,抽取,变形和装载 数据的分析,探索和预测 ...
- python抓取性感尤物美女图
由于是只用标准库,装了python3运行本代码就能下载到多多的美女图... 写出代码前面部分的时候,我意识到自己的函数设计错了,强忍继续把代码写完. 测试发现速度一般,200K左右的下载速度,也没有很 ...
随机推荐
- 汇编题目:在DOS下,按F1键后改变当前屏幕的显示颜色
我们都知道int9中断是键盘的按键中断程序,按下键盘触发int9中断,不懂int9中断的请自己去百度查查说明和用法 利用中断任务安装一个新的int 9中断例程,功能:在DOS下,按F1键后改变当前屏幕 ...
- nodejs调试:node-inspector
基于Chrome浏览器的调试器 既然我们可以通过V8的调试插件来调试,那是否也可以借用Chrome浏览器的JavaScript调试器来调试呢?node-inspector模块提供了这样一种可能.我们需 ...
- BZOJ1367:[Baltic2004]sequence
浅谈左偏树:https://www.cnblogs.com/AKMer/p/10246635.html 题目传送门:https://lydsy.com/JudgeOnline/problem.php? ...
- rsync 端口更换(默认873)
一般使用默认端口的话, 在服务端的启动命令为: /usr/bin/rsync --address=192.168.1.23 --daemon 如果在客户端需要换另外的端口侦听, 则使用 /usr/bi ...
- GPRS模块用TCP实现MQTT协议(基于SIM900A)
mqtt部分: int strlen(char *str) { int len = 0; while (*str != '\0') { len++; str++; } return len; } // ...
- 问题15:如何判断字符串a是否以字符串b开头或结尾
方法一:使用正则表达式的^和$实现 '^000':表示,只匹配字符串的开头,若开头是 '000' ,则返回 ['000'] : '000$':表示,只匹配字符串的结尾,若结尾是 '000' ,则返回 ...
- JAVA 1.5 并发之 Executor框架 (内容为转载)
本文内容转自 http://www.iteye.com/topic/366591 Executor框架是指java 5中引入的一系列并发库中与executor相关的一些功能类,其中包括线程池,Exec ...
- ceph学习之CRUSH
CRUSH的全称是Controlled Replication Under Scalable Hashing,是ceph数据存储的分布式选择算法,也是ceph存储引擎的核心.在之前的博客里介绍过,ce ...
- 在Action获取Scope对象
引言:在前面的Action操作中,关键就是Action中的exectue方法,但是此方法并没有request.session.application等对象作为参数,自然就不能利用这些对象来操作.下面我 ...
- fabric自动化安装mysql-server
1.创建文件auto_install_mysql.py vim auto_install_mysql.py --------------------------------------------&g ...