Python爬虫学习笔记之爬取新浪微博

 import requests

 from urllib.parse import urlencode

 from pyquery import PyQuery as pq

 from pymongo import MongoClient

 base_url = 'https://m.weibo.cn/api/container/getIndex?'

 headers = {

     'Host': 'm.weibo.cn',

     'Referer': 'https://m.weibo.cn/u/2803301701',

     'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.75 Safari/537.36',

     'X-Requested-With': 'XMLHttpRequest',

 }

 client = MongoClient()

 db = client['weibo']

 collection = db['weibo']

 max_page = 10

 def get_page(page):

     params = {

         'type': 'uid',

         'value': '',

         'containerid': '',

         'page': page

     }

     url = base_url + urlencode(params)

     try:

         response = requests.get(url, headers=headers)

         if response.status_code == 200:

             return response.json(), page

     except requests.ConnectionError as e:

         print('Error', e.args)

 def parse_page(json, page: int):

     if json:

         items = json.get('data').get('cards')

         for index, item in enumerate(items):

             if page == 1 and index == 1:

                 continue

             else:

                 item = item.get('mblog')

                 weibo = {}

                 weibo['id'] = item.get('id')

                 weibo['text'] = pq(item.get('text')).text()

                 weibo['attitudes'] = item.get('attitudes_count')

                 weibo['comments'] = item.get('comments_count')

                 weibo['reposts'] = item.get('reposts_count')

                 yield weibo

 # def save_to_mongo(result):

     # if collection.insert(result):

         # print('Saved to Mongo')

 if __name__ == '__main__':

     for page in range(1, max_page + 1):

         json = get_page(page)

         results = parse_page(*json)

         for result in results:

             print(result)

             # save_to_mongo(result)

运行结果:

Python爬虫学习笔记之爬取新浪微博的更多相关文章

python爬虫学习01--电子书爬取
python爬虫学习01--电子书爬取 1.获取网页信息 import requests #导入requests库 ''' 获取网页信息 ''' if __name__ == '__main__': ...
Python爬虫学习之正则表达式爬取个人博客
实例需求:运用python语言爬取http://www.eastmountyxz.com/个人博客的基本信息,包括网页标题,网页所有图片的url,网页文章的url.标题以及摘要. 实例环境:pytho ...
Python爬虫学习笔记之抓取猫眼的排行榜
代码: import json import requests from requests.exceptions import RequestException import re import ti ...
Python爬虫学习笔记之爬今日头条的街拍图片
代码: import requests import os from hashlib import md5 from urllib.parse import urlencode from multip ...
python爬虫:了解JS加密爬取网易云音乐
python爬虫:了解JS加密爬取网易云音乐前言大家好,我是"持之以恒_liu",之所以起这个名字,就是希望我自己无论做什么事,只要一开始选择了,那么就要坚持到底,不管结果如何 ...
Python爬虫：为什么你爬取不到网页数据
前言: 之前小编写了一篇关于爬虫为什么爬取不到数据文章(文章链接为:Python爬虫经常爬不到数据,或许你可以看一下小编的这篇文章), 但是当时小编也是胡乱编写的,其实里面有很多问题的,现在小编重新发 ...
Python爬虫实战二之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 前言亲爱的们,教程比较旧了,百度贴吧页面可能改版,可能代码不 ...
Python爬虫实战一之爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...
转 Python爬虫实战二之爬取百度贴吧帖子
静觅 » Python爬虫实战二之爬取百度贴吧帖子大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标 ...

随机推荐

用 Qt 控制 Nikon 显微镜的电动物镜转盘
用 Qt 控制 Nikon 显微镜的电动物镜转盘最近的一个项目,用到了一台 Nikon 的金相显微镜,并且配了个电动的物镜转盘.为了控制这个电动物镜转盘,我折腾了差不多有4-5天.中间遇到了各种问题 ...
Android AppWidget偶尔无响应原因及解决办法
Android AppWidget偶尔会出现无响应问题,如按钮点击失效,数据不更新等等. 测试后发现,一般出现在手机用清理工具(或系统自己)清理后发生,或手机重启后发生. 目前经过测试,找到的办法是把 ...
linq里lambda写的join查询，并附加动态拼接的条件，条件为enum类型的查询
因为查询条件不固定的原因,sql式的linq查询没法动态拼接条件. 网上搜的资料整理之后终于解决. 参考资料: enum使用 http://blog.csdn.net/slowlifes/articl ...
【廖雪峰老师python教程】——模块
使用模块任何模块代码的第一个字符串都被视为模块的文档注释: 使用__author__变量把作者写进去,这样当你公开源代码后别人就可以瞻仰你的大名: 当我们在命令行运行模块文件时,Python解释器把 ...
Linux下创建pycharm的快捷方式
第一步:创建桌面快捷方式文件Pycharm.desktop,并打开 sudo gedit /usr/share/applications/Pycharm.desktop 第二步:在打开的文件Pycha ...
Linux 下安装Python报错：zlib not available
问题描述: 在Linux下安装Python时出现一个错误:zipimport.ZipImportError: can't decompress data; zlib not available 详细错 ...
自动化测试--封装JDBCUnit
在进行测试的时候,经常需要对数据库进行操作.我们知道,通过代码与数据库交互,需要以下几步: 1.加载驱动之前有盆友问我,为什么Selenium操作浏览器的时候,非要下载浏览器驱动?为啥对数据库进行操 ...
第三篇 Postman之 Tests（后置处理器，断言）
第二篇里讲了手动设置全局变量及局部变量的方法,但是这有一个缺点,就是每次测试之前,都需要获取相关变量值,手动再填写更新到对应的全局变量或者局部变量里,这对于想进行自动化执行的人或者懒人就不太友好了,本 ...
python基础训练营05
任务五时长:2天 1.file a.打开文件方式(读写两种方式) b.文件对象的操作方法 c.学习对excel及csv文件进行操作 2.os模块 3.datetime模块 4.类和对象 5.正则表达 ...
parity的使用
parity --chain dev --port 8045 ps aux | grep "parity" ps -elf | grep "pari"

Python爬虫学习笔记之爬取新浪微博

Python爬虫学习笔记之爬取新浪微博的更多相关文章

随机推荐

热门专题