python3使用requests爬取新浪热门微博

微博登录的实现代码来源：https://gist.github.com/mrluanma/3621775

代码实现

以下代码主要是登录成功后，爬取热闹微博的TOP 100，再保存到hotweb.html文件里边

import re

import json

import urllib.parse

import base64

import binascii

import json

import rsa

import requests

import logging

from pprint import pprint 

wbdom = r'd:\pyzone\hotwb.html';

weclient = 'ssologin.js(v1.4.5)'

FORMAT = '%(asctime)-15s %(message)s'

user_agent = (

    'Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.11 (KHTML, like Gecko) '

    'Chrome/20.0.1132.57 Safari/536.11'

)

logging.basicConfig(level=logging.DEBUG, format=FORMAT)

logger = logging.getLogger('weibo')

session = requests.session()

session.headers['User-Agent'] = user_agent

def encrypt_passwd(passwd, pubkey, servertime, nonce):

    key = rsa.PublicKey(int(pubkey, 16), int('10001', 16))

    message = str(servertime) + '\t' + str(nonce) + '\n' + str(passwd)

    passwd = rsa.encrypt(message.encode(), key)

    return binascii.b2a_hex(passwd)

def wblogin(username, password):

    resp = session.get(

        'http://login.sina.com.cn/sso/prelogin.php?'

        'entry=sso&callback=sinaSSOController.preloginCallBack&'

        'su=%s&rsakt=mod&client=%s' %

        (base64.b64encode(username), weclient)

    )

    pre_login_str = re.match(r'[^{]+({.+?})', resp.content.decode('gbk')).group(1)

    pre_login = json.loads(pre_login_str)

    pre_login = json.loads(pre_login_str)

    data = {

        'entry': 'weibo',

        'gateway': 1,

        'from': '',

        'savestate': 7,

        'userticket': 1,

        'ssosimplelogin': 1,

        'su': base64.b64encode(urllib.parse.quote(username).encode()),

        'service': 'miniblog',

        'servertime': pre_login['servertime'],

        'nonce': pre_login['nonce'],

        'vsnf': 1,

        'vsnval': '',

        'pwencode': 'rsa2',

        'sp': encrypt_passwd(password, pre_login['pubkey'],

                             pre_login['servertime'], pre_login['nonce']),

        'rsakv' : pre_login['rsakv'],

        'encoding': 'gbk',

        'prelt': '115',

        'url': 'http://weibo.com/ajaxlogin.php?framelogin=1&callback=parent.si'

               'naSSOController.feedBackUrlCallBack',

        'returntype': 'META'

    }

    resp = session.post(

        'http://login.sina.com.cn/sso/login.php?client=%s' % weclient,

        data=data

    )

    login_url = re.search(r'replace\([\"\']([^\'\"]+)[\"\']',

                          resp.content.decode('gbk')).group(1)

    resp = session.get(login_url)

    login_str = re.match(r'[^{]+({.+?}})', resp.content.decode('gbk'))

    if(login_str):      # result is not None

        logger.info('login success..')

        login_str = json.loads(login_str.group(1))

        pprint(login_str)

        return True

    else:

        logger.info('login fail..')

        return False

def gethotwb(url):

    f = open(wbdom, mode='a', encoding='utf-8')

    for x in range(1,11):       # page 1 to 10

        r = session.get(url + str(x))

        r.encoding = 'utf-8'

        f.write('\n<p>--------page:'+ str(x) +'---------</p>\n\n')

        f.write(json.loads(r.text)['data']['html'])

    f.close()

if __name__ == '__main__':

    flag = wblogin(b'xx@163.com', 'xx')

    if(flag):

        gethotwb('http://hot.weibo.com/ajax/feed?type=h&v=9999&page=');

总结

测试的过程中连接了翻墙的VPN，异地登录需要验证码，此时retcode=4049，登录成功是0
python各个版本之间不兼容好蛋痛

大家中秋快乐！

参考文档

requests文档 http://docs.python-requests.org/zh_CN/latest/

微博登录过程分析 http://www.cnblogs.com/pzxbc/archive/2012/02/03/2335027.html

python3使用requests爬取新浪热门微博的更多相关文章

Python3：爬取新浪、网易、今日头条、UC四大网站新闻标题及内容
Python3:爬取新浪.网易.今日头条.UC四大网站新闻标题及内容以爬取相应网站的社会新闻内容为例: 一.新浪: 新浪网的新闻比较好爬取,我是用BeautifulSoup直接解析的,它并没有使用J ...
selenium+BeautifulSoup+phantomjs爬取新浪新闻
一下载phantomjs,把phantomjs.exe的文件路径加到环境变量中,也可以phantomjs.exe拷贝到一个已存在的环境变量路径中,比如我用的anaconda,我把phantomjs. ...
python3爬虫-爬取新浪新闻首页所有新闻标题
准备工作:安装requests和BeautifulSoup4.打开cmd,输入如下命令 pip install requests pip install BeautifulSoup4 打开我们要爬取的 ...
Python 爬虫实例（7）—— 爬取新浪军事新闻
我们打开新浪新闻,看到页面如下,首先去爬取一级 url,图片中蓝色圆圈部分第二zh张图片,显示需要分页, 源代码: # coding:utf-8 import json import redis i ...
python3+selenium3+requests爬取我的博客粉丝的名称
爬取目标 1.本次代码是在python3上运行通过的 selenium3 +firefox59.0.1(最新) BeautifulSoup requests 2.爬取目标网站,我的博客:https:/ ...
python2.7 爬虫初体验爬取新浪国内新闻_20161130
python2.7 爬虫初学习模块:BeautifulSoup requests 1.获取新浪国内新闻标题 2.获取新闻url 3.还没想好,想法是把第2步的url 获取到下载网页源代码再去分析源 ...
python爬取新浪股票数据—绘图【原创分享】
目标:不做蜡烛图,只用折线图绘图,绘出四条线之间的关系. 注:未使用接口,仅爬虫学习,不做任何违法操作. """ 新浪财经,爬取历史股票数据 ""&q ...
【python3】爬取新浪的栏目分类
目标地址: http://www.sina.com.cn/ 查看源代码,分析: 1 整个分类在 div main-nav 里边包含 2 分组情况:1,4一组 . 2,3一组 . 5 一组 .6一组 ...
xpath爬取新浪天气
参考资料: http://cuiqingcai.com/1052.html http://cuiqingcai.com/2621.html http://www.cnblogs.com/jixin/p ...

随机推荐

sql2012 新增 OFFSET/FETCH
SQL Server 对行数的排序提供了 TOP 筛选.SQL Server 2012 新增了 OFFSET 筛选. 一.TOP 筛选如果有 ORDER BY 子句,TOP 筛选将根据排序的结果返回 ...
关于redhat6的服务说明
服务名称功能默认建议备注说明 NetworkManager 主要用于图形网络连接管理开启关闭对服务器无用 abrt-ccpp Automated Bug Reporting Tool 开 ...
html5 meta标签属性整理
声明文档使用的字符编码 <meta charset='utf-8'> 声明文档的兼容模式 //指示IE以目前可用的最高模式显示内容<meta http-equiv="X-U ...
Quora图片懒加载
浏览quora的时候发现他的懒加载有点特别,然后就看了一下然后等图片下载后: 就是上传图片的时候就把图片给压缩成了10X10的小图片,然后加载的时候放大价格模糊的滤镜
C#如何配置应用程序域
转载:http://www.csharpwin.com/csharpspace/9175r9023.shtml 您可以使用 AppDomainSetup 类,为新应用程序域提供带有配置信息的公共语言运 ...
20160326 javaweb 请求转发和请求包含
(1)请求转发: this.getServletContext().getRequestDispatcher("").forward(request,response); requ ...
windows 定时任务
创建定时任务创建定时任务,时间间隔为1min,开始时间为04:00:00,任务名称为backupSchedule,运行当前目录下的copyData.bat脚本 schtasks /create /s ...
关于IOS网络通信的学习
最近由于需要在看关于网络通信方面的知识,所以在网上找了找关于网络解释方面的知识.找了半天没有找到一篇能详细解释通讯流程的,心里忍不住就万马奔腾了.没办法,谁让自己想学呢!于是又找了找,觉得没有满意的. ...
反射介绍System.Type类
本节先介绍system.Type类,通过这个类可以访问关于任何数据类型的信息. 1. system.Type类以前把Type看作一个类,但它实际上是一个抽象的基类.只要实例化了一个Type对象,实际上 ...
如何实现.so共享库文件
.so共享库相当于window中的.DLL文件两个进程同时调用了.so文件,进程就会加载的.so文件到各自的内存空间,而不能实现进程间通讯. .so文件编译的方法: -so文件不需要main文件,即 ...

python3使用requests爬取新浪热门微博

相关环境

代码实现

总结

参考文档

python3使用requests爬取新浪热门微博的更多相关文章

随机推荐

热门专题