[Javascript] 爬虫模拟新浪微博登陆

鱼松 2024-10-20 08:13:49 原文

概述：

由于业务需要，要编写爬虫代码去爬去新浪微博用户的信息。

虽然在网上能找到不少信息，但由于新浪微博改版，其登陆机制进行了修改，故很多老的文章就不适合用了。

经过一番摸索，成功模拟新浪微博的登陆操作，项目使用的是Javascript语言，在ChromeExtension中运行，跟大家分享一下这一过程和心得。

注意，本文写于2013.08.16，由于微博业务经常变化，随年月老去，文章可能不再适用。

正文：探索的过程

1. 了解大致过程

登陆微博，使用fiddler工具监视HTTP请求，截获如下操作：

可以看到在微博登陆的整个过程中，有四次重要的HTTP请求，分别是：

(1) GET /sso/prelogin.php

(2) POST /sso/login.php

(3) GET /ajaxlogin.php

(4) GET /u/2813262187

其中，sso是single sign on

sinaSSOController.preloginCallBack({"retcode":0,
"servertime":1376533839,
"pcid":"gz-7bdd82b8980057a8bbc1f86b21d5a86184dd",
"nonce":"R1KGHZ",
"pubkey":"EB2A38568661887FA180BDDB5CABD5F21C7BFD59C090CB2D245A87AC253062882729293E5506350508E7F9AA3BB77F4333231490F915F6D63C55FE2F08A49B353F444AD3993CACC02DB784ABBB8E42A9B1BBFFFB38BE18D78E87A0E41B9B8F73A928EE0CCEE1F6739884B9777E4FE9E88A1BBE495927AC4A799B3181D6442443",
"rsakv":"1330428213",
"exectime":2})

[Javascript] 爬虫模拟新浪微博登陆的更多相关文章

Java模拟新浪微博登陆抓取数据

前言: 兄弟们来了来了,最近有人在问如何模拟新浪微博登陆抓取数据,我听后默默地抽了一口老烟,暗暗的对自己说,老汉是时候该你出场了,所以今天有时间就整理整理,浅谈一二. 首先: 要想登陆新浪微博需要 ...

php后台“爬虫”模拟登录第三方系统

http://blog.csdn.net/liu_c_y/article/details/49956679 http://www.php100.com/html/webkaifa/PHP/PHPyin ...

Python 爬虫模拟登陆知乎

在之前写过一篇使用python爬虫爬取电影天堂资源的博客,重点是如何解析页面和提高爬虫的效率.由于电影天堂上的资源获取权限是所有人都一样的,所以不需要进行登录验证操作,写完那篇文章后又花了些时间研究了 ...

python爬虫模拟登陆校园网-初级

最近跟同学学习爬虫的时候看到网上有个帖子,好像是山大校园网不稳定,用py做了个模拟登陆很有趣,于是我走上了一条不归路..... 先上一张校园网截图首先弄清一下模拟登陆的原理: 1:服务器判定浏览器登 ...

爬虫模拟登陆之formdata表单数据

首先HTTP协议是个无连接的协议,浏览器和服务器之间是以循环往复的请求回复来交互的,交互的形式是以文件形式来进行的.比如在chrome开发者工具network中看到了每一行是一个文件,又文件大小啊, ...

python爬虫模拟登陆

python爬虫模拟登陆学习了:https://www.cnblogs.com/chenxiaohan/p/7654667.html 用的这个学习了:https://www.cnblogs.co ...

HttpClient4的使用，模拟浏览器登陆新浪微博，发表微博和文字+图片微博

HttpClient4,最原始的需求就是使用其来模拟浏览器想服务器发起http请求,当然,他的功能不止于此,但是我需要的就是这个功能而已,jdk也有其自带的类似的api:UrlConnection,效 ...

python变现实现新浪微博登陆

新浪微博的登陆现在是越来越那个了,以前的模拟浏览器登陆新浪微博貌似也越来不管用了登陆信息由以前的form变成了现在javascript,javascript的加载居然用了一个javascript的函 ...

Python模拟微博登陆，亲测有效

今天想做一个微博爬个人页面的工具,满足一些不可告人的秘密.那么首先就要做那件必做之事!模拟登陆-- 代码是参考了:https://www.douban.com/note/201767245/ 我对代码 ...

随机推荐

恢复SQL Server被误删除的数据

恢复SQL Server被误删除的数据 <恢复SQL Server被误删除的数据(再扩展)> 地址:http://www.cnblogs.com/lyhabc/p/4620764.html ...

Asp.Net MVC中使用StreamReader读取“Post body”之应用场景。

场景:有三个市场(Global.China.USA),对前台传过来的数据有些验证需要细化到每个市场去完成. 所以就出现了基类(Global)和派生类(China.USA) 定义基类(Global)Pe ...

Android Ormlite 学习笔记1 -- 基础

Ormlite 是一个开源Java数据实体映射框架.其中依赖2个核心类库: 1.ormlite-android-4.48.jar 2.ormlite-core-4.48.jar 新建项目,引用上面2个 ...

windows环境下sublime的nodejs插件详细安装图解

前面的话搜索了好多文档后,才成功地安装了sublime text3的nodejs插件.为了存档,也为了方便有同样需求的朋友,将其安装过程详细记录如下安装nodejs 虽然nodejs官网提供了 ...

JAVA构造时成员初始化的陷阱

让我们先来看两个类:Base和Derived类.注意其中的whenAmISet成员变量,和方法preProcess(). 情景1:(子类无构造方法) class Base { Base() { pre ...

Exception in thread "main" java.lang.NoSuchMethodError: org.objectweb.asm.ClassWriter.<init>(I)V

在学习CGlib动态代理时,遇到如下错误: Exception in thread "main" java.lang.NoSuchMethodError: org.objectwe ...

使用git进行源代码管理

git是一款非常流行的分布式版本控制系统,使用Local Repository追踪代码的修改,通过Push和Pull操作,将代码changes提交到Remote Repository,或从Remote ...

如何区别exists与not exists?

1.exists:sql返回结果集为真:not exists:sql不返回结果集为真.详解过程如图: exists not exists

NYOJ 975

这道题一开始本着很朴素的想法就是先输入两头的数据,然后对每组的数据范围下测试中间的数据即可,但是是超时的.原因也很明显,比如计算1~1000的数据之后,假如下一组数据是1~1001,本来只需要多测试下 ...

bzoj1531: [POI2005]Bank notes

Description Byteotian Bit Bank (BBB) 拥有一套先进的货币系统,这个系统一共有n种面值的硬币,面值分别为b1, b2,..., bn. 但是每种硬币有数量限制,现在我 ...

[Javascript] 爬虫 模拟新浪微博登陆