【网络爬虫】【python】网络爬虫（三）：模拟登录—

一、关于抓包分析和debug Log信息

模拟登录访问需要设置request header信息，对于这个没有概念的朋友可以参见本系列前面的java版爬虫中提到的模拟登录过程，主要就是添加请求头request header。

而python抓包可以直接使用urllib2把debug Log打开，数据包的内容可以打印出来，这样都可以不用抓包了，直接可以看到request header里的内容。

import urllib2

httpHandler = urllib2.HTTPHandler(debuglevel = 1)

httpsHandler = urllib2.HTTPSHandler(debuglevel = 1)

opener = urllib2.build_opener(httpHandler, httpsHandler)

urllib2.install_opener(opener)

response = urllib2.urlopen(‘http://www.baidu.com’)

html = response.read()

另外对于抓包，对比里各款浏览器自带的开发者工具，觉得firefox的比Chrome的要好用，不仅数据包显示清晰，而且各种操作也比Chrome的方便得多，还有一些Chrome没有的功能。

分析下登录新浪微博过程的数据包。

登录前页面：

点击登录，看下这个过程：

打开看数据包可以看到详细的请求头、发送Cookie、响应头、传回的文件/数据等信息。

在Network选项卡里看看详细的情况，这里是请求头：

cookie存放的就是myuid和un账号，之后模拟登录要用到的cookie信息：

二、设置Headers到http请求

先看一个官方教程上的例子：

import urllib

import urllib2

url = 'http://s.weibo.com'

user_agent = 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11'

values = {'name':'denny',

          'location':'BUPT',

          'language':'Python'

          }

headers = {'User-Agent':user_agent}

data = urllib.urlencode(values, 1)

request = urllib2.Request(url, data,headers)

response = urllib2.urlopen(request)

the_page = response.read()

print the_page

一个完整例子：

# -*- coding:utf8 -*-

import urllib2

import re

import StringIO

import gzip

ua = {#'User-Agent':'Mozilla/5.0 (compatible; Googlebot/2.1; +Googlebot - Webmaster Tools Help)',

      'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2062.124 Safari/537.36',

      'Connection':'Keep-Alive',

      'Accept-Language':'zh-CN,zh;q=0.8',

      'Accept-Encoding':'gzip,deflate,sdch',

      'Accept':'*/*',

      'Accept-Charset':'GBK,utf-8;q=0.7,*;q=0.3',

      'Cache-Control':'max-age=0'

      }

def get_html(url_address):

    '''open url and read it'''

    req_http = urllib2.Request(url_address, headers = ua)

    html = urllib2.urlopen(req_http).read()

    return html

def controller():

    '''make url list and download page'''

    url = 'http://s.weibo.com/wb/iPhone&nodup=1&page=10'

    reget = re.compile('(<div class=\"post-wrapper.*?)<p class=\"pagination\">', re.DOTALL)

    fp = open("e:/weibo/head.txt", "w+")

    for i in range(1, 131):

        html_c = get_html(url % (i))

        print url % (i)

        html_c = gzip.GzipFile(fileobj = StringIO.StringIO(html_c)).read()

        res = reget.findall(html_c)

        for x in res:

            fp.write(x)

            fp.write("\n\n\n")

    fp.close()

    return

if __name__ == '__main__':

    controller()

原创文章，转载请注明出处：http://blog.csdn.net/dianacody/article/details/39742711

【网络爬虫】【python】网络爬虫（三）：模拟登录——伪装浏览器登录爬取过程的更多相关文章

【python爬虫】对喜马拉雅上一个专辑的音频进行爬取并保存到本地
>>>内容基本框架: 1.爬虫目的 2.爬取过程 3.代码实现 4.爬取结果 >>>实验环境: python3.6版本,pycharm,电脑可上网. [一爬虫目 ...
爬虫系列4：scrapy技术进阶之多页面爬取
多页面爬取有两种形式. 1)从某一个或者多个主页中获取多个子页面的url列表,parse()函数依次爬取列表中的各个子页面. 2)从递归爬取,这个相对简单.在scrapy中只要定义好初始页面以及爬虫规 ...
Python post请求模拟登录淘宝并爬取商品列表
一.前言大概是一个月前就开始做淘宝的爬虫了,从最开始的用selenium用户配置到selenium模拟登录,再到这次的post请求模拟登录.一共是三篇博客,记录了我爬取淘宝网的经历.期间也有朋友向我 ...
爬虫（三）通过Selenium + Headless Chrome爬取动态网页
一.Selenium Selenium是一个用于Web应用程序测试的工具,它可以在各种浏览器中运行,包括Chrome,Safari,Firefox 等主流界面式浏览器. 我们可以直接用pip inst ...
python爬虫从入门到放弃（九）之实例爬取上海高级人民法院网开庭公告数据
通过前面的文章已经学习了基本的爬虫知识,通过这个例子进行一下练习,毕竟前面文章的知识点只是一个一个单独的散知识点,需要通过实际的例子进行融合分析网站其实爬虫最重要的是前面的分析网站,只有对要爬取 ...
Python爬虫入门教程 13-100 斗图啦表情包多线程爬取
斗图啦表情包多线程爬取-写在前面今天在CSDN博客,发现好多人写爬虫都在爬取一个叫做斗图啦的网站,里面很多表情包,然后瞅了瞅,各种实现方式都有,今天我给你实现一个多线程版本的.关键技术点 aioht ...
python模拟登陆知乎并爬取数据
一些废话看了一眼上一篇日志的时间已然是5个月前的事情了不禁感叹光阴荏苒其实就是我懒几周前心血来潮想到用爬虫爬些东西于是先后先重写了以前写过的求绩点代码爬了草榴贴图,妹子图网,后来想爬婚恋网 ...
爬虫入门之Scrapy框架基础框架结构及腾讯爬取(十)
Scrapy终端是一个交互终端,我们可以在未启动spider的情况下尝试及调试代码,也可以用来测试XPath或CSS表达式,查看他们的工作方式,方便我们爬取的网页中提取的数据. 如果安装了 IPyth ...
Python Requests库入门——应用实例-京东商品页面爬取+模拟浏览器爬取信息
京东商品页面爬取选择了一款荣耀手机的页面(给华为打广告了,荣耀play真心不错) import requests url = "https://item.jd.com/7479912.ht ...

随机推荐

【每日Scrum】第八天（4.29） TD学生助手Sprint2
站立会议组员今天签到刘铸辉 (组长) 绩效考核 Y 刘静测试用例书写测试bug报告测试详细报告 Y 解凤娇 Y 王洪叶项目可行性报告项目开发计划书需求分析(已完成并发布) Y 胡宝 ...
WPF简单计算器
freescale-sdk linux移植一搭建编译环境脚本host-prepare.sh分析
接下来使用自己的课外歇息时间,对基于PowerPC架构freescale-sdk,进行linux移植和分析.主要參考官方文档freescale linux sdk START_HERE.html,首先 ...
kubernetes对象之secrets
系列目录 Secrets是Kubernetes中一种对象类型,用来保存密码.私钥.口令等敏感信息.与直接将敏感信息嵌入image.pod相比,Secrets更安全.更灵活,用户对敏感信息的控制力更强. ...
ecshop忘记管理员密码
直接修改数据表 ecs_admin_user, 找到对应的管理员, 同时修改 password 为 2fc3ec4c91d51bee94f4a8ccbdbe5383 和 ec_salt 为1819, ...
JavaScript+Json写的二级联动
省市区的联动,相当常见我就不写这么大数据的了,先写个简单的试一试 <!DOCTYPE html> <html> <head> <title></ ...
《MySQL必知必会学习笔记》：子查询
子查询在開始了解子查询之前,首先做下准备工作,建立3个表, 一个是customers表,当中包含:客户名字.客户ID.客户Tel等. 一个是orders表,当中包含:订单号.客户ID.订单时间等. ...
看不懂JDK8的流操作？5分钟带你入门（转）
在JDK1.8里有两个非常高级的新操作,它们分别是:Lambda 表达式和 Stream 流. Lambda表达式让我们先说说 Lambda 表达式吧,这个表达式最大的作用就是简化语法,让代码更加易 ...
前端photoshop 切图神器cutterman
1. 切图真的是就件很费力的事情,接下有给大家提供一个工具,本人觉得还不错 http://www.cutterman.cn/ 请参考这个网站,安装方法也有,很简单,我就不说了,赶紧点连接去注册帐号吧
云计算系列——HIVE1.2.1 环境搭建
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行. 其优点是学习成本低,可以通过 ...

【网络爬虫】【python】网络爬虫（三）：模拟登录——伪装浏览器登录爬取过程

一、关于抓包分析和debug Log信息

二、设置Headers到http请求

【网络爬虫】【python】网络爬虫（三）：模拟登录——伪装浏览器登录爬取过程的更多相关文章

随机推荐

热门专题