Python爬虫学习笔记——豆瓣登陆(二)

昨天能够登陆成功，但是不能使用cookies，今天试了一下requests库的Session()，发现可以保持会话了，代码只是稍作改动。

#-*- coding:utf-8 -*-

import requests

from bs4 import BeautifulSoup

import html5lib

import re

import urllib

s = requests.Session()

url1 = 'http://accounts.douban.com/login'

url2 = 'http://www.douban.com/people/****/contacts'

formdata={

"redir":"http://www.douban.com/",

"form_email":"*******",

"form_password":"******",

#'captcha-solution':'blood',

#'captcha-id':'cRPGXEYPFHjkfv3u7K4Pm0v1:en',

"login":"登录"

}

headers = {

    "Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",

    "Accept-Encoding":"gzip, deflate, sdch",

    "Accept-Language":"zh-CN,zh;q=0.8",

    "Referer":"http://accounts.douban.com/login",

    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36"

}

r1 = s.post(url1,data=formdata,headers=headers)

rcontent = r1.text

soup = BeautifulSoup(rcontent,"html5lib")

#安装了html5lib没用python本身的html解析库

captchaAddr = soup.find('img',id='captcha_image')['src']

reCaptchaID = r'<input type="hidden" name="captcha-id" value="(.*?)"/'

captchaID = re.findall(reCaptchaID,rcontent)

print(captchaID)

urllib.request.urlretrieve(captchaAddr,"captcha.jpg")

captcha = input('please input the captcha:')

formdata['captcha-solution'] = captcha

formdata['captcha-id'] = captchaID

r1 = s.post(url1,data=formdata,headers=headers)

r2 = s.get(url2)

f = open('spider2.txt','w',encoding='utf-8')

f.write(r2.text)

f.close()

Python爬虫学习笔记——豆瓣登陆(二)的更多相关文章

Python爬虫学习笔记——豆瓣登陆(一)
#-*- coding:utf-8 -*- import requests from bs4 import BeautifulSoup import html5lib import re import ...
Python爬虫学习笔记——豆瓣登陆(三)
之前是不会想到登陆一个豆瓣会需要写三次博客,修改三次代码的. 本来昨天上午之前的代码用的挺好的,下午时候,我重新注册了一个号,怕豆瓣大号被封,想用小号爬,然后就开始出问题了,发现无法模拟登陆豆瓣了,开 ...
python爬虫学习笔记（一）——环境配置（windows系统）
在进行python爬虫学习前,需要进行如下准备工作: python3+pip官方配置 1.Anaconda(推荐,包括python和相关库) [推荐地址:清华镜像] https://mirrors ...
Python爬虫学习 - day2 - 站点登陆
利用Python完成简单的站点登陆最近学习到了爬虫,瞬时觉得很高大上,想取什么就取什么,感觉要上天.这里分享一个简单的登陆抽屉新热榜的教程(因为它不需要验证码,目前还没有学会图像识别.哈哈),供大家 ...
Python爬虫学习笔记(三)
Cookies: 以抓取https://www.yaozh.com/为例 Test1(不使用cookies): 代码: import urllib.request # 1.添加URL url = &q ...
python爬虫学习笔记（二）——基础篇之爬虫基本原理
1.什么是爬虫? 请求网站并提取数据的自动化程序 2.爬虫基本流程 2.1发起请求通过HTTP库向目标站点发起请求,即发起一个Request,请求可以包含额外的headers等信息,等待服务器响应: ...
Python爬虫学习笔记——防豆瓣反爬虫
开始慢慢测试爬虫以后会发现IP老被封,原因应该就是单位时间里面访问次数过多,虽然最简单的方法就是降低访问频率,但是又不想降低访问频率怎么办呢?查了一下最简单的方法就是使用转轮代理IP,网上找了一些方法 ...
Python爬虫学习笔记之模拟登陆并爬去GitHub
(1)环境准备: 请确保已经安装了requests和lxml库 (2)分析登陆过程: 首先要分析登陆的过程,需要探究后台的登陆请求是怎样发送的,登陆之后又有怎样的处理过程. 如果已经 ...
python爬虫学习笔记
爬虫的分类 1.通用爬虫:通用爬虫是搜索引擎(Baidu.Google.Yahoo等)“抓取系统”的重要组成部分.主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份. 简单来讲就是尽可 ...

随机推荐

[安卓]AndroidManifest.xml文件简介及结构
1.AndroidManifest.xml文件简介: 每个应用程序在它的根目录中都必须要有一个AndroidManifest.xml(名字须精确一致)文件.这个清单把应用程序的基本信息提交给Andro ...
CGAffineTransformMakeTranslation和CGAffineTransformTranslate
分类: ios基础2013-01-06 22:05 15513人阅读评论(2) 收藏举报 1.CGAffineTransformMakeTranslation每次都是以最初位置的中心点为起始参照 ...
3D中的切线空间简介
转自:http://www.cnblogs.com/cxrs/archive/2009/10/25/1589515.html 1. 什么是Tangent space? Tangent space和wo ...
R.java不能自动更新
1. The type R is already defined. (很多时候我们在导入其他人的程序的时候,会遇到这个错误) 通常在project里有两个R.java,一个在src,一个在gen,通常 ...
.NET项目框架（转）
摘要:本文描述了在用VS.NET进行B/S开发时采用的框架结构,一般建立类库项目和Web项目,在Web基本aspx页面类中调用类库中方法,同时在aspx页面类中不需要写任何对数据库操作的SQL代码,便 ...
php大力力 [016节] 兄弟连高洛峰php教程（2014年 14章数据库章节列表）
2015-08-25 php大力力016 兄弟连高洛峰php教程(2014年 14章数据库章节列表) [2014]兄弟连高洛峰 PHP教程14.1.1 复习数据库 15:58 [2014]兄弟连高洛 ...
ubuntu 新系统需要做的事
1 : 打开语言支持开始补齐并且选择自己需要的语言包 . 2 : 搜索计算机输入 update 找到软件更新器更新软件库 . 然后打开ubuntu自带软件安装工具下载自己想要的软件(没有更新之前 ...
array_walk() 函数
array_walk() 函数对数组中的每个元素应用回调函数.如果成功则返回 TRUE,否则返回 FALSE. 典型情况下 function 接受两个参数.array 参数的值作为第一个,键名作为第二 ...
【转】Web应用的组件化开发（一）
原文转自:http://blog.jobbole.com/56161/ 基本思路 1. 为什么要做组件化? 无论前端也好,后端也好,都是整个软件体系的一部分.软件产品也是产品,它的研发过程也必然是有其 ...
D - 排列
#include<cstdio> #include<algorithm> #include<string.h> using namespace std; #defi ...

Python爬虫学习笔记——豆瓣登陆(二)

Python爬虫学习笔记——豆瓣登陆(二)的更多相关文章

随机推荐

热门专题