利用Python完成简单的站点登陆

　　最近学习到了爬虫，瞬时觉得很高大上，想取什么就取什么，感觉要上天。这里分享一个简单的登陆抽屉新热榜的教程（因为它不需要验证码，目前还没有学会图像识别。哈哈），供大家学习。

需要的知识点储备

　　本次爬虫脚本依赖两个模块：requests模块，BeautifulSoup模块。其中requests模块完成url的请求，而BeautifulSoup模块负责解析Html标签。

　　主要的用法在上一讲已经列出，这里不再赘述。

思路

　　和爬取图片的思路是相同的，首先我们人工登陆一次，确认每次交互发送接受的数据。

打开首页查看交互信息

　　在浏览器里访问 http://dig.chouti.com/ 打开控制台，查看网络请求信息，发现在get请求的应答信息中包涵了cookies。

点击登陆后的交互信息

　　点击登陆后查看网络信息，发现只发送了用户名、密码、以及是否保存密码等参数。

　　　　疑问：我们知道为了防止xss攻击，网站都会做一些基础的防护，比如csrf_token等，但是这里并没有看到携带什么token数据，难道是抽屉没有进行防护吗？其实不是的，目前大部分网站都采用的方式是，第一个get请求会发送未认证的cookie，当用户登陆时携带该cookies，服务端对cookies进行认证，如果登陆时没有携带cookies，服务端将会拒绝服务，所以我们要记录第一个get请求的cookies。

点赞后提交的信息

　　通过查看网络交互信息后发现，点赞后，只是向服务端发送了文章的ID。

流程

　　根据以上思路得出以下步骤：

发送get请求获取页面信息，储存cookies信息
向登陆页发送post请求，携带cookies信息
由于返回了两次cookies，保险起见，创建一个cookies字典，把多次返回的cookies，一一存储后整体提交。
登陆成功后，找到看到的所有文章标签，获取它的linksid
发送post请求携带linksid，进行点赞操作

完成的代码

import requests

from bs4 import BeautifulSoup

# get请求cookies

response = requests.get('http://dig.chouti.com/')

get_cookies = response.cookies

# post请求cookies

response = requests.post('http://dig.chouti.com/login',

                         data={

                             'phone':8613526773228,

                             'password': 'aini3845',

                             'oneMonth': '1',

                         },

                         cookies=get_cookies

                         )

login_cookies = response.cookies

# 组件cookies

all_cookies = {}

all_cookies.update(get_cookies)

all_cookies.update(login_cookies)

# 查询文章列表

response = requests.get('http://dig.chouti.com/',cookies=all_cookies)

soup = BeautifulSoup(response.text,'html.parser')

tag = soup.find(id="content-list")

# 点赞的前缀url

urls = 'http://dig.chouti.com/link/vote'

# 点赞操作

for item in tag.find_all(name='div',attrs={'class':'part2'}):

    if item.get('share-linkid'):

        link_id = item.get('share-linkid')

        response = requests.post(urls+'?linksId=%s' % link_id,cookies=all_cookies)

        print(response.text)

Python爬虫学习 - day2 - 站点登陆的更多相关文章

Python爬虫学习笔记——豆瓣登陆(一)
#-*- coding:utf-8 -*- import requests from bs4 import BeautifulSoup import html5lib import re import ...
Python爬虫学习笔记——豆瓣登陆(三)
之前是不会想到登陆一个豆瓣会需要写三次博客,修改三次代码的. 本来昨天上午之前的代码用的挺好的,下午时候,我重新注册了一个号,怕豆瓣大号被封,想用小号爬,然后就开始出问题了,发现无法模拟登陆豆瓣了,开 ...
Python爬虫学习笔记——豆瓣登陆(二)
昨天能够登陆成功,但是不能使用cookies,今天试了一下requests库的Session(),发现可以保持会话了,代码只是稍作改动. #-*- coding:utf-8 -*- import re ...
python爬虫学习 —— 总目录
开篇作为一个C党,接触python之后学习了爬虫. 和AC算法题的快感类似,从网络上爬取各种数据也很有意思. 准备写一系列文章,整理一下学习历程,也给后来者提供一点便利. 我是目录听说你叫爬虫 - ...
python爬虫学习(1) —— 从urllib说起
0. 前言如果你从来没有接触过爬虫,刚开始的时候可能会有些许吃力因为我不会从头到尾把所有知识点都说一遍,很多文章主要是记录我自己写的一些爬虫所以建议先学习一下cuiqingcai大神的 Pyth ...
Python爬虫学习：三、爬虫的基本操作流程
本文是博主原创随笔,转载时请注明出处Maple2cat|Python爬虫学习:三.爬虫的基本操作与流程一般我们使用Python爬虫都是希望实现一套完整的功能,如下: 1.爬虫目标数据.信息: 2.将 ...
Python爬虫学习：四、headers和data的获取
之前在学习爬虫时,偶尔会遇到一些问题是有些网站需要登录后才能爬取内容,有的网站会识别是否是由浏览器发出的请求. 一.headers的获取就以博客园的首页为例:http://www.cnblogs.c ...
Python爬虫学习：二、爬虫的初步尝试
我使用的编辑器是IDLE,版本为Python2.7.11,Windows平台. 本文是博主原创随笔,转载时请注明出处Maple2cat|Python爬虫学习:二.爬虫的初步尝试 1.尝试抓取指定网页 ...
《Python爬虫学习系列教程》学习笔记
http://cuiqingcai.com/1052.html 大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多.学习过程中我把一些学习的笔记总结下来,还记录了一些自己 ...

随机推荐

【廖雪峰老师python教程】——装饰器
装饰器 # 一个函数装饰器的列子 def log(func): def wrapper(*args,**kwargs): print('Name=%s'%func.__name__) return f ...
url解读
我刚刚学习的时候,我抓到包不知道哪个是协议.哪个是是服务器地址.哪个是端口号...不知道有没有老铁遇到跟我一样的. 接口:http://172.168.12.0:8888/old/login.do 解 ...
python QQ邮箱自动发送邮件
于初学者来讲在写发送邮件代码时常见的错误有SMTPAuthenticationError535,有点懵逼,检查用户名,密码正确就是报错, 想当年笔者也是这么过来的,现在就给大家分享一下个人经验: 一, ...
用node是踩过的一些坑
1.http.request抓取数据时,response的“data”回调事件返回的数据不完整问题原因:因为“data"事件返回是chunk,就是说是一块块连续的数据解决的办法:在”da ...
CSS3 : transform 与 transform-origin 属性可以使元素样式发生转变
CSS3 : transform 用于元素样式的转变,比如使元素发生位移.角度变化.拉伸缩小.按指定角度歪斜 transform结合transition可实现各类动画效果 transform : tr ...
Drools 7.4.1.Final参考手册（十四）集成Spring
集成Spring Drools 6.0重要变更 Drools Spring集成经历了与Drools 6.0的变化完全一致的改造. 以下是一些主要的变化: T*推荐的Drools Spring的前缀已经 ...
BZOJ 3597 SCOI2014 方伯伯送椰子网络流分析+SPFA
原题链接:http://www.lydsy.com/JudgeOnline/problem.php?id=3597 Description 四川的方伯伯为了致富,决定引进海南的椰子树.方伯伯的椰子园十 ...
python基础之列表解析
python列表解析:是一个让人欣喜的术语,你可以在一行使用一个for循环将所有的值放在一个列表之中.python列表解析属于python的迭代中的一种,相比python for循环速度会快很多. e ...
windows下 eclipse搭建spark java编译环境
环境: win10 jdk1.8 之前有在虚拟机或者集群上安装spark安装包的,解压到你想要放spark的本地目录下,比如我的目录就是D:\Hadoop\spark-1.6.0-bin-hadoop ...
HDU 1445 Ride to School
http://acm.hdu.edu.cn/showproblem.php?pid=1445 Problem Description Many graduate students of Peking ...

Python爬虫学习 - day2 - 站点登陆