提前准备工作、安装准备工作（day3用）

1. 安装scrapy 11

https://www.cnblogs.com/wupeiqi/articles/6229292.html

a. 下载twisted
http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

b. 安装wheel
pip3 install wheel

c. 安装twisted

pip3 install Twisted‑18.7.0‑cp36‑cp36m‑win_amd64.whl

d. 安装pywin32
pip3 install pywin32

e. 安装scrapy
pip3 install scrapy

https://www.cnblogs.com/wupeiqi/articles/6283017.html 武沛齐老师博客。

一、访问登录界面

# ============================第一步访问登录界面======================================

import requests

r1 =requests.get(

    url="https://passport.lagou.com/login/login.html",

    headers={

    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)\

    Chrome/67.0.3396.87 Safari/537.36",}

                )

r1_cookie_dict =r1.cookies.get_dict()

print(r1.text)

print("r1-cookie:===>",r1_cookie_dict)

　　打印结果：

二、登录界面，登录成功

# =======================================第二步、去登录拉钩网================================================

import re

token =  re.findall("X_Anti_Forge_Token = '(.*)';",r1.text)[0]

code =re.findall("X_Anti_Forge_Code = '(.*)';",r1.text)[0]

print(token)

print(code)

r2 =requests.post(

    url="https://passport.lagou.com/login/login.json",

    headers={

    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36",

    "X-Requested-With":"XMLHttpRequest",

    "Content-Type": "application/x-www-form-urlencoded; charset=UTF-8",

    "Connection": "keep-alive",

    "Content-Length": "111",

    "Origin": "https: // passport.lagou.com",

    "Referer": "https://passport.lagou.com/login/login.html",

    "X-Anit-Forge-Code":code,

    "X-Anit-Forge-Token" :token ,

    },

    data={"isValidate": "true",

            "username": "",

            "password": "4d541689997b5ff6ac90a350b5dd6693",

            "request_form_verifyCode":"",

            "submit":""

          },

    cookies= r1_cookie_dict

)

print(r2.text)

打印结果

三、登录邀请（invitation）界面

import  requests

r3 =requests.get(

    url="https://www.lagou.com/mycenter/invitation.html",

    headers={

        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36",

        "Host": "www.lagou.com",

        "Upgrade-Insecure-Requests": "1"

    },

    cookies= r1_cookie_dict   #cookies不正确.print出来的不正确.

)

print(r3.text)

打印结果：

登录失败。所以第三步的流程不对，应该尝试其他的流程

重新登录后会发现有个如下的请求

重定向到新的网站

又重定向新的网址

重定向后：

第三步； grant 登录

import  requests

r3 =requests.get(

    url="https://passport.lagou.com/grantServiceTicket/grant.html",

    headers={

        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36",

        "Host": "passport.lagou.com",

        "Upgrade-Insecure-Requests": "1",

        "Connection": "keep-alive",

        "Referer": "https://passport.lagou.com/login/login.html?ts=1532004536388&serviceId=lagou&service=https%253A%252F%252Fwww.lagou.com%252F&action=login&signature=F241DF2A40C183BA91C33BA6604912F0",

    },

    cookies= r1_cookie_dict,

    allow_redirects =False  #把重定向关掉.

)

r3_cookie_dict =r3.cookies.get_dict()

print(r3.text)

print(r3.cookies.get_dict())

　　打印结果：

第四步，发送action 请求

# =======================================第四步、Action发请求================================================

all_cookies_dict.update()

import  requests

r4 =requests.get(

    url="https://www.lagou.com/?action=grantST&ticket=ST-f6c670b8a6104480a96cd835d80a8db8",

    headers={

        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36",

        "Host": "www.lagou.com",

        "Referer": "https://passport.lagou.com/login/login.html?ts=1532005741245&serviceId=lagou&service=https%253A%252F%252Fwww.lagou.com%252F&action=login&signature=ED6DE46236FC2638697A5ECC080822F7",

    },

    cookies= all_cookies_dict,

    allow_redirects =False

)

r4_cookie_dict =r4.cookies.get_dict()

print("r4===>",r4.text)

第五次请求

# ##################################### 第五步：获取认证信息 #####################################

r5 = requests.get(

    url=r4.headers['Location'],

    headers={

        'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36',

        'Referer':'https://passport.lagou.com/login/login.html',

        'Host':'www.lagou.com',

        'Upgrade-Insecure-Requests':'1',

    },

    cookies=all_cookie_dict,

    allow_redirects=False

)

r5_cookie_dict = r5.cookies.get_dict()

all_cookie_dict.update(r5_cookie_dict)

print(r5.headers['Location'])

第六次请求

# ##################################### 第六步：我的邀请 #####################################

r = requests.get(

    url='https://www.lagou.com/mycenter/invitation.html',

    headers={

        'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36',

        'Host':'www.lagou.com',

        'Upgrade-Insecure-Requests':'1',

        'Pragma':'no-cache',

    },

    cookies=all_cookie_dict

)

print('wupeiqi' in r.text)

最后登录成功：

第七步：

# ##################################### 第七步 #####################################

r7 = requests.get(

    url=r6.headers['Location'],

    headers={

        'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36',

        'Referer':'https://passport.lagou.com/login/login.html',

        'Host':'www.lagou.com',

        'Upgrade-Insecure-Requests':'1',

    },

    cookies=all_cookie_dict,

    allow_redirects=False

)

r7_cookie_dict = r7.cookies.get_dict()

all_cookie_dict.update(r7_cookie_dict)

第八步：

# ##################################### 第九步：查看个人信息 #####################################

r9 = requests.put(

    url='https://gate.lagou.com/v1/neirong/account/users/0/',

    headers={

        'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36',

        'Host':'gate.lagou.com',

        'Origin':'https://account.lagou.com',

        'Referer':'https://account.lagou.com/v2/account/userinfo.html',

        'X-L-REQ-HEADER':'{deviceType:1}',

        'X-Anit-Forge-Code':r8_response_json.get('submitCode'),

        'X-Anit-Forge-Token':r8_response_json.get('submitToken'),

        'Content-Type':'application/json;charset=UTF-8',

    },

    json={"userName":"wupeiqi999","sex":"MALE","portrait":"images/myresume/default_headpic.png","positionName":"...","introduce":"...."},

    cookies=all_cookie_dict

)

print(r9.text)

爬虫抖音视频

3. requests模块
参数：
url
params
headers
cookies
data
示例：
request.post(
data={
user:'alex',
pwd:'sb'
}
)

user=alex&pwd=sb

chrome: formdata
json
示例：
request.post(
json={
user:'alex',
pwd:'sb'
}
)

'{"user":"alex","pwd":"sb"}'

chrome: request payload

s10day112



内容回顾：

	第一部分：爬虫相关

		1. 谈谈你对http协议的理解？

			规范：

				1. Http请求收发数据的格式

					GET /index/ http1.1/r/nhost:xxx.com/r/n/r/n

					POST /index/ http1.1/r/nhost:xxx.com/r/n/r/nuser=xxx

				2. 短连接（无状态）

					一次请求一次响应之后，就断开连接

				3. 基于TCP协议之上

					sk = socket()

					sk.send('GET /index/ http1.1/r/nhost:xxx.com/r/n/r/n')

			常见请求头有哪些？

				host

				content-type

				user-agent

				cookies

				referer，上一次请求地址

			常见的请求方法有哪些？

				GET

				POST

				DELETE

				PUT

				PATCH

				OPTIONS

		2. requests

			用于伪造浏览器发送请求

			参数：

				- url

				- headers

				- data

				- cookies

			响应：

				- content

				- text

				- encoding='gbk'

				- headers

				- cookies.get_dict()

		3. bs

			用于解析HTML格式的字符串

			方法和属性：

				- find

				- find_all

				- attrs

				- get

				- text 

		4. 套路

			- 汽车之家

			- 抽屉新闻：携带user-agent

			- 登录抽屉：第一访问保留cookie，登录时需要再次携带；

			- 自动登录github：获取csrf_token，到底携带那一个cookie

			补充：自动登录github

	第二部分：路飞相关

		1. 公司的组织架构？

			开发：

				- 村长

				- 前端姑娘

				- 涛

				- 云（产品+开发）

			UI：1人

			测试：1人

			运维：1人

			运营：2人

			销售：3人

			班主任：1人

			全职助教：2人

			人事/财务：老男孩共享

		2. 项目架构

			- 管理后台(1)

				- 权限

				- xadmin

			- 导师后台(1)

				- 权限

				- xadmin

			- 主站(1+1+0.5+1)

				- restful api

				- vue.js 

			现在开发：题库系统

		3. 涉及技术点：

			- django

			- django rest framework

			- vue.js

			- 跨域cors

			- redis

			- 支付宝支付

			- 视频播放

				- CC视频

				- 保利

			- 微信消息推送

				- 已认证的服务号

				- 发送模板消息

			- content-type 

今日内容：

	- 拉勾网

	- 抖音

	- requests

	- bs4

	- 初识scrapy框架

内容详细：

	1.拉勾网

		- Token和Code存在页面上，自定义请求头上

		- 重定向：

			- 响应头的Location中获取要重定向的地址

			- 自己去处理

		- 请求发送时需要携带上次请求的code和token 

		原则：

			- 完全模拟浏览器的行为

	2. 爬抖音视频 

	3. requests模块

		参数：

			url

			params

			headers

			cookies

			data

				示例：

					request.post(

						data={

							user:'alex',

							pwd:'sb'

						}

					)

					user=alex&pwd=sb 

				chrome: formdata

			json

				示例：

					request.post(

						json={

							user:'alex',

							pwd:'sb'

						}

					)

					'{"user":"alex","pwd":"sb"}'

				chrome: request payload

			allow_redirecs

			stream

			files

				requests.post(

					url='xxx',

					files={

						'f1': open('readme', 'rb')

					}

				)

			auth

				from requests.auth import HTTPBasicAuth, HTTPDigestAuth

				ret = requests.get('https://api.github.com/user', auth=HTTPBasicAuth('admin', 'admin'))

				print(ret.text)

			timeout

				ret = requests.get('http://google.com/', timeout=1)

				ret = requests.get('http://google.com/', timeout=(5, 1))

			proxies

				proxies = {

					"http": "61.172.249.96:80",

					"https": "http://61.185.219.126:3128",

				}

				# proxies = {'http://10.20.1.128': 'http://10.10.1.10:5323'}

				ret = requests.get("https://www.proxy360.cn/Proxy", proxies=proxies)

				print(ret.headers)

				from requests.auth import HTTPProxyAuth

				auth = HTTPProxyAuth('username', 'mypassword')

				r = requests.get("http://www.google.com", proxies=proxyDict, auth=auth)

			证书相关：

				cert

				verify

		session：自动管理cookie和headers（不建议使用）

			import requests

			session = requests.Session()

			i1 = session.get(url="http://dig.chouti.com/help/service")

			i2 = session.post(

				url="http://dig.chouti.com/login",

				data={

					'phone': "8615131255089",

					'password': "xxooxxoo",

					'oneMonth': ""

				}

			)

			i3 = session.post(

				url="http://dig.chouti.com/link/vote?linksId=8589523"

			)

			print(i3.text)

	4. bs4 

		参考示例：https://www.cnblogs.com/wupeiqi/articles/6283017.html

预习：

	1. 安装scrapy

		https://www.cnblogs.com/wupeiqi/articles/6229292.html

		a. 下载twisted

			http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

		b. 安装wheel

			pip3 install wheel

		c. 安装twisted 

			pip3 install Twisted‑18.7.0‑cp36‑cp36m‑win_amd64.whl

		d. 安装pywin32

			pip3 install pywin32

		e. 安装scrapy

			pip3 install scrapy

requests.get(url, params=None, **kwargs)

requests.post(url, data=None, json=None, **kwargs)

requests.put(url, data=None, **kwargs)

requests.head(url, **kwargs)

requests.delete(url, **kwargs)

requests.patch(url, data=None, **kwargs)

requests.options(url, **kwargs)

day 112天，爬虫(拉钩网,斗音，GitHub)第二天的更多相关文章

python爬虫——拉钩网python岗位信息
之前爬取的网页都是采用"GET"方法,这次爬取"拉勾网"是采取了"POST"的方法.其中,"GET"和"POS ...
python爬虫拉钩网：{'msg': '您操作太频繁,请稍后再访问', 'clientIp': '113.57.176.181', 'success': False}
反爬第一课: 在打印html.text的时候总会提示 {'success': False, 'msg': '您操作太频繁,请稍后再访问', 'clientIp': '113.14.1.254'} 需要 ...
nodejs实现拉钩网爬虫
概述通过nodejs+mysql+cheerio+request实现拉钩网特定公司的所有招聘信息的抓取,并将抓取的信息保存到数据库中.抓取内容包括:薪酬福利,工作地,职位要求,工作性质等几乎所有的内 ...
Python3 Scrapy + Selenium + 阿布云爬取拉钩网学习笔记
1 需求分析想要一个能爬取拉钩网职位详情页的爬虫,来获取详情页内的公司名称.职位名称.薪资待遇.学历要求.岗位需求等信息.该爬虫能够通过配置搜索职位关键字和搜索城市来爬取不同城市的不同职位详情信息, ...
拉钩网爬取所有python职位信息
最近在找工作,所以爬取了拉钩网的全部python职位,以便给自己提供一个方向.拉钩网的数据还是比较容易爬取的,得到json数据直接解析就行,废话不多说, 直接贴代码: import json impo ...
使用request爬取拉钩网信息
通过cookies信息爬取分析header和cookies 通过subtext粘贴处理header和cookies信息处理后,方便粘贴到代码中爬取拉钩信息代码 import requests c ...
selelinum+PhantomJS 爬取拉钩网职位
使用selenium+PhantomJS爬取拉钩网职位信息,保存在csv文件至本地磁盘拉钩网的职位页面,点击下一页,职位信息加载,但是浏览器的url的不变,说明数据不是发送get请求得到的. 我们不 ...
爬取拉钩网上所有的python职位
# 2.爬取拉钩网上的所有python职位. from urllib import request,parse import json,random def user_agent(page): #浏览 ...
Python 爬取拉钩网工作岗位
如果拉钩网html页面做了调整,需要重新调整代码代码如下 #/usr/bin/env python3 #coding:utf-8 import sys import json import requ ...

随机推荐

18-javaweb-ssm 开发中错误总结
由于web课设于是,写了几天的javaweb,在写的过程中总会遇到奇奇怪怪的一些bug, 一般都得花很多时间解决. 但是解决多了,后面碰到类似的简单多了. 总结下: 一.前端错误: 1.js错误,看前 ...
AasyncTask中执行execute（）还是executeOnExecutor（）
executeOnExecutor()api 11 才出现的并行的效率比execute()高因为execute()是串行的 import android.app.Activity; import ...
Fragment----静态创建碎片
import android.os.Bundle; import android.app.Activity; import android.app.Fragment; import android.a ...
Castle ActiveRecord学习（二）配置、引用、程序启动
来源:http://www.cnblogs.com/zxj159/p/4082987.html 配置数据库驱动: Model层引用:Castle.ActiveRecord.dll.NHibernate ...
ajax原理以及优缺点（转）
1.ajax技术的背景不可否认,ajax技术的流行得益于google的大力推广,正是由于google earth.google suggest以及gmail等对ajax技术的广泛应用,催生了ajax的 ...
Yandex插件使用说明——Slager_Z
Yandex插件使用说明——Slager_Z 操作步骤: 1.1使用Chrome浏览器安装插件 / 1.2使用crx格式文件 2. 改装成Yandex可使用文件 3. 通过Yandex ...
laravel-excel文档翻译笔记
1.安装 1>composer 安装 "maatwebsite/excel": "~2.1.0" 2>app/config/ap ...
调试Javascript代码（浏览器F12）
在浏览器中按F12,会弹出一个窗口,这个窗口是给开发人员用于网站调试用的,可以分析网页的问题出现在哪里,同时可以调试多种脚本,是一个开发者工具. 想通过encodeURIComponent将C24\C ...
java.text.SimpleDateFormat的使用
SimpleDateFormat 是一个以国别敏感的方式格式化和分析数据的具体类. 它允许格式化 (date -> text).语法分析 (text -> date)和标准化. Simpl ...
ejb 和pojo , jboss 和 tomcat
EJB(企业JavaBeans)是普通JavaBeans的一种提升和规范,因为企业信息系统开发中需要一个可伸缩的性能和事务.安全机制,这样能保证企业系统平滑发展,而不是发展到一种规模重新更换一套软件系 ...

day 112天，爬虫(拉钩网,斗音，GitHub)第二天

提前准备工作、安装准备工作（day3用）

一、访问登录界面

二、登录界面，登录成功

三、登录邀请（invitation）界面

打印结果：

登录失败。 所以 第三步的流程不对，应该尝试其他的流程

重新登录后会发现有个如下的请求

重定向到新的网站

又重定向新的网址

又重定向新的网址

重定向后：

第三步； grant 登录

第四步， 发送action 请求

第五次请求

最后登录成功：

第七步：

第八步：

爬虫 抖音视频

day 112天，爬虫(拉钩网,斗音，GitHub)第二天的更多相关文章

随机推荐

热门专题

登录失败。所以第三步的流程不对，应该尝试其他的流程

第四步，发送action 请求

爬虫抖音视频