phpSpider 单页测试_模拟登陆
<?php require './vendor/autoload.php';
use phpspider\core\phpspider;
use phpspider\core\requests;
use phpspider\core\selector; // 模拟登陆
$cookies = ".Cnblogs.AspNetCore.Cookies=CfDJ8D8Q4oM3DPZMgpKI1MnYlrnbT-Q5FNFtE5gJz6EC9NUFS4s5tY90etNYfXhxBULkAtgiVUEQpu3xvGN5NbKtjWVbjipgpDGXRWmtUxERSUzEYO5aigBk64r1_Nw6qCbl7XdE7xlrkWGt3BHDHzbshM_vvpvQrYi0HcGULnWpps53kft1wmcwqebM43cygT46x9UmEDNBo0cIwjnmh6lWmr7SYPLwNvDzcIAUi1QweoR_oACumO_bb6Ui03eNcnV1EjRT8nBDmlAt4krV8Kut0Myhazr-2wFUtfX1wfFbQcODJfdsQIxtCbeUtqlVazjoR9fk1yDfdX8hhdpiJNCLHC0lQTGScnnhqSEw9GvgTVfcncWabzy0bdgOYN065sqeaiZ_YDtSXZ98cIpHf9H9PZvgbUJt_AYvfy8V_UCiiYlYjfwL0EISEgBw2vJ1lPKh6g; .CNBlogsCookie=3116D18662591FE8B4EBCF4D2CFABF26DE31EAC9B4FEEB6678596D5B0CDF03F30A4B263C5AD0D9602CFA9A9E4C9C9E8777A043F142B39F33A93820ED1DDB56E0C1015677A27075E3F87EE102495026207369F4C4; __guid=66375729.1960077102075662600.1558606026718.039; __utma=66375729.744539077.1558606027.1558606027.1558606027.1; __utmc=66375729; __utmz=66375729.1558606027.1.1.utmcsr=account.cnblogs.com|utmccn=(referral)|utmcmd=referral|utmcct=/signin; __utmt=1; __gads=ID=2255b76d980bc782:T=1558606024:S=ALNI_MYpF8olMfOsZHG-kg_ox-2_-UCy4g; monitor_count=2; __utmb=66375729.2.10.1558606027";
requests::set_cookies($cookies, 'news.cnblogs.com'); $html = requests::get("https://news.cnblogs.com/n/622397/");
$data = selector::select($html, '//*[@id="news_content"]'); var_dump($data);
今天练习爬虫, 爬文章爬到一半突然提示content没爬到, 后来用单页测试发现其实是没有登陆, 现在用cookie 模拟登陆, 具体看手册
phpSpider 单页测试_模拟登陆的更多相关文章
- pytho简单爬虫_模拟登陆西电流量查询_实现一键查询自己的校园网流量
闲来无事,由于校园内网络是限流量的,查询流量很是频繁,于是萌生了写一个本地脚本进行一键查询自己的剩余流量. 整个部分可以分为三个过程进行: 对登陆时http协议进行分析 利用python进行相关的模拟 ...
- python爬虫学习(3)_模拟登陆
1.登陆超星慕课,chrome抓包,模拟header,提取表单隐藏元素构成params. 主要是验证码图片地址,在js中发现由js->new Date().getTime()时间戳动态生成url ...
- Python 2.7和3.6爬取妹子图网站单页测试图片
1.url= http://www.mzitu.com/74100/x,2为1到23的值 2.用到模块 os 创建文件目录; re模块正则匹配目录名 图片下载地址; time模块 限制下载时间;req ...
- Python 2.7_爬取妹子图网站单页测试图片_20170114
1.url= http://www.mzitu.com/74100/x,2为1到23的值 2.用到模块 os 创建文件目录; re模块正则匹配目录名 图片下载地址; time模块 限制下载时间;req ...
- 爬虫必知必会(4)_异步协程-selenium_模拟登陆
一.单线程+多任务异步协程(推荐) 协程:对象.可以把协程当做是一个特殊的函数.如果一个函数的定义被async关键字所修饰.该特殊的函数被调用后函数内部的程序语句不会被立即执行,而是会返回一个协程对象 ...
- 爬虫模拟登陆之formdata表单数据
首先HTTP协议是个无连接的协议,浏览器和服务器之间是以循环往复的请求回复来交互的,交互的形式是以文件形式来进行的.比如在chrome开发者工具network中看到了 每一行是一个文件,又文件大小啊, ...
- selenium自动化测试工具模拟登陆爬取当当网top500畅销书单
selenium自动化测试工具可谓是爬虫的利器,基本动态加载的网页都能抓取,当然随着大型网站的更新,也出现针对selenium的反爬,有些网站可以识别你是否用的是selenium访问,然后对你加以限制 ...
- 使用ApiPost测试接口时需要先登录怎么办?利用Cookie模拟登陆!
ApiPost简介: ApiPost是一个支持团队协作,并可直接生成文档的API调试.管理工具.它支持模拟POST.GET.PUT等常见请求,是后台接口开发者或前端.接口测试人员不可多得的工具 . 下 ...
- 使用webdriver+urllib爬取网页数据(模拟登陆,过验证码)
urilib是python的标准库,当我们使用Python爬取网页数据时,往往用的是urllib模块,通过调用urllib模块的urlopen(url)方法返回网页对象,并使用read()方法获得ur ...
随机推荐
- 牛客暑期第六场G /// 树形DP 最大流最小割定理
题目大意: 输入t,t个测试用例 每个测试用例输入n 接下来n行 输入u,v,w,树的无向边u点到v点权重为w 求任意两点间的最大流的总和 1.最大流最小割定理 即最大流等于最小割 2.无向树上的任意 ...
- VMware Workstation 10 简体中文安装教程
分享到 一键分享 QQ空间 新浪微博 百度云收藏 人人网 腾讯微博 百度相册 开心网 腾讯朋友 百度贴吧 豆瓣网 搜狐微博 百度新首页 QQ好友 和讯微博 更多... 百度分享 分享到 一键分享 QQ ...
- C++命令行多文件编译(g++)
在刚开始学Java时用命令行进行编译代码.而C++一直在用IDE, 这次尝试下命令行编译.vs下也可以用cl.exe.link.exe等命令来进行编译 但这次是通过安装MinGW来学习命令编译,主要用 ...
- CF596D Wilbur and Trees
题意:有一些高度为h的树在数轴上.每次选择剩下的树中最左边或是最右边的树推倒(各50%概率),往左倒有p的概率,往右倒1-p. 一棵树倒了,如果挨到的另一棵树与该数的距离严格小于h,那么它也会往同方向 ...
- TSP+期望——lightoj1287记忆化搜索,好题!
感觉是很经典的题 记忆化时因为不好直接通过E判断某个状态是否已经求过,所以再加一个vis打标记即可 /*E[S][u]表示从u出发当前状态是S的期望*/ #include<bits/stdc++ ...
- springboot与任务(定时任务)
描述: 项目开发中经常需要执行一些定时任务,比如需要在每天凌晨时候,分析一次前一天的日志信息.Spring为我们提供了异步执行任务调度的方式,提供TaskExecutor .TaskScheduler ...
- centos6 php7 安装 memcache 和 memcached
下载安装memcache 注意:官网的memcache包,暂时好像不支持php7.所以到下面地址下载memcache包,切换到php7分支 php7 memcache github 下载地址 官网下载 ...
- sde中导入shp报错
在向sde中的数据集导入shp数据,发现报如下错误:
- Windows操作系统下创建进程的过程
进程(Process)是具有一定独立功能的程序关于某个数据集合上的一次运行活动,是系统进行资源分配和调度的一个独立单位.程序只是一组指令的有序集合,它本身没有任何运行的含义,只是一个静态实体.而进程则 ...
- Struts2入门问题
一 使用Struts 2 开发程序的基本步骤 加载Struts2 类库 配置web.xml文件 开发视图层页面 开发控制层Action 配置struts.xml文件 部署.运行项目 第一步先导架包:在 ...