<?php

require './vendor/autoload.php';
use phpspider\core\phpspider;
use phpspider\core\requests;
use phpspider\core\selector; // 模拟登陆
$cookies = ".Cnblogs.AspNetCore.Cookies=CfDJ8D8Q4oM3DPZMgpKI1MnYlrnbT-Q5FNFtE5gJz6EC9NUFS4s5tY90etNYfXhxBULkAtgiVUEQpu3xvGN5NbKtjWVbjipgpDGXRWmtUxERSUzEYO5aigBk64r1_Nw6qCbl7XdE7xlrkWGt3BHDHzbshM_vvpvQrYi0HcGULnWpps53kft1wmcwqebM43cygT46x9UmEDNBo0cIwjnmh6lWmr7SYPLwNvDzcIAUi1QweoR_oACumO_bb6Ui03eNcnV1EjRT8nBDmlAt4krV8Kut0Myhazr-2wFUtfX1wfFbQcODJfdsQIxtCbeUtqlVazjoR9fk1yDfdX8hhdpiJNCLHC0lQTGScnnhqSEw9GvgTVfcncWabzy0bdgOYN065sqeaiZ_YDtSXZ98cIpHf9H9PZvgbUJt_AYvfy8V_UCiiYlYjfwL0EISEgBw2vJ1lPKh6g; .CNBlogsCookie=3116D18662591FE8B4EBCF4D2CFABF26DE31EAC9B4FEEB6678596D5B0CDF03F30A4B263C5AD0D9602CFA9A9E4C9C9E8777A043F142B39F33A93820ED1DDB56E0C1015677A27075E3F87EE102495026207369F4C4; __guid=66375729.1960077102075662600.1558606026718.039; __utma=66375729.744539077.1558606027.1558606027.1558606027.1; __utmc=66375729; __utmz=66375729.1558606027.1.1.utmcsr=account.cnblogs.com|utmccn=(referral)|utmcmd=referral|utmcct=/signin; __utmt=1; __gads=ID=2255b76d980bc782:T=1558606024:S=ALNI_MYpF8olMfOsZHG-kg_ox-2_-UCy4g; monitor_count=2; __utmb=66375729.2.10.1558606027";
requests::set_cookies($cookies, 'news.cnblogs.com'); $html = requests::get("https://news.cnblogs.com/n/622397/");
$data = selector::select($html, '//*[@id="news_content"]'); var_dump($data);

今天练习爬虫, 爬文章爬到一半突然提示content没爬到, 后来用单页测试发现其实是没有登陆, 现在用cookie 模拟登陆, 具体看手册

phpSpider 单页测试_模拟登陆的更多相关文章

  1. pytho简单爬虫_模拟登陆西电流量查询_实现一键查询自己的校园网流量

    闲来无事,由于校园内网络是限流量的,查询流量很是频繁,于是萌生了写一个本地脚本进行一键查询自己的剩余流量. 整个部分可以分为三个过程进行: 对登陆时http协议进行分析 利用python进行相关的模拟 ...

  2. python爬虫学习(3)_模拟登陆

    1.登陆超星慕课,chrome抓包,模拟header,提取表单隐藏元素构成params. 主要是验证码图片地址,在js中发现由js->new Date().getTime()时间戳动态生成url ...

  3. Python 2.7和3.6爬取妹子图网站单页测试图片

    1.url= http://www.mzitu.com/74100/x,2为1到23的值 2.用到模块 os 创建文件目录; re模块正则匹配目录名 图片下载地址; time模块 限制下载时间;req ...

  4. Python 2.7_爬取妹子图网站单页测试图片_20170114

    1.url= http://www.mzitu.com/74100/x,2为1到23的值 2.用到模块 os 创建文件目录; re模块正则匹配目录名 图片下载地址; time模块 限制下载时间;req ...

  5. 爬虫必知必会(4)_异步协程-selenium_模拟登陆

    一.单线程+多任务异步协程(推荐) 协程:对象.可以把协程当做是一个特殊的函数.如果一个函数的定义被async关键字所修饰.该特殊的函数被调用后函数内部的程序语句不会被立即执行,而是会返回一个协程对象 ...

  6. 爬虫模拟登陆之formdata表单数据

    首先HTTP协议是个无连接的协议,浏览器和服务器之间是以循环往复的请求回复来交互的,交互的形式是以文件形式来进行的.比如在chrome开发者工具network中看到了 每一行是一个文件,又文件大小啊, ...

  7. selenium自动化测试工具模拟登陆爬取当当网top500畅销书单

    selenium自动化测试工具可谓是爬虫的利器,基本动态加载的网页都能抓取,当然随着大型网站的更新,也出现针对selenium的反爬,有些网站可以识别你是否用的是selenium访问,然后对你加以限制 ...

  8. 使用ApiPost测试接口时需要先登录怎么办?利用Cookie模拟登陆!

    ApiPost简介: ApiPost是一个支持团队协作,并可直接生成文档的API调试.管理工具.它支持模拟POST.GET.PUT等常见请求,是后台接口开发者或前端.接口测试人员不可多得的工具 . 下 ...

  9. 使用webdriver+urllib爬取网页数据(模拟登陆,过验证码)

    urilib是python的标准库,当我们使用Python爬取网页数据时,往往用的是urllib模块,通过调用urllib模块的urlopen(url)方法返回网页对象,并使用read()方法获得ur ...

随机推荐

  1. 牛客暑期第六场G /// 树形DP 最大流最小割定理

    题目大意: 输入t,t个测试用例 每个测试用例输入n 接下来n行 输入u,v,w,树的无向边u点到v点权重为w 求任意两点间的最大流的总和 1.最大流最小割定理 即最大流等于最小割 2.无向树上的任意 ...

  2. VMware Workstation 10 简体中文安装教程

    分享到 一键分享 QQ空间 新浪微博 百度云收藏 人人网 腾讯微博 百度相册 开心网 腾讯朋友 百度贴吧 豆瓣网 搜狐微博 百度新首页 QQ好友 和讯微博 更多... 百度分享 分享到 一键分享 QQ ...

  3. C++命令行多文件编译(g++)

    在刚开始学Java时用命令行进行编译代码.而C++一直在用IDE, 这次尝试下命令行编译.vs下也可以用cl.exe.link.exe等命令来进行编译 但这次是通过安装MinGW来学习命令编译,主要用 ...

  4. CF596D Wilbur and Trees

    题意:有一些高度为h的树在数轴上.每次选择剩下的树中最左边或是最右边的树推倒(各50%概率),往左倒有p的概率,往右倒1-p. 一棵树倒了,如果挨到的另一棵树与该数的距离严格小于h,那么它也会往同方向 ...

  5. TSP+期望——lightoj1287记忆化搜索,好题!

    感觉是很经典的题 记忆化时因为不好直接通过E判断某个状态是否已经求过,所以再加一个vis打标记即可 /*E[S][u]表示从u出发当前状态是S的期望*/ #include<bits/stdc++ ...

  6. springboot与任务(定时任务)

    描述: 项目开发中经常需要执行一些定时任务,比如需要在每天凌晨时候,分析一次前一天的日志信息.Spring为我们提供了异步执行任务调度的方式,提供TaskExecutor .TaskScheduler ...

  7. centos6 php7 安装 memcache 和 memcached

    下载安装memcache 注意:官网的memcache包,暂时好像不支持php7.所以到下面地址下载memcache包,切换到php7分支 php7 memcache github 下载地址 官网下载 ...

  8. sde中导入shp报错

    在向sde中的数据集导入shp数据,发现报如下错误:

  9. Windows操作系统下创建进程的过程

    进程(Process)是具有一定独立功能的程序关于某个数据集合上的一次运行活动,是系统进行资源分配和调度的一个独立单位.程序只是一组指令的有序集合,它本身没有任何运行的含义,只是一个静态实体.而进程则 ...

  10. Struts2入门问题

    一 使用Struts 2 开发程序的基本步骤 加载Struts2 类库 配置web.xml文件 开发视图层页面 开发控制层Action 配置struts.xml文件 部署.运行项目 第一步先导架包:在 ...