环境搭建:Windows 7 64bit jdk包:jdk-8u171-windows-x64.exe(http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html) 安卓sdk:adt-bundle-windows-x86_64-20140702(https://developer.oculus.com/documentation/mobilesdk/0.6/concepts/mobile…
作业来源: "https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2851" ** 1.简述爬虫原理 通用爬虫 即(搜索引擎),通过各站点主动提交域名等信息,或与DNS服务商合作,爬取大部分站点信息 聚焦爬虫 通过模拟用户(即客户端浏览器)访问服务器的行为,从而达到欺骗服务器,获取数据. 2.理解(聚焦)爬虫开发过程 发起请求 向目标服务器发送一个伪造的请求报文 获取响应 得到服务器响应的数据 解析内容 将得到的数据按一定方式…
延续上一篇,想把自己博客的文档标题利用Node.js的request全提取出来,于是有了下面的初哥爬虫,水平有限,这只爬虫目前还有点瘸腿,请看官你指正了. // 内置http模块,提供了http服务器和客户端功能 var http=require("http"); // 内置文件处理模块 var fs=require('fs'); // 创建一个将流数据写入文件的WriteStream对象 var outstream=fs.createWriteStream('./1.txt'); /…
爬前叨叨 从40篇博客开始,我将逐步讲解一下手机APP的爬虫,关于这部分,我们尽量简化博客内容,在这部分中可能涉及到一些逆向,破解的内容,这部分尽量跳过,毕竟它涉及的东西有点复杂,并且偏离了爬虫体系太远,有兴趣的博友,可以一起研究下. 之前看到知乎有人对手机App爬虫归类,基本符合规则,接下来的10篇博客可能集中在80%的App上,所以还是比较简单的 50%的app,通过抓包软件就可以分析出抓取参数并抓取到信息. 30%的app,可能需要适当的反编译,分析出加密算法并抓取到信息. 10%的app…
抓包 抓包是爬虫里面经常用到的一个词,完整的应该叫做抓取数据请求响应包 ,而Fiddler这款工具就是干这个的 普通https抓包设置 打开Fiddler ------> Options .然后打开的对话框中,选择HTTPS tab页,如图所示: 说明 (配置完后记得要重启Fiddler) 选中"Decrpt HTTPS traffic", Fiddler就可以截获HTTPS请求 Ignore server certificate errors忽略证书错误 第一次会提示是否信任f…
背景:夜神模拟器是一款功能强大的安卓模拟器,但是当我们在上面下载APP应用后,通常不知道apk文件在哪里,下面以“微信”APP为例做一下详细介绍. 一般情况下,使用夜神安卓模拟器下载的文件只能在夜神安卓模拟器里面看到,因为其下载的位置是在模拟器的景象文件里,电脑系统的文件夹里是无法直接看到的.不过用户可以使用夜神安卓模拟器里面的[共享文件夹]功能,将模拟器里面的文件复制出来,这样就可以直接在电脑上面访问了. 夜神安卓模拟器常用文件夹目录路径(仅供参考,以实际情况为准) 1.照相机的照片和视频:/…
前言:之前工作之余的时间自己做了一个web APP,但是都是在浏览器上调试的,这次想看看在手机上啥效果,所以下载了一个夜神模拟器 一.下载夜神模拟器 https://www.yeshen.com/ 二.设置端口并打开webAPP 我用的编辑器是hbuilderx,夜神模拟器默认的端口是62001,配置编辑器端口完之后,运行到手机或模拟器, 还需要设置网络,点击夜神模拟器设置 然后就可以在夜神模拟器上打开你的webAPP了 三,关于夜神模拟器访问服务端跨域问题 一般前后端分离都会涉及到跨域问题,关…
准备工具 : 1 Charles   : https://www.charlesproxy.com  (收费) 2 夜神模拟器  : https://www.yeshen.com  (免费) 2 模拟器设置 或者 点击wifi 进入 鼠标长按wifi 进入修改界面(不要点击.鼠标左键点击按住 停留几秒) 点击 修改网络  如下图所示地址,填写你电脑的ip地址 (不确定的可以  cmd   ipconfig 查看) 设置完成 3  抓包 运行 charles 可以看到所有夜神模拟器上边的接口抓包数…
一.写在前面 之前写的爬虫都是单机爬虫,还没有尝试过分布式爬虫,这次就是一个分布式爬虫的初体验.所谓分布式爬虫,就是要用多台电脑同时爬取数据,相比于单机爬虫,分布式爬虫的爬取速度更快,也能更好地应对IP的检测.本文介绍的是利用Redis数据库实现的分布式爬虫,Redis是一种常用的菲关系型数据库,常用数据类型包括String.Hash.Set.List和Sorted Set,重要的是Redis支持主从复制,主机能将数据同步到从机,也就能够实现读写分离.因此我们可以利用Redis的特性,借助req…
一.写在前面 之前写的爬虫都是单机爬虫,还没有尝试过分布式爬虫,这次就是一个分布式爬虫的初体验.所谓分布式爬虫,就是要用多台电脑同时爬取数据,相比于单机爬虫,分布式爬虫的爬取速度更快,也能更好地应对IP的检测.本文介绍的是利用Redis数据库实现的分布式爬虫,Redis是一种常用的菲关系型数据库,常用数据类型包括String.Hash.Set.List和Sorted Set,重要的是Redis支持主从复制,主机能将数据同步到从机,也就能够实现读写分离.因此我们可以利用Redis的特性,借助req…