本文目的:介绍如何抓取微博内容,利用requests包+cookies实现登陆微博,lxml包的xpath语法解析网页,抓取目标内容. 所需python包:requests.lxml 皆使用pip安装即可 XPath即为XML路径语言,它是一种用来确定XML(标准通用标记语言的子集)文档中某部分位置的语言.XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力. xPath 同样也支持HTML. XPath 是一门小型的查询语言,这里我们将它与 python 爬虫相结合来介绍. xpa…
原文发表在我的博客主页,转载请注明出处. 前言 因为出差,前后准备总结了一周多,所以博客有所搁置.出差真是累人的活计,不过确实可以学习到很多东西,跟着老板学习做人,学习交流的技巧.入正题~ wireshark对于研究网络的人来说是一个必不可少的工具,从wireshark2.0开始,已经全面支持OpenFlow协议,对于研究SDN的人来说,也是一个很大的福音,今天就来介绍一个技巧--如何利用wireshark抓取远程linux上的数据包,利用这个技巧,我们不需要再搬个显示器到处跑,更不会对服务器束…
一.设置Fiddler代理 1.点击Tools-Fiddler Options进入Fiddler Options页面 2.点击Connections,将Fiddler listens on port设为8888,勾选Allow remote computers to connect 3.点击OK,代理设置完成,重启Fiddler配置生效. 二.设置夜神模拟器代理 1.点击设置,进入到wifi连接选项 2.点击wifi进入wifi选项,长按热点,出现修改网络的弹窗 3.点击修改网络,勾选高级选项,…
使用 usbmon 抓取 usb 总线上的数据 usbmon 即 usb monitor,是 linux 内置的 usb 抓包工具.usbmon 本质是一个内核模块,在我的 ubuntu14.0 4中,模块的位置:/lib/modules/4.4.0-31-generic/kernel/drivers/usb/mon/usbmon.ko. 1.检测内核是否支持 debugfs 文件系统 linux 系统支持很多类型的文件系统,像 ext3.sysfs.ramfs.tmpfs等文件系统,首先检测内…
一句话: ssh -t -p 端口号 用户名@远程机器IP '远程机器上的命令完整路径' 例如: ssh -t -p 22 yangjunming@dev '/opt/app/deploy.sh' 注意事项: 一般先配置ssh免密码登录,然后结合这个可以实现一键远程自动部署,大概思路如下: a)先在本机build项目(ant/maven/gradle均可) b) 然后打包成tar并copy到远程机器的指定目录(最简单的方式就是用scp) c) 调用远程机器上的shell脚本,解压tar并执行no…
本文是Heritrix的使用的高级篇,针对对Heritrix已经能够运行的码农朋友们! 我们在抓取网页的时候,网页的链接中往往会包含有js.css.图片.视频等文件,第一次执行抓取任务的时候,许多农民朋友们可能会发现抓取速度令人着急,可能是由于抓取了太多的不必要的数据文件,尤其是视频文件,少则几十兆,多则上百兆,这严重影响了我们的抓取的速度,还有一些缓存文件,配置文件等等. 那么如何才能做到只抓取html网页呢?(这里暂且不讨论抓取抓取指定域名的html网页,在之后的文章中可能会列出来!) 1.…
很多小伙伴在做App测试时,一遇到Cash,开发同学最常说的一句话,就是抓下Locat日志,很多小伙伴一听到这个抓取日志就会觉得有点烦. ​主要有2点: ​    ​    ​1.是这个bug可能不好复现 ​    ​    ​2.可能不知道怎么更快的抓取日志 ​下面小弟分享一个可以秒抓取Android Log的日志的脚本,希望能帮忙各位小伙伴解决这个难题,好了,不说废话了,直接上代码咯! ​ import osimport sys packageName=str(sys.argv[1]) co…
前言:现在很多网站采用https协议,当打开fiddler时.浏览https协议的网站会提示不安全,若使用fiddler抓取https协议的请求,则需要向浏览器导入证书,才能抓取https协议的请求,进行分析 目录 1.下载fiddler 2.下载证书生成器 3.导出证书 4.导入到浏览器 1.下载fiddler 下载最新版的fiddler,网站 https://www.telerik.com/download/fiddler,完成安装 2.下载证书生成器 下载证书生成器,网站http://ww…
一:curl 函数和参数详解 函数库:1:curl_init 初始化一个curl会话2:curl_close 关闭一个curl会话3:curl_setopt 为一个curl设置会话参数4:curl_error 返回一个包含当前会话错误信息的字符串5:curl_exec 执行一个curl会话6:curl_multi_add_handle 向curl批处理会话中添加单独的curl句柄资源7:curl_multi_close 关闭一个批处理句柄资源8:curl_multi_exec 解析一个curl批…
var table='<table><tr><td>序号</td><td>字段名</td><td>Schema名称</td><td>数据类型</td><td>是否必填</td><td>输入描述</td><td>输出描述</td></tr>'; $('iframe')[1].contentWindow.Xr…