$.ajax({  url: "http://192.168.1.59:8888/app-tpl-webapp/tpl/design.html",  async:false,  type:'post',  dataType:'html',  success:function(data) {      console.log("-------------------------------------------------");      var htmlTe…
 $.ajax({  url: "http://192.168.1.59:8888/app-tpl-webapp/tpl/design.html",  async:false,  type:'post',  dataType:'html',  success:function(data) {      console.log("-------------------------------------------------");      var htmlTe…
前言: 太懒了,从没有在这里正儿八经的写过文章.看到一些人的高产,真是惭愧.决定稍微变得不那么懒.如有疏漏,请指正. .net的GC都谈的很多了,本篇主要是剑走偏锋,聊聊一些个人认为较为核心的细节方面的问题.至于,标记,计划,压缩,清扫这些不在讨论之列. 动态函数头地址的一些概念: 一段内存有内存的起始地址(暂叫base),内存的结束地址,以及内存指针当前指向的地址大致的三个概念.而在这段内存里面分配了函数之后,一个函数在内存里面必定有一个函数的起始地址也就是指令(第一个push)所在的地址,称…
Htmlunit是一款模拟浏览抓取页面内容的java框架,具有js解析引擎(rhino),可以解析页面的js脚本,得到完整的页面内容,特殊适合于这种非完整页面的站点抓取. 下载地址: https://sourceforge.net/projects/htmlunit/files/htmlunit/ maven地址: <dependency> <groupId>net.sourceforge.htmlunit</groupId> <artifactId>htm…
最近,笔者在使用Requests模拟浏览器发送Post请求时,发现程序返回的html与浏览器F12观察到的略有不同,经过观察返回的response.text,cookies确认有效,因为我们可以看到返回的登陆信息.然而部分字段的值依然显示为空. 下图是浏览器F12抓包看到的界面: 由于笔者在查看第一个接口请求时,观察浏览器捕获到的Response(html文件)跟页面展示的信息一致,就单纯以为只要用requests库构造这个请求即可.然而实际上第一个表单只是返回了前台页面的框架,很多数据都是通过…
jsp页面表格布局Html代码 <body onload="show()"> <center> <input type="text" value="111" id="mytext"> <table border="1" width="60%" id="mytable"> <tr> <td id=&quo…
自学python爬虫也快半年了,在目前看来,我面临着三个待解决的爬虫技术方面的问题:动态加载,多线程并发抓取,模拟登陆.目前正在不断学习相关知识.下面简单写一下用selenium处理动态加载页面相关的知识.目标——抓取页面所有的高考录取分数信息. 对于动态加载,开始的时候是看到Selenium+Phantomjs的强大,直接就学的这个.打开网页查看网页源码(注意不是检查元素)会发现要爬取的信息并不在源码里面.也就是说,从网页源码无法通过解析得到数据.Selenium+Phantomjs的强大一方…
介绍本篇内容前,先抛出我遇到的问题或者说是需求!(精读阅读本篇可能花费您15分钟,略读需5分钟左右) 一:需求说明 有一个Controller有两个方法 第一个方法通过指定的路径和参数去渲染jsp内容,并返回html数据 第二个方法获取第一个方法中的html进行封装 现在的做法是在第二个方法通过发送Http请求获取数据,然后返回进行封装! 问题: 需要优化的是 不通过Http请求,第二个方法可以拿到第一个方法中的Html数据 二:简化例子(待优化的例子) 注:使用的SpringMVC框架,使用贴…
注: 上一篇<Python+Selenium爬取动态加载页面(1)>讲了基本地如何获取动态页面的数据,这里再讲一个稍微复杂一点的数据获取全国水雨情网.数据的获取过程跟人手动获取过程类似,所以也不会对服务器造成更大负荷.本文的代码见Selenium获取动态页面数据2.ipynb或Selenium获取动态页面数据2.py.同样在开始前需要准备环境,具体环境准备参考上一篇. 1.数据获取目标 全国水雨情网的数据同样是动态加载出来的,在浏览中打开网页后http://xxfb.hydroinfo.gov…
注: 最近有一小任务,需要收集水质和水雨信息,找了两个网站:国家地表水水质自动监测实时数据发布系统和全国水雨情网.由于这两个网站的数据都是动态加载出来的,所以我用了Selenium来完成我的数据获取.数据的获取过程跟人手动获取过程类似,所以也不会对服务器造成更大负荷.这是我写的第1个爬虫,初次接触,还请各位多多指教.本文的代码见Selenium获取动态页面数据1.ipynb或Selenium获取动态页面数据1.py. 1.准备环境 工欲善其事,必先装好环境,耐心地把下面的环境装好. 建议安装Py…