1.将网址在页面上打开可以正常访问,但是用file_get_content请求则访问不到.这个是因为对方挡住了非浏览器访问导致的.需要改下php配置,模拟浏览器访问. user_agent="Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0)" 2.这只是其中一个原因,还有一些网站做了cookie验证,这个时候就需要模拟cookie…
这两天客户的需求不能定下来,做闲人好长时间了,不如来整理下最近碰到的一些个小麻烦. 正题: 场景一. 最近在开发的过程中使用到了百度的富客户端文本编辑器(ueditor)---这是一款功能很强大的文本编辑器, 现在需求:当在这个页面打开以后需要把用户上次编辑的信息写回到此文本编辑器中去,这里使用的方法是ueditor给定的方法.同时使用iframe对此编辑器进行了页面嵌套的显示. //将html代码展示到编辑器中. function insertHtml(value) { setContent(…
1.环境搭建 jdk1.6版本:selenium 2.4版本. jdk1.8版本:selenium3.14版本. (1)selenium的jar包下载: 地址:http://selenium-release.storage.googleapis.com/index.html 需要用:selenium-server-standalone-3.9.1.jar(需要在cmd下安装,java -jar ***),selenium-java-2.40.0.jar,selenium-java-2.40.0-…
Python+Selenium自动化-获取页面信息   1.获取页面title title:获取当前页面的标题显示的字段 from selenium import webdriver import time browser = webdriver.Chrome() browser.get('https://www.baidu.com') #打印网页标题 print(browser.title) #输出内容:百度一下,你就知道 2.获取页面URL current_url:获取当前页面的URL fr…
WebClient可以下载远程页面信息,这个大家应该都知道,核心代码如下: WebClient web = new WebClient(); string url = String.Format("http://zzk.cnblogs.com/s?w=WebClient&t=b"); web.Headers.Add("User-Agent", "*******************"); web.Headers.Add("Re…
原文地址:http://javaz.cn/site/javaz/site_study/info/2015/23312.html 项目地址:http://www.freeteam.cn/ Web页面信息採集 从FreeCMS 2.1開始支持 通过简单配置就可以抓取目标网页信息,支持增量式採集.keyword替换.定时採集,同一採集规则可採集多个页面(静态和动态).可採集多种信息属性.可自己主动审核且静态化信息页面. 採集规则管理 从左側管理菜单点击採集规则进入. 加入採集规则 在採集规则列表下方点…
最近,笔者在使用Requests模拟浏览器发送Post请求时,发现程序返回的html与浏览器F12观察到的略有不同,经过观察返回的response.text,cookies确认有效,因为我们可以看到返回的登陆信息.然而部分字段的值依然显示为空. 下图是浏览器F12抓包看到的界面: 由于笔者在查看第一个接口请求时,观察浏览器捕获到的Response(html文件)跟页面展示的信息一致,就单纯以为只要用requests库构造这个请求即可.然而实际上第一个表单只是返回了前台页面的框架,很多数据都是通过…
根据关键字获取高德地图poi信息 百度地图和高德地图都提供了根据关键字获取相应的poi信息的api,不过它们提供给普通开发者使用的次数有限无法满足要求.其次百度地图返回的poi中位置信息不是经纬度,而高德地图则可以返回poi的经纬度信息. 网页分析 目的 以关键字怡景中心城为例,我们需要使用爬虫获取到高德地图返回的所有相关poi信息,本例中主要获取poi的名称和经纬度信息. url分析 通过chrome浏览器的监控,最终找到查询结果是通过json的形式返回,请求链接是 http://ditu.a…
以前在做网站的时候,经常会遇到当前页的分类高亮显示,以便让用户了解当前处于哪个页面.之前一直是在每个不同页面写方法.工程量大,也不便于修改.一直在想有什么简便的方法实现.后来在网上查到可以用获取当前URL的详细信息来判断.所以收集了JQUERY获取URL的函数的资料. 设置或获取对象指定的文件名或路径.window.location.pathname例:http://localhost:8086/topic/index?topicId=361alert(window.location.pathn…
有的时候iframe的子页面会动态的切换页面,我们在父页面通过iframe1.contentWindow.window.location只能获取同源的子页面的信息.获取跨域的子页面信息会报错. 这时可以通过html5 提供的接口 postMessage来过去跨域子页面信息.如下代码: 在localhost:8000服务器下的入口测试页面:http://localhost:8000/index.html <!DOCTYPE html> <html lang="en"&g…