工作中,常常会用到网页元素的定位方式,常用的有xpath和css path两种定位方式. 现在简单介绍如何使用工具自动生成元素的定位字符串. 首先介绍在火狐浏览器上使用FireBug及其扩展FirePath两款工具,它们可以自动生成定位字符串和验证自己编辑的定位字符串能否匹配网页元素. 对着这两款工具截图如下: 使用方法: 打开一个网页,例如www.hao123.com; 鼠标右键点击一个页面元素——使用FireBug查看页面元素,鼠标单击页面左上角的FireBug插件图标或者按下F12键,三种…
在上篇文章里,介绍了如何在火狐浏览器中获取网页元素的xpath和css path. 这篇文章将介绍,在谷歌浏览器中使用SelectorGadget和Xpath Helper实现同样功能. 这两个谷歌浏览器的扩展程序截图如下: 使用方法如下: 打开一个网页,例如www.hao123.com; 开启SelectorGadget(点击一个放大镜图案的按钮即可); 移动鼠标箭头到一个页面元素上并单击,该页面元素会变成绿色,SelectorGadget的文本框内显示出被选中页面元素的css path类型的…
一.CSS如何设置字体的类型.大小.颜色 设计网页时,一般设置body的字体,让其他标签继承body的字体,这样设置特别方便,但是标题标签h1到h6和表单标签(input类型)是没有继承body的字体属性的,它们的字体需要单独设置. 1,  新建一个网页a.html,把下面的代码复制进去. <html> <head> <style type="text/css"> body { font-family : 微软雅黑,宋体; font-size : 1…
什么是Firebug 从事了数年的Web开发工作,越来越觉得现在对WEB开发有了更高的要求.要写出漂亮的HTML代码:要编写精致的CSS样式表展示每个页面模块:要调试javascript给页面增加一些更活泼的要素:要使用Ajax给用户带来更好的体验.一个优秀的WEB开发人员需要顾及更多层面,才能交出一份同样优秀的作业.为帮助广大正处于Web2.0洪流中的开发人员,在这里为大家介绍一款轻巧灵活的辅助开发工具. Firebug是Firefox下的一款开发类插件,现属于Firefox的 五星级强力推荐…
1.下载FF55以内版本安装包,安装后在Firefox 更新选择"不检查更新" 2.火狐浏览器各个版本下载地址:http://ftp.mozilla.org/pub/firefox/releases/ 3.在火狐随便下载任意一个插件[目的是在配置文件夹里增加一个“extensions”的文件夹] 4.在火狐菜单点击下方小问号,点击“故障排除信息”,新页面的“配置文件夹”那里选择“打开文件夹”. 5.解压这个压缩包,看到一个firebug文件夹和两个xpi文件. 压缩包下载: 链接:ht…
  又到了上图时间了..对照这张图,各个时间所对应的意义就很简单明了.   阻挡(Blocking):每个浏览器有并发连接数量的上限(例如Firefox对每个host限制6个连接),如果当前建立的连接数已经超过上限,那么其余该请求会被阻塞,等待新的可以用的连接. 域名解析(DNS Lookup):这个不用解释了吧,就是从DNS请求发出去到收到回复的时间.即上图中DNS的那一段. 建立连接(Connecting):三次握手建立TCP链接的时间.如果是HTTPS的话,还有SSL链接的时间.对应图中T…
scrapy version -v #该命令用于查看scrapy安装的相关组件和版本 一个工程下可创建多个爬虫 scrapy genspider rxmetal rxmetal.com scrapy genspider rxmetal2 rxmetal2.com scrapy genspider rxmetal3 rxmetal3.com .......... #该命令用于查看目录下的所有爬虫文件 scrapy list #一个超级有用的玩意儿---------xpath目录文档获取器 #scr…
一.Chrome浏览器 1.1 获取XPath 1.  使用浏览器打开需测试的网址,然后点击[F12]按钮,打开开发者调试工具: 2.  点击开发者工具中第一行的第一个对话框Elements,这时就看到了网页的源代码. 3.  接下来找到要定位的元素,在列表上点击右键,Copy--->“Copy Xpath”,就获取到对应的Xpath 了 1.2 验证XPath和CSS路径 console:使用chrome打开要测试的网站,按下F12打开开发者调试工具,console就嵌套在调试工具里 1. […
//如果网页源码中有些内容是js渲染过来的,那你通过HttpClient直接取肯定取不到,但是这些数据一般都是通过异步请求传过来的(一般都是通过ajax的get或者post方式).那么你可以通过火狐浏览器的firebug或者chrome的审查元素,在网络选项中找到这个请求地址,再用HttpClient请求一次就可以拿到你想要的数据,但这些数据可能不是网页源码,一般都是json字符串.//朋友你好我现在是HtmlUnit运用者,我现在在项目爬去中遇见一个非常棘手的问题,就是分页数据怎样爬取,我现在…
Xpath是xml的路径语言,就是通过元素的路径来查找标签元素. Xpath直接在火狐浏览器的firebug中练习,49版本一下的火狐才能用firebug插件. Xpath的使用方法 注://*   代表页面下的所有元素      *代表所有的可以被其他的标签代替    @后面是属性定位 1.Xpath 支持ID/Class/Name 定位功能 通过ID定位 //*[@id='inner']     查找id =inner的标签 通过Class定位 //*[@class='class1']   …