原本使用xpath helper匹配的时候还是好好的,然鹅,把这个.//*[@id='novelInfo']/table/tbody/tr[3]/td[1]/复制到代码里就不行了,debug的时候显示none novelMonthClick=response.xpath(".//*[@id='novelInfo']/table/tbody/tr[3]/td[1]/text()").extract_first() 这里debug结果时None 由于我要爬取的信息在第二个tap的一个表格里…
1.首先在以下链接下载XPath Helper插件,链接:https://pan.baidu.com/s/1Ng7HAGgsVfOyqy6dn094Jg 提取码:a1dv 2.插件下载完成后解压,然后在解压文件中找到2.0.2_0.crx文件,并将其后缀crx改成rar,如下衅所示: 3.解压2.0.2_0.rar文件 4.按下图进入扩展程序界面 5.先点击开发者模式,然后点击加载已解压的扩展程序 6.弹出对话框后,按下图依次选择 7.这样就成功加载了XPath Helper插件了,点击此处即可…
用于XPath 爬取网页结构的时候使用, 安装后 快捷键调用 左边 ctrl+ shift+x 启动 安装流程: 1. 打开chrome浏览器,扩展程序 .搜索 XPath Helper 下载安装(前提需要梯子,因为这个是属于goolge商店应用) 有这个显示就是安装成功了 2.  点击详情,勾选隐身模式…
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神 本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http://www.xiaohuar.com/,让你体验爬取校花的成就感. Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试. Scrapy吸引人的地方在于它是一个框架,任何人都可…
在上篇文章里,介绍了如何在火狐浏览器中获取网页元素的xpath和css path. 这篇文章将介绍,在谷歌浏览器中使用SelectorGadget和Xpath Helper实现同样功能. 这两个谷歌浏览器的扩展程序截图如下: 使用方法如下: 打开一个网页,例如www.hao123.com; 开启SelectorGadget(点击一个放大镜图案的按钮即可); 移动鼠标箭头到一个页面元素上并单击,该页面元素会变成绿色,SelectorGadget的文本框内显示出被选中页面元素的css path类型的…
一.简介 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架.它集成高性能异步下载,队列,分布式,解析,持久化等. Scrapy 是基于twisted框架开发而来,twisted是一个流行的事件驱动的python网络框架.因此Scrapy使用了一种非阻塞(又名异步)的代码来实现并发.它是爬虫界最知名的框架.就好比web框架中的django.Scrapy之所以能实现异步,得益于twisted框架.twisted有事件队列,哪一个事件有活动,就会执行! 1. 安装 Linux:pip…
starts-with 顾名思义,匹配一个属性开始位置的关键字 contains 匹配一个属性值中包含的字符串 text() 匹配的是显示文本信息,此处也可以用来做定位用 eg //input[starts-with(@name,'name1')]     查找name属性中开始位置包含'name1'关键字的页面元素 //input[contains(@name,'na')]         查找name属性中包含na关键字的页面元素 <a href="http://www.baidu.c…
下载地址 百度网盘下载密码:yuuv下载完成后选择保留 安装 在导航栏中输入chrome://extensions:将.crx文件拖拽到扩展程序页面中,勾选已启用按钮. 使用 重启浏览器,快捷键CTRL+SHIFT+X开启XPath Helper插件:长按CTRL+SHIFT,鼠标指向需提取的段落,按X开启或关闭提取,提取到的段落会变为黄色. --------------------…
xPath Helper插件 xPath helper是一款Chrome浏览器的开发者插件,安装了xPath helper后就能轻松获取HTML元素的xPath,程序员就再也不需要通过搜索html源代码,定位一些id去找到对应的位置去解析网页了. xPath Helper的用法: 这里说的是Chrome下的xpath的用法.所以,提前百度下载xpath helper 打开/关闭xpath helper:ctrl+shift+x 如果我们要查找某一个.或者某一块元素的xpath路径,可以按住shi…
xPath Helper插件 xPath helper是一款Chrome浏览器的开发者插件,安装了xPath helper后就能轻松获取HTML元素的xPath,程序员就再也不需要通过搜索html源代码,定位一些id去找到对应的位置去解析网页了. xPath Helper的用法: 这里说的是Chrome下的xpath的用法.所以,提前百度下载xpath helper 打开/关闭xpath helper:ctrl+shift+x 如果我们要查找某一个.或者某一块元素的xpath路径,可以按住shi…