爬虫抓取数据时有些数据是动态数据,例如是用js动态加载的,使用普通的urllib2 抓取数据是找不到相关数据的,这是爬虫初学者在使用的过程中,最容易发生的情况,明明在浏览器里有相应的信息,但是在python抓取的网页中缺少了对应的信息,这通常是网页使用的是js异步加载数据,在动态显示出来.一种处理方式是找出相应的js接口,但是有时这是非常难得,因为还的分析js的调用参数,而有些参数是有加密的,还的进行解密操作:另一种出来方式是python调用浏览器,控制浏览器返回相应的信息,这也是本文要介绍的s…
需要安装的包: selenium 关于软件的驱动:selenium之 驱动环境配置chrome.firefox.IE 1 # encoding:utf-8 2 # Author:"richie" 3 # Date:8/16/2017 4 5 import re,json 6 from selenium import webdriver 7 8 def spider(url): 9 html = get_file(url) 10 com = re.compile(r'<li cla…
Selenium获取动态图片验证码 关于图片验证码的文章,我想大家都有一定的了解了. 在我们做UI自动化的时候,经常会遇到图片验证码的问题. 当开发不给咱们提供万能验证码,或者测试第三方网站比如知乎的时候,我们就需要自己去识别验证码. OCR OCR是一种图像文字识别的技术,例如图中的验证码,我们用肉眼识别就是c5s3,但机器可不比咱们肉眼.所以我们要利用ocr技术,让我们的Python脚本自动通过图片识别出对应的文字. 常见的识别类库 在Python中其实有许多识别类库,这里只介绍博主自己实践…
对于静态网页,使用requests等库可以很方便的得到它的网页源码,然后提取出想要的信息.但是对于动态网页,情况就要复杂很多,这种页面的源码往往只有一个框架,其内容都是由JavaScript渲染出来的.这时候,我们就可以使用selenium来直接驱动浏览器进行爬取. selenium是一个自动化测试工具,利用它可以驱动浏览器进行一系列操作,并且可以得到当前呈现的网页的源码,对动态页面的爬取非常有效.下面来说一下selenium的简单使用. 一.安装 1. selenium 推荐使用pip直接安装…
(一)  说明 上一篇只能下载一页的数据,第2.3.4....100页的数据没法获取,在上一篇的基础上修改了下,使用selenium去获取所有页的href属性值. 使用selenium去模拟浏览器有点麻烦,例如有300页就要点300次(按博客园这种一页20条,也就是6000条数据.要是几百万条,这个就得点好长时间了) 研究下有没有办法调用JS修改页面默认显示的数据条数(例如:博客园默认1页显示20条,改成默认显示1万条数据). (二)  完整代码 delayed.py的代码还是和之前一样.最好限…
上面一篇文章,使用了cheerio, http, request等库,来抓取了Lofter上面的美女图片. 但是很多网页是动态渲染的.据了解,Phantom.js 可以获取动态渲染的网页 http://phantomjs.org/ 研究一下.…
1.首先创见Core控制台应用程序  并且引入  AspNetCore.All 首先我们写入配置信息:直接代码如下 //配置信息的根对象 public static IConfigurationRoot Configuration { get; set; } //以键值对的形式拼装将要填添加在JSon配置文件的配置信息 var dic = new Dictionary<string, string> { {"Class", "配置信息"}, {"…
本地git库中,查找其连接的远端服务器信息: 每个git库都会有一个配置信息文件.git/config. cat .git/config,可以看到信息如下: [core]         repositoryformatversion = 0         filemode = true         bare = false         logallrefupdates = true [remote "origin"]         url = git@repo.XXX.c…
Selenium基于webkit实现爬虫功能 http://www.cnblogs.com/luxiaojun/p/6144748.html https://www.cnblogs.com/chenqingyang/p/3772673.html 现在headless chrome替代 PhantomJS https://zhuanlan.zhihu.com/p/27100187 from selenium import webdriver from selenium.webdriver.comm…
0-安装 我用python2.7,用pip安装selenium即可,phantomjs到官网下载安装,也不难. 1-主要参考的几篇文章 Python爬虫利器四之PhantomJS的用法 Python爬虫利器五之Selenium的用法 2-代码 from selenium import webdriver from urllib2 import quote import os import time os.getcwd() os.chdir('/Users/.../python/mywork')…