使用Selenium+firefox抓取网页指定firefox

from: https://blog.csdn.net/chufazhe/article/details/51145834

摘要：
在使用selenium和firefox抓取网页指定firefox_profile后遇到问题，生成的日志文件太大直接导致C盘资源耗尽，火狐浏览器直接就停止工作了。

一、环境
windows2008 server（尴尬，C盘空间还剧小）

python 3.4

selenium + firefox

二、代码情况
利用selenium 调用Firefox内核爬取网站

sFirefoxProfile ='C:\\Users\\username\\AppData\\Roaming\\Mozilla\\Firefox\\Profiles\\2alxrl56.default' # firefox 配置文件路径
fProfile= FirefoxProfile(sFirefoxProfile) # Firefox配置文件，如果不设置这个也可能会被认为是爬虫
driver = webdriver.Firefox(fProfile)

抓取一段时间之后发现爬虫不再抓取网页，火狐停止工作，发现是C盘用户路径下面生成了大量的临时文件，其中日志文件特别大。

C:\Users\username\AppData\Local\Temp\3\tmpuuvium\webdriver-py-profilecopy

爬虫每次启动之后都会从指定的Firefox配置文件路径复制到临时目录中，并且开始生成日志文件。

一开始我希望能够不让爬虫启动的时候都重新生成临时目录，直接使用上次复制后得到的配置文件，但是经过检索并没有发现可行的办法。在检索过程中发现了selenium.webdriver.firefox.firefox_profile 的<a target=_blank href="https://selenium.googlecode.com/git/docs/api/py/_modules/selenium/webdriver/firefox/firefox_profile.html">源代码</a>。发现并没有类似的方法，而且找到了每次生成临时目录的相关代码。

class FirefoxProfile(object):
ANONYMOUS_PROFILE_NAME = "WEBDRIVER_ANONYMOUS_PROFILE"
DEFAULT_PREFERENCES = None

def __init__(self, profile_directory=None):
"""
Initialises a new instance of a Firefox Profile
:args:
- profile_directory: Directory of profile that you want to use.
This defaults to None and will create a new
directory when object is created.
"""
if not FirefoxProfile.DEFAULT_PREFERENCES:
with open(os.path.join(os.path.dirname(__file__),
WEBDRIVER_PREFERENCES)) as default_prefs:
FirefoxProfile.DEFAULT_PREFERENCES = json.load(default_prefs)

self.default_preferences = copy.deepcopy(
FirefoxProfile.DEFAULT_PREFERENCES['mutable'])
self.native_events_enabled = True
self.profile_dir = profile_directory
self.tempfolder = None
if self.profile_dir is None:
self.profile_dir = self._create_tempfolder()
else:
self.tempfolder = tempfile.mkdtemp()
newprof = os.path.join(self.tempfolder, "webdriver-py-profilecopy")
shutil.copytree(self.profile_dir, newprof,
ignore=shutil.ignore_patterns("parent.lock", "lock", ".parentlock"))
self.profile_dir = newprof
self._read_existing_userjs(os.path.join(self.profile_dir, "user.js"))
self.extensionsDir = os.path.join(self.profile_dir, "extensions")
self.userPrefs = os.path.join(self.profile_dir, "user.js")

可以发现在设置FirefoxProfile的过程就会生成临时目录，并且会完成一次拷贝。而生成临时目录是通过tempfile的mkdtemp()实现的。
我去看了一下tempfile的mkdtemp()方法：

tempfile.mkstemp([suffix=''[, prefix='tmp'[, dir=None[, text=False]]]])

在未指定dir的情况下，将根据系统环境变量TMPDIR, TEMP或者TMP的设置来保存临时文件。由于不能在FireProfile的代码上改动，所以问题变成设置环境变量TMPDIR。

# 设置环境变量
os.environ['TMPDIR']=os.path.join(os.path.abspath('.'), 'profile')
这样，每次爬虫每次启动都会在当前目录的profile目录下生成临时文件。尽管解决方案不够理想，但是足够让爬虫继续运行下去了。
也许直接在Selenium的源代码直接修改后重新编译会更省事，留待以后尝试吧。

注：

python环境变量的设置

1、os.environ['环境变量名称']='环境变量值' #其中key和value均为string类型
2、os.putenv('环境变量名称', '环境变量值')

获取系统环境变量
1、os.environ['环境变量名称']
2、os.getenv('环境变量名称')

以上方法，推荐用os.environ，因为使用os.putenv()并不会真正改变os.environ字典里面的环境变量，即某些平台无效，但是使用os.environ有一个潜在的隐患：在一些平台上，包括FreeBSD和Mac OS X，修改environ会导致内存泄露。设置的环境变量只存在于当前的python shell中（设置成功后用print os.environ['环境变量名称']或printos.getenv('环境变量名称') 查看）。

参考资料：
1. FireProfile源代码：

https://selenium.googlecode.com/git/docs/api/py/_modules/selenium/webdriver/firefox/firefox_profile.html

2. tempfile的相关方法：

http://www.cnblogs.com/captain_jack/archive/2011/01/19/1939555.html

3. python设置获取环境变量的方法：

http://aurorawu.lofter.com/post/18f005_6fd653

使用Selenium+firefox抓取网页指定firefox_profile后的问题的更多相关文章

c# 关于抓取网页源码后中文显示乱码的原因分析和解决方法
原因分析:首先,目前大多数网站为了提升网页浏览传输速率都会对网站内容在传输前进行压缩,最常用的是GZIP压缩解压解压算法,也是支持最广的一种. 因为网站传输时采用的是GZIP压缩传输,如果我们接受we ...
scrapy和selenium结合抓取动态网页
1.安装python (我用的是2.7版本的) 2.安装scrapy: 详情请参考 http://blog.csdn.net/wukaibo1986/article/details/8167590 ...
使用selenium webdriver+beautifulsoup+跳转frame，实现模拟点击网页下一页按钮，抓取网页数据
记录一次快速实现的python爬虫,想要抓取中财网数据引擎的新三板板块下面所有股票的公司档案,网址为http://data.cfi.cn/data_ndkA0A1934A1935A1986A1995. ...
[转载]爬虫的自我解剖(抓取网页HtmlUnit)
网络爬虫第一个要面临的问题,就是如何抓取网页,抓取其实很容易,没你想的那么复杂,一个开源HtmlUnit包,4行代码就OK啦,例子如下: 1 2 3 4 final WebClient webClie ...
爬虫的自我解剖(抓取网页HtmlUnit)
网络爬虫第一个要面临的问题,就是如何抓取网页,抓取其实很容易,没你想的那么复杂,一个开源`HtmlUnit`包,4行代码就OK啦,例子如下: final WebClient webClient=new ...
利用Crowbar抓取网页异步加载的内容 [Python俱乐部]
利用Crowbar抓取网页异步加载的内容 [Python俱乐部] 利用Crowbar抓取网页异步加载的内容在做 Web 信息提取.数据挖掘的过程中,一个关键步骤就是网页源代码的获取.但是出于各种原因 ...
PHP使用CURL抓取网页
CURL是一个非常强大的开源库,支持很多协议,包括HTTP.FTP.TELNET等,我们使用它来发送HTTP请求.它给我们带来的好处是可以通过灵活的选项设置不同的HTTP协议参数,并且支持HTTPS ...
python抓取网页过程
准备过程 1.抓取网页的过程准备好http请求(http request)->提交对应的请求->获得返回的响应(http response)->获得网页源码 2.GET还是POST ...
PHP利用Curl实现多线程抓取网页和下载文件
PHP 利用 Curl 可以完成各种传送文件操作,比如模拟浏览器发送GET,POST请求等等,然而因为php语言本身不支持多线程,所以开发爬虫程序效率并不高,一般采集数据可以利用 PHPquery ...

随机推荐

[django]form的content-type(mime)
form默认的content-type是 'application/x-www-form-urlencoded' 可以修改为多文档: enctype即为mime类型 <form action=& ...
异常的Error与Exception
一般不可处理:Error:是jvm抛出的严重性问题.已经严重影响程序执行例如:内存溢出等情况这种问题发生一般不针对处理,直接修改程序. 可处理:Exception: 该体系的特点:子类的后缀名都是 ...
Linux下搭建redis服务器
1.redis需要gcc的编译环境,在线安装gcc:# yum install gcc-c++ 2.上传redis的压缩包到Linux系统,解压 3.进入源码目录,编译(注意要有makefile), ...
tf实现LSTM时rnn.DropoutWrapper
转自:https://blog.csdn.net/abclhq2005/article/details/78683656 作者:abclhq2005 1.概念介绍所谓dropout,就是指网络中每个 ...
【Tools】-NO.4.Tools.1.VM.1.001-【VMware Workstation PRO 12 Install CentOS 7.1】-
1.0.0 Summary Tittle:[Tools]-NO.4.Tools.1.VM.1.001-[VMware Workstation PRO 12 Install CentOS 7.1]- S ...
利用Tensorflow实现神经网络模型
首先看一下神经网络模型,一个比较简单的两层神经. 代码如下: # 定义参数 n_hidden_1 = 256 #第一层神经元 n_hidden_2 = 128 #第二层神经元 n_input = 78 ...
mac book docker
mbp的某些方面还是挺有吸引力的啊但工作中大多数用的还是纯linux而不是类unix的mac os,要在家里的mac os x 和linux之间转转弯,有时候想想还是挺别扭的. 为了从公司-> ...
idc函数大全
A80_addcA80_addcixA80_addciyA80_addixA80_addiyA80_cmpdA80_cmpiA80_im0A80_im1A80_im2A80_jrcA80_jrncA8 ...
项目遇到的css样式
1. 这种怎么写?用radio,我这里用的时element的radio <div class="menu"> <span>我的粉丝({{totalNumbe ...
(转)Xcode导航快捷键（大全）
Xcode导航快捷键1.工程导航器:Command+1快速浏览代码.图片以及用户界面文件. 2.显示/隐藏导航器面板:Command+0当你在对屏幕进行截图的时候可能会想要隐藏起与你感兴趣内容的无关的 ...

使用Selenium+firefox抓取网页指定firefox_profile后的问题

使用Selenium+firefox抓取网页指定firefox_profile后的问题的更多相关文章

随机推荐

热门专题