[Python爬虫] Selenium获取百度百科旅游景点的InfoBox消息盒

前面我讲述过如何通过BeautifulSoup获取维基百科的消息盒，同样可以通过Spider获取网站内容，最近学习了Selenium+Phantomjs后，准备利用它们获取百度百科的旅游景点消息盒（InfoBox），这也是毕业设计实体对齐和属性的对齐的语料库前期准备工作。希望文章对你有所帮助~

源代码

 # coding=utf-8

 """

 Created on 2015-09-04 @author: Eastmount

 """  

 import time

 import re

 import os

 import sys

 import codecs

 from selenium import webdriver

 from selenium.webdriver.common.keys import Keys

 import selenium.webdriver.support.ui as ui

 from selenium.webdriver.common.action_chains import ActionChains  

 #Open PhantomJS

 driver = webdriver.PhantomJS(executable_path="G:\phantomjs-1.9.1-windows\phantomjs.exe")

 #driver = webdriver.Firefox()

 wait = ui.WebDriverWait(driver,10)

 global info #全局变量

 #Get the infobox of 5A tourist spots

 def getInfobox(name):

     try:

         #create paths and txt files

         global info

         basePathDirectory = "Tourist_spots_5A"

         if not os.path.exists(basePathDirectory):

             os.makedirs(basePathDirectory)

         baiduFile = os.path.join(basePathDirectory,"BaiduSpider.txt")

         if not os.path.exists(baiduFile):

             info = codecs.open(baiduFile,'w','utf-8')

         else:

             info = codecs.open(baiduFile,'a','utf-8')  

         #locate input  notice: 1.visit url by unicode 2.write files

         print name.rstrip('\n') #delete char '\n'

         driver.get("http://baike.baidu.com/")

         elem_inp = driver.find_element_by_xpath("//form[@id='searchForm']/input")

         elem_inp.send_keys(name)

         elem_inp.send_keys(Keys.RETURN)

         info.write(name.rstrip('\n')+'\r\n')  #codecs不支持'\n'换行

         #print driver.current_url

         time.sleep(5)  

         #load infobox

         elem_name = driver.find_elements_by_xpath("//div[@class='basic-info']/dl/dt")

         elem_value = driver.find_elements_by_xpath("//div[@class='basic-info']/dl/dd")  

         #create dictionary key-value

         #字典是一种散列表结构,数据输入后按特征被散列,不记录原来的数据,顺序建议元组

         elem_dic = dict(zip(elem_name,elem_value))

         for key in elem_dic:

             print key.text,elem_dic[key].text

             info.writelines(key.text+" "+elem_dic[key].text+'\r\n')

         time.sleep(5)  

     except Exception,e: #'utf8' codec can't decode byte

         print "Error: ",e

     finally:

         print '\n'

         info.write('\r\n')  

 #Main function

 def main():

     global info

     #By function get information

     source = open("Tourist_spots_5A_BD.txt",'r')

     for name in source:

         name = unicode(name,"utf-8")

         if u'故宫' in name: #else add a '?'

             name = u'北京故宫'

         getInfobox(name)

     print 'End Read Files!'

     source.close()

     info.close()

     driver.close()  

 main()

运行结果
主要通过从F盘中txt文件中读取国家5A级景区的名字，再调用Phantomjs.exe浏览器依次访问获取InfoBox值。同时如果存在编码问题“'ascii' codec can't encode characters”则可通过下面代码设置编译器utf-8编码，代码如下：

#设置编码utf-8

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

#显示当前默认编码方式

print sys.getdefaultencoding()

对应源码
其中对应的百度百科InfoBox源代码如下图，代码中基础知识可以参考我前面的博文或我的Python爬虫专利，Selenium不仅仅擅长做自动测试，同样适合做简单的爬虫。

编码问题
此时你仍然可能遇到“'ascii' codec can't encode characters”编码问题。

它是因为你创建txt文件时默认是ascii格式，此时你的文字确实'utf-8'格式，所以需要转换通过如下方法。

 import codecs

 #用codecs提供的open方法来指定打开的文件的语言编码,它会在读取的时候自动转换为内部unicode

 if not os.path.exists(baiduFile):

     info = codecs.open(baiduFile,'w','utf-8')

 else:

     info = codecs.open(baiduFile,'a','utf-8')

 #该方法不是io故换行是'\r\n'

 info.writelines(key.text+":"+elem_dic[key].text+'\r\n')

总结
你可以代码中学习基本的自动化爬虫方法、同时可以学会如何通过for循环显示key-value键值对，对应的就是显示的属性和属性值，通过如下代码实现：
elem_dic = dict(zip(elem_name,elem_value))
但最后的输出结果不是infobox中的顺序，why?
最后希望文章对你有所帮助，还有一篇基础介绍文章，但是发表时总会引发CSDN敏感系统自动锁定，而且不知道哪里引起的触发。推荐你可以阅读~
[python爬虫] Selenium常见元素定位方法和操作的学习介绍
（By:Eastmount 2015-9-6 深夜2点半 http://blog.csdn.net/eastmount/）

[Python爬虫] Selenium获取百度百科旅游景点的InfoBox消息盒的更多相关文章

python爬虫—爬取百度百科数据
爬虫框架:开发平台 centos6.7 根据慕课网爬虫教程编写代码片区百度百科url,标题,内容分为4个模块:html_downloader.py 下载器 html_outputer.py 爬取数 ...
Python 爬虫实例(爬百度百科词条)
爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成.爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入 ...
[Python爬虫] Selenium+Phantomjs动态获取CSDN下载资源信息和评论
前面几篇文章介绍了Selenium.PhantomJS的基础知识及安装过程,这篇文章是一篇应用.通过Selenium调用Phantomjs获取CSDN下载资源的信息,最重要的是动态获取资源的评论,它是 ...
python爬虫---selenium库的用法
python爬虫---selenium库的用法 selenium是一个自动化测试工具,支持Firefox,Chrome等众多浏览器在爬虫中的应用主要是用来解决JS渲染的问题. 1.使用前需要安装这个 ...
[python爬虫] Selenium常见元素定位方法和操作的学习介绍
这篇文章主要Selenium+Python自动测试或爬虫中的常见定位方法.鼠标操作.键盘操作介绍,希望该篇基础性文章对你有所帮助,如果有错误或不足之处,请海涵~同时CSDN总是屏蔽这篇文章,再加上最近 ...
[python爬虫] Selenium常见元素定位方法和操作的学习介绍(转载)
转载地址:[python爬虫] Selenium常见元素定位方法和操作的学习介绍一. 定位元素方法官网地址:http://selenium-python.readthedocs.org/locat ...
[Python爬虫] Selenium实现自动登录163邮箱和Locating Elements介绍
前三篇文章介绍了安装过程和通过Selenium实现访问Firefox浏览器并自动搜索"Eastmount"关键字及截图的功能.而这篇文章主要简单介绍如何实现自动登录163邮箱,同时 ...
[Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)
转载自:http://blog.csdn.net/eastmount/article/details/51231852 一. 文章介绍源码下载地址:http://download.csdn.net/ ...
Python爬虫 - 爬取百度html代码前200行
Python爬虫 - 爬取百度html代码前200行 - 改进版, 增加了对字符串的.strip()处理源代码如下: # 改进版, 增加了 .strip()方法的使用 # coding=utf-8 ...

随机推荐

matlab squeeze函数的用法
matlab中squeeze函数用于删除矩阵中的单一维(Remove singleton dimensions),比如执行下面的代码,随机产生一个1x2x3的矩阵A,然后squeeze(A)将返回一个 ...
SVM1 线性SVM
一.Linear Support Vector Machine 接下来的讨论假设数据都是线性可分的. 1.1 SVM的引入:增大对测量误差的容忍度假设有训练数据和分类曲线如下图所示: 很明显,三个分 ...
delphi对象赋值
Delphi的对象之间赋值主要要注意几个方面的问题: 1.对象之间的 :=赋值只是地址赋值,即是将当前对象的地址赋值到变量中,定义的变量可以是不用初始化的,在内存中两个变量指向的是同一地址空间: ...
[转]Caffe 深度学习框架上手教程
Caffe 深度学习框架上手教程机器学习Caffe caffe 原文地址:http://suanfazu.com/t/caffe/281 blink 15年1月 6 Caffe448是一个清 ...
[linux]树莓派入手体验和系统安装
背景一直想捣鼓点什么东西.当看到树莓派的时候,就是它了. 树莓派可以安装Linux系统,而我在工作当中,可以说Linux是一半工作环境.树莓派真是个好东西,这个东西应该在我学习linxu/Unix的 ...
复利test
因为上节课老师有给我们讲了单元测试的概念及其基本操作,我就对我之前的复利计算器进行了改进和测试.因为从控制台的简单输入输出对单元测试来说不够完善,便参考了其他同学的优秀编程又重新写了一个复利计算器的框 ...
精妙SQL语句收集
SQL语句先前写的时候,很容易把一些特殊的用法忘记,我特此整理了一下SQL语句操作.(转) 一.基础 1.说明:创建数据库 CREATE DATABASE database-name 2.说明:删除数 ...
java有符号无符号的转换
数据处理中常常遇到基本数据类型的操作,java都是有符号的数据,而与下位机通信中常常遇到无符号的比如uint8, uint16,uint32等等 1.为了完成这个功能还专门采用ByteBuffer的方 ...
PHP 判断数组是否为空的5大方法
1. isset功能:判断变量是否被初始化说明:它并不会判断变量是否为空,并且可以用来判断数组中元素是否被定义过注意:当使用isset来判断数组元素是否被初始化过时,它的效率比array_key_ ...
中国排名前100的IT公司（转）
排序单位名称软件收入 1 华为技术有限公司 622360 2 中兴通讯股份有限公司 601331 3 海信集团有限公司 448641 4 UT斯达康通讯有限公司 386763 5 海尔集团 ...

[Python爬虫] Selenium获取百度百科旅游景点的InfoBox消息盒

[Python爬虫] Selenium获取百度百科旅游景点的InfoBox消息盒的更多相关文章

随机推荐

热门专题