以前经常在这个网站上下载电影下来看,这个网站比较坑的就是,主页上只有电影的名称,但是评分是看不到的;只有再点击电影名字,进入电影主页时才能看到评分。一般下载的电影都是评分高的才看,低的就忽略掉了。每次都要来回去看评分,太麻烦了。So,我就写了一个小小的爬虫,暂时就叫爬虫好了。

在脚本中使用的是:python2.7 + selenium + unittest + chrome(其实我想用phantomjs的,但是在抓取评分的时候,老是抓取不到,好像是js搞的鬼)

  其实流程很简单:1、进入主页获取电影的title和url,2、根据获取的url,获取该电影的评分score,3、保存结果到本地文件中

  1、进入主页获取电影的title和url

  

  2、根据获取的url,获取该电影的评分score

  

   下面我就逐步分解:

   首先,进入该网站的主页,利用webdriver来定位电影,然后获取所有电影的属性:title,url,使用的定位是css

   

 def geturl(self): # 该函数是获取首页的电影的  title 和 url
self.dr.get('http://www.xiamp4.com') # 网站首页
urls = [] # 存放结果的list
eles = self.dr.find_elements_by_css_selector('div.box.newbox ul.img-list.dis.clearfix b a') # 定位满足条件的所有电影,css定位
for ele in eles:
tmp = dict()
url = ele.get_attribute('href') # 获取电影的url
title = ele.get_attribute('title') # 获取电影的title
tmp['url'] = url
tmp['title'] = title
urls.append(tmp) # 将电影的title和url放在一个字典中,然后添加到 urls中
return urls

  2、根据获取的url,获取该电影的评分score

  

  

     def getscore(self, url):
# url = 'http://www.xiamp4.com/Html/GP23161.html'
self.dr.get(url) # 进入电影的页面
time.sleep(2)
ele = self.dr.find_element_by_css_selector('input#MARK_B2') # 定位评分的元素
score = ele.get_attribute('value') # 获取元素value的值
# print score
return score # 该函数的左右就是 根据参数电影的url,返回该电影的评分

  下面是最终的代码:

 #coding=utf-8

 from selenium import webdriver
import unittest
import time class Spider(unittest.TestCase):
def setUp(self):
print '####################### Start #######################'
self.dr = webdriver.Chrome()
self.dr.implicitly_wait(10) def tearDown(self):
self.dr.close()
print '####################### End #######################' def geturl(self):
self.dr.get('http://www.xiamp4.com')
urls = []
eles = self.dr.find_elements_by_css_selector('div.box.newbox ul.img-list.dis.clearfix b a')
for ele in eles:
tmp = dict()
url = ele.get_attribute('href')
title = ele.get_attribute('title')
tmp['url'] = url
tmp['title'] = title
urls.append(tmp)
return urls def getscore(self, url):
# url = 'http://www.xiamp4.com/Html/GP23161.html'
self.dr.get(url)
time.sleep(2)
ele = self.dr.find_element_by_css_selector('input#MARK_B2')
score = ele.get_attribute('value')
# print score
return score def test_run(self):
moves = self.geturl()
# print len(moves)
for move in moves:
move['score'] = self.getscore(move['url'])
try:
if len(moves) > 0:
with open('MoveMessage.txt', 'a') as f:
f.write('####################### Start #######################' + '\n')
for move in moves:
tmp = 'MoveName: %s\t,MoveScore: %s\t,MoveUrl: %s' % (move['title'],move['score'],move['url'])
print tmp
with open('MoveMessage.txt', 'a') as f:
f.write(tmp.encode('utf-8') + '\n')
with open('MoveMessage.txt', 'a') as f:
f.write('####################### End #######################' + '\n')
except Exception,e:
print 'Not found moves!',e if __name__ == '__main__':
unittest.main()

运行的最终结果:

  

python+selenium+unittest,爬虫电影网站的更多相关文章

  1. Python+selenium+unittest+HTMLTestReportCN单元测试框架分享

    分享一个比较基础的,系统性的知识点.Python+selenium+unittest+HTMLTestReportCN单元测试框架分享 Unittest简介 unittest是Python语言的单元测 ...

  2. Python+Selenium+Unittest+Ddt+HTMLReport分布式数据驱动自动化测试框架结构

    1.Business:公共业务模块,如登录模块,可以把登录模块进行封装供调用 ------login_business.py from Page_Object.Common_Page.login_pa ...

  3. python+selenium +unittest生成HTML测试报告

    python+selenium+HTMLTestRunner+unittest生成HTML测试报告 首先要准备HTMLTestRunner文件,官网的HTMLTestRunner是python2语法写 ...

  4. 【爬虫】如何用python+selenium网页爬虫

    一.前提 爬虫网页(只是演示,切勿频繁请求):https://www.kaola.com/ 需要的知识:Python,selenium 库,PyQuery 参考网站:https://selenium- ...

  5. Python Selenium unittest+HTMLTestRunner实现 自动化测试及发送测试报告邮件

    1.UI测试框架搭建-目录结构 2. 文件介绍 2.1.baseinfo->__init__.py 配置文件定义基础参数 #-*-coding:utf-8-*- #测试用例配置参数 base_u ...

  6. python selenium --unittest 框架

    转自:http://www.cnblogs.com/fnng/p/3300788.html 学习unittest 很好的一个切入点就是从selenium IDE 录制导出脚本.相信不少新手学习sele ...

  7. python + selenium + unittest 自动化测试框架 -- 入门篇

    . 预置条件: 1. python已安装 2. pycharm已安装 3. selenium已安装 4. chrome.driver 驱动已下载 二.工程建立 1. New Project:建立自己的 ...

  8. Python+Selenium ----unittest单元测试框架

    unittest是一个单元测试框架,是Python编程的单元测试框架.有时候,也做叫做“PyUnit”,是Junit的Python语言版本.这里了解下,Junit是Java语言的单元测试框架,Java ...

  9. windiows下搭建python+selenium+unittest+Chrome的Web自动化环境

    一.selenium.unittest概念 Selenium 是用于测试 Web 应用程序用户界面 (UI) 的常用框架.它是一款用于运行端到端功能测试的超强工具.您可以使用多个编程语言编写测试,并且 ...

随机推荐

  1. Linux录屏软件

    如何查找录屏软件 apt-cache search screen record libutempter-dev - privileged helper for utmp/wtmp updates (d ...

  2. 使用Dezender对zend加密后的php文件进行解密

    在开发中需要修改一些php文件,部分是通过zend加密的,记事本打开之后是这样的: 此时需要使用Dezender进行解密,下载链接如下: Dezender.7z 下载后解压到C盘(路径不要带有中文), ...

  3. .Net规则引擎介绍 - REngine

    规则引擎 规则引擎由推理引擎发展而来,是一种嵌入在应用程序中的组件,实现了将业务决策从应用程序代码中分离出来,并使用预定义的语义模块编写业务决策.接受数据输入,解释业务规则,并根据业务规则做出业务决策 ...

  4. 阿里大鱼.net core 发送短信

    阿里大鱼还未提供 .net core 版SDK,但提供了相关API,下面是.net core版实现,只是简单发送短信功能: using System; using System.Collections ...

  5. asp.net core 之静态文件目录的操作

    文章前言 之前写了一篇关于模拟登录的文章,自我感觉内容不太丰富,今天的这篇文章,希望在内容上能丰富些.本人缺少写文章的经验,技术上也是新手,但我会努力的,希望大家多多支持小弟. asp.net cor ...

  6. crontab使用方法和示例

    crond是linux中的一个定时任务常驻程序,它会在每分钟检查一次作业列表,从而达到在指定时间自动运行指定的作业,这个程序对于系统运维来讲必不可少. 通常我们使用crontab程序来设定和管理作业的 ...

  7. eclipse无线连接android真机能进调试

    将手机与电脑连接到同一个网段, 在手机上安装wifi adb程序,并打开,会得到一个IP及端口,比如是 192.168.1.126:5555 进入android sdk目录sdk\platform-t ...

  8. TargetProcess公司敏捷开发历程-开发实践篇

  9. TextBox 文本框水印文字

    #region TextBox 文本框水印文字 /// <summary> /// 基于.NET 2.0的TextBox工具类 /// </summary> public st ...

  10. nlog(n)解动态规划--最长上升子序列(Longest increasing subsequence)

    最长上升子序列LIS问题属于动态规划的初级问题,用纯动态规划的方法来求解的时间复杂度是O(n^2).但是如果加上二叉搜索的方法,那么时间复杂度可以降到nlog(n).  具体分析参考:http://b ...