Python 网页投票信息抓取

最近学习python，为了巩固一下学过的知识，花了半天（主要还是因为自己正则表达式不熟）写了个小脚本来抓取一个网站上的投票信息，排名后进行输出。

抓取的网站网址是http://www.mudidi.net/topic-yinghuhuodong.html。我先在网站首页点了个查看源码，发现并没有下面的投票部分信息，颇为不解，咨询了一个PHP大牛同学，原来那部分是一个嵌套页面，有另外一个地址http://www.mudidi.net//toupiao/vote3.asp?id=2，真是才疏学浅，自惭形愧啊。

找到真实地址后，就可以提取页面信息了：

 # 获取页面数据

 def getUrlRespHtml():

     url = 'http://www.mudidi.net//toupiao/vote3.asp?id=2'

     req = urllib2.Request(url)

     resp = urllib2.urlopen(req)

     respHtml = resp.read()

     # 由于存在汉字，将页面转码成utf-8

     respHtml = respHtml.decode('gbk').encode('utf-8')

     return respHtml

这里写了个函数，调用了urllib2这个库。最开始版本并没有转码这一步，但是结果会造成提取出的汉字都是乱码，查了好多资料，才知道需要转码，再次感叹才疏学浅，对网络编程真是没什么经验。

提取出网页信息后，就需要对信息进行处理。由于网页信息中我们需要的信息格式都是相同的，如下所示：

 <div class="tp">

 <form action="vote_pass.asp" method="post" name="add">

   <div align="center" style="white-space:now=rap; overflow:hidden;width:200px;font-size:13px;margin-top:0px;margin-bottom:10px;">安康山水 美哉瀛湖

       <label>

       <input type="hidden" name="id"  value="1"/>

       </label>

     </div>

     <div align="center" style="margin-top:0px;margin-bottom:10px;">NO1 作者:飞扬古</div>

     <div align="center" style="margin-top:0px;color:#990000; font-weight:bold; font-size:14px; font-family:'Times New Roman', Times, serif;margin-top:0px;margin-bottom:7px;">票数:23</div>

       <div align="center" style="">

        <input type="image" name="button" src="vote1.gif" />

         </div>

         </form>

 </div>

则需要写正则表达式匹配这一段落。我们需要的信息包括标语（如上所示的“安康山水美哉瀛湖”）、ID（如上所示的NO1）、作者、票数。

我首先想到的是findall()函数，可以得到符合条件的列表，而且可以直接提取出我们需要的信息。可是无论我怎么写正则表达式都无法得到想要的结果。然后我就写了这么个正则表达式：“<form.*?</form>”，然后调用findall()函数，直接把所有的<form></form>段匹配了出来，得到了完整的格式（以上面的HTML代码为例）：

“<form action="vote_pass.asp" method="post" name="add">\r\n <div align="center" style="white-space:now=rap; overflow:hidden;width:200px;font-size:13px;margin-top:0px;margin-bottom:10px;">安康山水美哉瀛湖\r\n <label>\r\n <input type="hidden" name="id" value=""/>\r\n </label>\r\n </div>\r\n\t<div align="center" style="margin-top:0px;margin-bottom:10px;">NO 作者:飞扬古</div>\r\n\t<div align="center" style="margin-top:0px;color:#990000; font-weight:bold; font-size:14px; font-family:\'Times New Roman\', Times, serif;margin-top:0px;margin-bottom:7px;">票数:</div>”。

将这一段改成正则表达式，我直接把我想要提取的地方(红色部分)改为(.*)，就可以得到想要的信息：

“<form action="vote_pass.asp" method="post" name="add">\r\n <div align="center" style="white-space:now=rap; overflow:hidden;width:200px;font-size:13px;margin-top:0px;margin-bottom:10px;">(.*)\r\n <label>\r\n <input type="hidden" name="id" value="(.*)"/>\r\n </label>\r\n </div>\r\n\t<div align="center" style="margin-top:0px;margin-bottom:10px;">NO(.*) 作者:(.*)</div>\r\n\t<div align="center" style="margin-top:0px;color:#990000; font-weight:bold; font-size:14px; font-family:\'Times New Roman\', Times, serif;margin-top:0px;margin-bottom:7px;">票数:(.*)</div>”。

将这个正则表达式调用re.compile()函数编译，然后调用re.findall()函数即可得到符合该格式的列表。代码如下：

 def getVoteLists(html):

     # 编译正则表达式模式

     pattern = re.compile('<form action="vote_pass.asp" method="post" name="add">\r\n  <div align="center" style="white-space:now=rap; overflow:hidden;width:200px;font-size:13px;margin-top:0px;margin-bottom:10px;">(.*)\r\n      <label>\r\n      <input type="hidden" name="id"  value="(.*)"/>\r\n      </label>\r\n    </div>\r\n\t<div align="center" style="margin-top:0px;margin-bottom:10px;">NO(.*) 作者:(.*)</div>\r\n\t<div align="center" style="margin-top:0px;color:#990000; font-weight:bold; font-size:14px; font-family:\'Times New Roman\', Times, serif;margin-top:0px;margin-bottom:7px;">票数:(.*)</div>')

     matchlist = re.findall(pattern, html)

     vlist = []

     # 将用户ID和票数由str型转换成int型，由于findall()函数得到的列表元素是元组不可改，因此需要转换成可修改的列表

     for item in matchlist:

         itemlist = list(item)

         itemlist[1] = int(itemlist[1])

         itemlist[4] = int(itemlist[4])

         vlist.append(itemlist)

     # 根据票数进行排序

     return sorted(vlist, key=lambda x:x[4], reverse=True)

使用re.findall()函数得到一个列表，列表中每个元素是一个元组，元组中包含标语、两个ID（一个HTML代码段中有两个ID变化）、作者、票数。我们将得到的结果根据票数进行排序。由于这些结果都是str类型，无法排序，需要将str转换成int类型，而元组中元素是不可改的，因此在函数中重新生成了个列表，将原列表中的元组改为列表，再对列表中的元素进行类型转换。转换完成后，调用sorted()函数根据票数进行排序。

最后，将结果输出前16项（随意定）。完整代码如下：

 #!/usr/bin/env python

 # -*- coding: UTF-8 -*-

 import urllib2

 import re

 # 获取页面数据

 def getUrlRespHtml():

     url = 'http://www.mudidi.net//toupiao/vote3.asp?id=2'

     req = urllib2.Request(url)

     resp = urllib2.urlopen(req)

     respHtml = resp.read()

     # 由于存在汉字，将页面转码成utf-8

     respHtml = respHtml.decode('gbk').encode('utf-8')

     return respHtml

 def getVoteLists(html):

     # 编译正则表达式模式

     pattern = re.compile('<form action="vote_pass.asp" method="post" name="add">\r\n  <div align="center" style="white-space:now=rap; overflow:hidden;width:200px;font-size:13px;margin-top:0px;margin-bottom:10px;">(.*)\r\n      <label>\r\n      <input type="hidden" name="id"  value="(.*)"/>\r\n      </label>\r\n    </div>\r\n\t<div align="center" style="margin-top:0px;margin-bottom:10px;">NO(.*) 作者:(.*)</div>\r\n\t<div align="center" style="margin-top:0px;color:#990000; font-weight:bold; font-size:14px; font-family:\'Times New Roman\', Times, serif;margin-top:0px;margin-bottom:7px;">票数:(.*)</div>')

     matchlist = re.findall(pattern, html)

     vlist = []

     # 将用户ID和票数由str型转换成int型，由于findall()函数得到的列表元素是元组不可改，因此需要转换成可修改的列表

     for item in matchlist:

         itemlist = list(item)

         itemlist[1] = int(itemlist[1])

         itemlist[4] = int(itemlist[4])

         vlist.append(itemlist)

     # 根据票数进行排序

     return sorted(vlist, key=lambda x:x[4], reverse=True)

 def main():

     print 'loading...'

     html = getUrlRespHtml()

     mList = getVoteLists(html)

     # 显示前16位

     print 'Rank\tID\tVoteNums\tAuthor\t\tContent'

     print '-' * 60

     for i in range(16):

         print '%d\t%d\t%d\t\t%s\t\t%s' % (i+1, mList[i][1], mList[i][4], mList[i][3], mList[i][0])

 if __name__ == '__main__':

     main()

这是对前一段时间学习Python的一个巩固练习。有什么更好更高效的方法欢迎留言讨论。

Python 网页投票信息抓取的更多相关文章

网页信息抓取进阶支持Js生成数据 Jsoup的不足之处
转载请标明出处:http://blog.csdn.net/lmj623565791/article/details/23866427 今天又遇到一个网页数据抓取的任务,给大家分享下. 说道网页信息抓取 ...
网页信息抓取 Jsoup的不足之处 httpunit
今天又遇到一个网页数据抓取的任务,给大家分享下. 说道网页信息抓取,相信Jsoup基本是首选的工具,完全的类JQuery操作,让人感觉很舒服.但是,今天我们就要说一说Jsoup的不足. 1.首先我们新 ...
Ajax异步信息抓取方式
淘女郎模特信息抓取教程源码地址: cnsimo/mmtao 网址:https://0x9.me/xrh6z 判断一个页面是不是Ajax加载的方法: 查看网页源代码,查找网页中加载的数据信息,如果 ...
网易新闻页面信息抓取（htmlagilitypack搭配scrapysharp）
转自原文网易新闻页面信息抓取(htmlagilitypack搭配scrapysharp) 最近在弄网页爬虫这方面的,上网看到关于htmlagilitypack搭配scrapysharp的文章,于是决 ...
c# 正则表达式对网页进行内容抓取
原文 c# 正则表达式对网页进行内容抓取搜索引擎中一个比较重要的环节就是从网页中抽取出有效内容.简单来说,就是吧HTML文本中的HTML标记去掉,留下我们用IE等浏览器打开HTML文档看到的部分(我 ...
Atitit.web的自动化操作与信息抓取 attilax总结
Atitit.web的自动化操作与信息抓取 attilax总结 1. Web操作自动化工具,可以简单的划分为2大派系: 1.录制回放 2.手工编写0 U' z; D! s2 d/ Q! ^1 2. 常 ...
python&php数据抓取、爬虫分析与中介，有网址案例
近期在做一个网络爬虫程序.后台使用python不定时去抓取数据.前台使用php进行展示站点是:http://se.dianfenxiang.com
接口测试——fiddler对soapui请求返回信息抓取
原文:接口测试——fiddler对soapui请求返回信息抓取背景:接口测试的时候,需要对接口的请求和返回信息进行查阅或者修改请求信息,可利用fiddler抓包工具对soapui的请求数据进行抓取或 ...
python 页面信息抓取
1. 特点在python 解析html这篇文章中已经做了初步的介绍,接下来再坐进一步的说明.python抓取页面信息有下面两个特点: 依赖于HTML的架构. 微小的变化可能会导致抓取失败,这取决于你 ...

随机推荐

css列表
列表是有三种形式: 1.无序列表,用来表示一个列表语义,并且每个项目与项目之间是不分先后顺序的 ul 的英文unordered list "无序列表" li 的英文 list ...
150 Opening ASCII mode data connection. FTP连接的PASV和PORT方式
FTP连接服务器时出现 150 Opening ASCII mode data connection.一般是客户端设置PORT 主动方式连接造成的.切换成PASV 被动模式后一般能连接上. 一.什么是 ...
链表：删除链表中重复的结点（java实现）
题目描述在一个排序的链表中,存在重复的结点,请删除该链表中重复的结点,重复的结点不保留,返回链表头指针. 例如,链表1->2->3->3->4->4->5 处理后 ...
jmeter做接口测试
jmeter做接口测试有两种方式: 1. 2.
Note for Computer Networks_Circuit Switching & Packet Switching
Packet Switching: - In a packet switched network data is transmitted in blocks(packets), typically l ...
【PL/SQL】异常处理：
如果在PLSQL块中没有做异常处理,在执行PLSQL块时,出现异常,会传递到调用环境,导致程序运行出错! SCOTT@ prod> declare v_ename emp.ename%type; ...
OSGI.NET mainfest.xml 配置
在使用 OSGI.NET进行插件式的开发时,需要对 Mainfest.xml 进行配置, Mainfest 文件是插件的重要配置文件,其中暴露了插件启动方式以及插件启动时所依赖的程序集或其它资源的信息 ...
java中反射
Person.java===>>person.class ==>>jvm中的类加载器===>>class对象:代表内存中Person.class ==>> ...
C# 扩展
“扩展方法使您能够向现有类型“添加”方法,而无需创建新的派生类型.重新编译或以其他方式修改原始类型.” 这是msdn上说的,也就是你可以对String,Int,DataRow,DataTable等这些 ...
JSON时间转换格式化
通常JSON时间一般是这样的格式. 1 /Date(1436595149269)/ 通常我们用AJAX获取下来的JSON数据,如果有时间,都是这种格式的.其中,中间的一段数字"1436595 ...

Python 网页投票信息抓取

Python 网页投票信息抓取的更多相关文章

随机推荐

热门专题