使用urllib进行网页爬取

# coding=gbk

# 抓取开奖号码

# url：http://datachart.500.com/dlt/zoushi/jbzs_foreback.shtml

'''

对网页逐行迭代，找到目标行时在往下读一行，两行提取一期开奖号码

'''

import re

from urllib import urlopen

# winnumbers = {}  # 期数：中奖号码

f = open('中奖号码.txt','w')

webpage = urlopen('http://datachart.500.com/dlt/zoushi/inc/jbzs_foreback.php')

for line in webpage:

    if re.search(r'^<td align="center">[\d\s]*</td>$',line.strip()):

        index = line.split('>')[1].split()[0]

        nextline = webpage.readline()

        numbers = re.findall(r'<td class="chartBall0[1,2]">([\d]+)',nextline)

        # winnumbers[index] = numbers

        print index,numbers

        f.write(index)

        for i in range(len(numbers)):

            f.write('\t')

            f.write(numbers[i])

        f.write('\n')

f.close()

结果如下：

首先用Chrome打开网页，利用审查元素功能找到真正的数据来源 http://datachart.500.com/dlt/zoushi/inc/jbzs_foreback.php

然后逐行迭代网页内容，利用正则表达式'<td align="center">[\d\s]*</td>'定位开奖期号：

然后使用 numbers = re.findall(r'<td class="chartBall0[1,2]">[\d]+',nextline) 找到开奖号码，对字符串处理一下得到开奖号码，存入列表。

这个时候打印出来、存入字典、存入文件都可以。

这个方法不太好，可以直接把整个网页弄下来在本地处理。那样的话，写的正则就要复杂一点。鄙人刚刚学习正则，正在尝试中。

###################### 10月21日的分割线 ######################

按照上次最后提供的思路，把整个网页提取下来进行正则分析，代码如下

# coding=gbk

# 抓取开奖号码

# url：http://datachart.500.com/dlt/zoushi/jbzs_foreback.shtml

'''

把整个网页爬取下来，然后使用re.findall定位目标数据

'''

import re

from urllib import urlopen

# winnumbers = {}  # 期数：中奖号码

webpage = urlopen('http://datachart.500.com/dlt/zoushi/inc/jbzs_foreback.php')

text = webpage.read()

pattern = re.compile(r'<tr>\s*<td align="center">([\d\s]{6,})</td>\s*((?:<td class="(?:yl01|yl02|chartBall01|chartBall02)">\d+</td>){47})\s+</tr>')

local = re.findall(pattern,text)

for item in local:

    numbers = re.findall(r'<td class="chartBall0[1,2]">([\d]+)</td>',item[1])

    print item[0].strip(), numbers

    # winnumbers[item[0]] = numbers

重点在于正则表达式的编写，我们需要一个正则表达式能够定位所有形如上图结构的html代码段。

最后测试得到了这样一段正则：

<tr>\s*<td align="center">([\d\s]{6,})</td>\s*((?:<td class="(?:yl01|yl02|chartBall01|chartBall02)">\d+</td>){47})\s+</tr>

它可以匹配到目标代码，编写遇到主要的困难在于提取，有两点很关键：

小括号表示要提取的内容，所以我们把[\d\s]{6,}括起来
但是有些小括号只表示整体，并非要提取的内容，这个时候就要在相应的表达式前面加上"?:",表示不提取这个括号中的内容

关于正则表达式中的括号，我们可以简单总结一下：

小括号：代表一个整体,例如(abc)，它仅匹配字符串“abc”
中括号：表示取其中之一，例如[abc]，它匹配“a”、“b”、“c”
大括号：表示重复次数，例如\d{1,3}，它匹配一位到三位的数字

使用urllib进行网页爬取的更多相关文章

爬虫系列(六) 用urllib和re爬取百度贴吧
这篇文章我们将使用 urllib 和 re 模块爬取百度贴吧,并使用三种文件格式存储数据,下面先贴上最终的效果图 1.网页分析 (1)准备工作首先我们使用 Chrome 浏览器打开百度贴吧,在输入 ...
WebFetch 是无依赖极简网页爬取组件
WebFetch 是无依赖极简网页爬取组件,能在移动设备上运行的微型爬虫. WebFetch 要达到的目标: 没有第三方依赖jar包减少内存使用提高CPU利用率加快网络爬取速度简洁明了的api ...
动态网页爬取例子（WebCollector+selenium+phantomjs）
目标:动态网页爬取说明:这里的动态网页指几种可能:1)需要用户交互,如常见的登录操作:2)网页通过JS / AJAX动态生成,如一个html里有<div id="test" ...
Python和BeautifulSoup进行网页爬取
在大数据.人工智能时代,我们通常需要从网站中收集我们所需的数据,网络信息的爬取技术已经成为多个行业所需的技能之一.而Python则是目前数据科学项目中最常用的编程语言之一.使用Python与Beaut ...
Node.js 动态网页爬取 PhantomJS 使用入门(转)
Node.js 动态网页爬取 PhantomJS 使用入门原创NeverSettle101 发布于2017-03-24 09:34:45 阅读数 8309 收藏展开版权声明:本文为 winte ...
12月4日学习爬虫007.使用Urllib模块进行简单网页爬取
笔记如下: 1.https是http加强版协议(安全协议)http(普通网络通信协议) 爬数据如果爬https发现和理想中的数据不同,可以改为http 直接去掉s即可 2.使用Urllib爬取简单网 ...
python利用urllib实现的爬取京东网站商品图片的爬虫
本例程使用urlib实现的,基于python2.7版本,采用beautifulsoup进行网页分析,没有第三方库的应该安装上之后才能运行,我用的IDE是pycharm,闲话少说,直接上代码! # -* ...
爬虫入门（三）——动态网页爬取：爬取pexel上的图片
Pexel上有大量精美的图片,没事总想看看有什么好看的自己保存到电脑里可能会很有用但是一个一个保存当然太麻烦了所以不如我们写个爬虫吧(๑•̀ㅂ•́)و✧ 一开始学习爬虫的时候希望爬取pexel上的 ...
python学习（三）--跟着例子写的贴吧网页爬取
from urllib import requestimport urllib #爬贴吧网页文件到本地.首先在本地打开百度贴吧搜索 java吧#第一页的内容是:http://tieba.baidu. ...

随机推荐

HDU 1520-Anniversary party（树形dp入门）
题意: n个人参加party,已知每人的欢乐值,给出n个人的工作关系树,一个人和他的顶头上司不能同时参加,party达到的最大欢乐值. 分析:dp[i][f],以i为根的子树,f=0,i不参加,f=1 ...
google学术反向代理及IPV6免流量上网【教育网BUPT】
google反向代理 google https://awk.so/ 学术反向代理 https://awk.so/scholar/?hl=zh-CN 2015年1.1号开始流量计费,2元/G 无VPS用 ...
SqlServer将日期格式DateTime转换成varchar类型
Select CONVERT(varchar(100), GETDATE(), 0): 05 16 2006 10:57AM Select CONVERT(varchar(100), GETDATE( ...
CCF 认证4
题意:求强联通分量 Tarjan算法 #include<iostream> #include<stdio.h> #include<stdlib.h> #includ ...
phpMyAdmin导入本地数据库
phpMyAdmin导入本地数据库在PHPMyAdmin导入数据时,点击导入--执行后出现错误: 您可能正在上传很大的文件,请参考文档来寻找解决方法. 可能就是因为数据库太大的原因. 那么如何才能 ...
CUDA学习资料分享(随时更新)
1.Programming_Massively_Parallel_Processors.pdf 2.CUDA_C_Programming_Guide.pdf 3.CUDA范例精解通用GPU编程.pdf ...
HDU1890 Robotic Sort Splay tree反转,删除
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=1890 题目中涉及数的反转和删除操作,需要用Splay tree来实现.首先对数列排序,得到每个数在数列 ...
Getty – Java NIO 框架设计与实现
前言 Getty是我为了学习 Java NIO 所写的一个 NIO 框架,实现过程中参考了 Netty 的设计,同时使用 Groovy 来实现.虽然只是玩具,但是麻雀虽小,五脏俱全,在实现过程中,不仅 ...
Partition Array
Given an array nums of integers and an int k, partition the array (i.e move the elements in "nu ...
有return的情况下try catch finally的执行顺序（最有说服力的总结）
结论:1.不管有木有出现异常,finally块中代码都会执行:2.当try和catch中有return时,finally仍然会执行:3.finally是在return后面的表达式运算后执行的(此时并没 ...

使用urllib进行网页爬取

使用urllib进行网页爬取的更多相关文章

随机推荐

热门专题