py3+urllib+re，轻轻松松爬取双色球最近100期中奖号码

通过页面源码，发现使用正则表达式可以很方便的获取到我们需要的数据，最后循环写入txt文件。

(\d{2})表示两位数字

[\s\S]表示匹配包括“\r\n”在内的任何字符，匹配红球和蓝球之间的内容

具体实现代码如下：

import urllib.request

import re

url = 'http://baidu.lecai.com/lottery/draw/list/50?type=latest&num=100'

def get():

    # 页面是utf8编码，所有解码成unicode

    html = urllib.request.urlopen(url).read().decode('utf8') # <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />

    # print(html)

    reg = r'<em>(\d{2})</em><em>(\d{2})</em><em>(\d{2})</em><em>(\d{2})</em><em>(\d{2})</em><em>(\d{2})</em>[\s\S]*?<em>(\d{2})</em>'

    reg = re.compile(reg) # 把字符串类型的正则表达式编译成对象，提高匹配效率

    # print(re.findall(reg, html))

    return re.findall(reg, html)

qiu = get()

with open('qiu.txt', 'a+') as f:

    for i in qiu:

        print(i)

        for j in i:

            f.write(j+' ')

        f.write('\n')

py3+urllib+re，轻轻松松爬取双色球最近100期中奖号码的更多相关文章

爬虫系列(六) 用urllib和re爬取百度贴吧
这篇文章我们将使用 urllib 和 re 模块爬取百度贴吧,并使用三种文件格式存储数据,下面先贴上最终的效果图 1.网页分析 (1)准备工作首先我们使用 Chrome 浏览器打开百度贴吧,在输入 ...
初识python 之爬虫：爬取双色球中奖号码信息
人生还是要有梦想的,毕竟还有python.比如,通过python来搞一搞彩票(双色球).注:此文仅用于python学习,结果仅作参考.用到知识点:1.爬取网页基础数据2.将数据写入excel文件3.将 ...
py3+urllib+bs4+反爬，20+行代码教你爬取豆瓣妹子图
0.准备所用到的模块: urllib.request,获取源码 beautifulsoup4(bs4),网页抓取数据安装bs4,python3 -m pip install beautiful ...
用Python爬取双色球开奖信息，了解一下
1工具 2具体方法 1.使用python2.7编写爬取脚本这里除了正常的爬取操作,还增加了独立的参数设定.如果没有参数,爬取的数据就在当前目录下:如果有参数,可以设定保存目录.保存文件名后缀 ...
使用urllib进行网页爬取
# coding=gbk # 抓取开奖号码 # url:http://datachart.500.com/dlt/zoushi/jbzs_foreback.shtml ''' 对网页逐行迭代,找到目标 ...
python利用urllib实现的爬取京东网站商品图片的爬虫
本例程使用urlib实现的,基于python2.7版本,采用beautifulsoup进行网页分析,没有第三方库的应该安装上之后才能运行,我用的IDE是pycharm,闲话少说,直接上代码! # -* ...
Python3爬虫(1)_使用Urllib进行网络爬取
网络爬虫又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模拟程序或者蠕虫 ...
小白学 Python 爬虫（16）：urllib 实战之爬取妹子图
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
PIXIV 爬取国际前100名代码
PYTHON爬虫爬取PIXIV国际前100名的代码代码是别人的,那天学习爬虫的时候看到了,写的很厉害~ 学习学习 #coding:UTF-8 __author__ = 'monburan' __v ...

随机推荐

Luogu P2827 蚯蚓
看到题目就可以想到直接开的堆模拟的过程了吧,这个还是很naive的注意在用堆做的时候也是要明智一点的,对于蚯蚓长度的相加肯定不能直接遍历并加上,还是可以差分一下的其实说白了就是把集体加->单 ...
Pandas简易入门（一）
目录: 读取数据索引选择数据简单运算声明,本文引用于:https://www.dataquest.io/mission/8/introduction-to-pandas (建议阅读原文) Pa ...
UVA - 116 Unidirectional TSP 多段图的最短路 dp
题意略分析因为字典序最小,所以从后面的列递推,每次对上一列的三个方向的行排序就能确保,数字之和最小DP就完事了代码因为有个地方数组名next和里面本身的某个东西冲突了,所以编译错了,后来改成 ...
词频统计 List Array
c# 使用数组进行词频统计 1.先考虑要是使用的数据结构: Array在在内存中是连续存储的,所以它的索引速度非常快,而且赋值与修改元素也很简单,但是数组存在一些不足的地方.在数组的两个数据间插入数据 ...
开始第一段SPRINT
四则运算Sprint计划 1.小组成员: 李豌湄:master 江丹仪:产品负责人 2.现状: 初步有一个四则运算的程序代码, 我们这个团队的编程基础比较薄弱,还不知道怎么将程序与数据库连接,也是在边 ...
Magazine Ad CodeForces - 803D （二分+贪心）
The main city magazine offers its readers an opportunity to publish their ads. The format of the ad ...
Lucene源码
看Lucene源码必须知道的基本概念终于有时间总结点Lucene,虽然是大周末的,已经感觉是对自己的奖励,毕竟只是喜欢,现在的工作中用不到的.自己看源码比较快,看英文原著的技术书也很快.都和语言有很 ...
软件工程(GZSD2015) 第三次作业提交进度
第三次作业题目请查看这里:软件工程(GZSD2015)第三次作业开始进入第三次作业提交进度记录中,童鞋们,虚位以待哈... 2015年4月19号徐镇.尚清丽,C语言 2015年4月21号毛涛.徐 ...
菜鸟教程--AJAX
一.简介1.AJAX 是一种在无需重新加载整个网页的情况下,能够更新部分网页的技术.2.AJAX = 异步 JavaScript 和 XML.3.通过在后台与服务器进行少量数据交换,AJAX 可以使网 ...
linux_压缩解压命令(zip/tar)
一.zip 1.压缩格式 $ zip (选项) (文件/目录) 选项 -r 参数表示递归打包包含子目录的全部内容. -q 参数表示为安静模式,即不向屏幕输出信息. -o 表示输出文件,需在其后紧跟打 ...

py3+urllib+re，轻轻松松爬取双色球最近100期中奖号码

py3+urllib+re，轻轻松松爬取双色球最近100期中奖号码的更多相关文章

随机推荐

热门专题