编写python爬虫采集彩票网站数据，将数据写入mongodb数据库

1.准备工作：

1.1安装requests: cmd >> pip install requests

1.2 安装lxml: cmd >>  pip install lxml

1.3安装wheel: cmd >>  pip install wheel

1.4 安装xlwt: cmd >> pip install xlwt

1.5 安装pymongo: cmd >> pip install pymongo

完整代码

import requests

from lxml import etree

import xlwt

from pymongo import MongoClient

#设置浏览器的请求头，告诉服务器我们是从浏览器来的，作用是阻止被网站反爬

headers = {

    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36',

    'Accept-Encoding': 'gzip, deflate',

    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',

    'Connection': 'keep-alive'

}

# 创建数据库

client = MongoClient()

database = client['Chapter6']

collection = database['webdata']

for i in range(1, 21):

    url = "http://kaijiang.zhcw.com/zhcw/html/3d/list_{}.html".format(i)

    #发送请求 得到数据

    response = requests.get(url=url,headers=headers)

    #print(response.text)

    #将数据改成xpath结构

    res_xpath = etree.HTML(response.text)

    trs = res_xpath.xpath('/html/body/table//tr')

    # 将数据写入MongoDB数据库

    for tr in trs[2:-1]:

        data = {

            '开奖日期': tr.xpath("./td[1]/text()")[0],

            '期号': tr.xpath("./td[2]/text()")[0],

            '中奖号码1': tr.xpath("./td[3]/em[1]/text()")[0],

            '中奖号码2': tr.xpath("./td[3]/em[2]/text()")[0],

            '中奖号码3': tr.xpath("./td[3]/em[3]/text()")[0],

            '销售额(元)': tr.xpath("./td[4]/text()")[0],

            '返奖比例': tr.xpath("./td[5]/text()")[0]

        }

        collection.insert_one(data);

实现效果

编写python爬虫采集彩票网站数据，将数据写入mongodb数据库的更多相关文章

python爬虫采集
python爬虫采集最近有个项目需要采集一些网站网页,以前都是用php来做,但现在十分流行用python做采集,研究了一些做一下记录. 采集数据的根本是要获取一个网页的内容,再根据内容筛选出需要的数 ...
python爬虫之天气预报网站--查看最近(15天)的天气信息(正则表达式)
python爬虫之天气预报网站--查看最近(15天)的天气信息(正则表达式) 思路: 1.首先找到一个自己想要查看天气预报的网站,选择自己想查看的地方,查看天气(例:http://www.tianqi ...
python爬虫之12306网站--火车票信息查询
python爬虫之12306网站--火车票信息查询思路: 1.火车票信息查询是基于车站信息查询,先完成车站信息查询,然后根据车站信息查询生成的url地址去查询当前已知出发站和目的站的所有车次车票信息 ...
python爬虫之小说网站--下载小说(正则表达式)
python爬虫之小说网站--下载小说(正则表达式) 思路: 1.找到要下载的小说首页,打开网页源代码进行分析(例:https://www.kanunu8.com/files/old/2011/244 ...
Python爬虫教程-18-页面解析和数据提取
本篇针对的数据是已经存在在页面上的数据,不包括动态生成的数据,今天是对HTML中提取对我们有用的数据,去除无用的数据 Python爬虫教程-18-页面解析和数据提取结构化数据:先有的结构,再谈数据 ...
一个月入门Python爬虫，轻松爬取大规模数据
Python爬虫为什么受欢迎如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面,像 Python这样的编程语言提供越来越多的优秀工具,让爬虫变得 ...
Python爬虫某招聘网站的岗位信息
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:阿尔法游戏 PS:如有需要Python学习资料的小伙伴可以加点击下方链 ...
Python爬虫(九)_非结构化数据与结构化数据
爬虫的一个重要步骤就是页面解析与数据提取.更多内容请参考:Python学习指南页面解析与数据提取实际上爬虫一共就四个主要步骤: 定(要知道你准备在哪个范围或者网站去搜索) 爬(将所有的网站的内容全 ...
Python爬虫：用BeautifulSoup进行NBA数据爬取
爬虫主要就是要过滤掉网页中没用的信息.抓取网页中实用的信息一般的爬虫架构为: 在python爬虫之前先要对网页的结构知识有一定的了解.如网页的标签,网页的语言等知识,推荐去W3School: W3s ...

随机推荐

RedisTemplate中zset类型的使用
简述上一文中简述了使用StringRedisTemplate操作redis中的set类型,今天来记录一下操作zset类型的主要方法代码 @RunWith(SpringRunner.class) @ ...
自定义IPython提示符
首先创建IPython的自定义配置文件 $ ipython profile create 可以看到在HOME目录下: 多了两个配置文件我们修改~/.ipython/profile_default/i ...
C++入门经典-例6.9-通过指针变量获取数组中的元素
1:通过指针引用数组,需要先声明一个数组,再声明一个指针. int a[10]; int *p; 然后通过&运算符获取数组中元素的地址,再将地址值赋给指针变量. p=&a[0]; 代码 ...
利用python的图像分块与拼接
import os import matplotlib.pyplot as plt import cv2 import numpy as np def divide_img(img_path, img ...
BOSCH汽车工程手册————驾驶员辅助系统
根据交通事故统计得出平均每分钟有一人死于交通事故而辅助驾驶系统能够为驾驶员洞察了解汽车周围情况,识别危险的行驶状况. 提早为驾驶员告诉危险信息,可减少60%汽车驶上主路事故和1/3汽车前碰事故. 有 ...
unity3d卡在loading的解决方法
解决方案: 关闭U3D,打开电脑的网络适配器把网给掐掉,打开U3D后会提示Workoffline 点击这个即可,然后再把网给起起来就可以了
启用 SR-IOV 解决 Neutron 网络 I/O 性能瓶颈
目录文章目录目录前言 Neutron 的网络实现模型基于虚拟网络设备的虚拟机流量走向 Neutron 网络实现模型的性能瓶颈 SR-IOV 技术简介在 Neutron 中引入 SR-IOV ...
阶段3 2.Spring_09.JdbcTemplate的基本使用_6 JdbcDaoSupport的使用以及Dao的两种编写方式
复制三个出来.分别叫做 OrderDaoImpl.ProductDaoImpl.UserDaoImpl 复制这三个出来就是为了解决重复性代码的问题. 每个dao中都有这段代码.这些都是重复性的代码.在 ...
阶段3 2.Spring_09.JdbcTemplate的基本使用_2 JdbcTemplate的概述和入门
先看这张图 1.spring中的JdbcTemplate JdbcTemplate的作用: 它就是用于和数据库交互的,实现对表的CRUD操作如何创建该对象: ...
Counter() most_common()
1 不仅可以统计list中元素的出现次数,也可以对str中的元素进行统计 # collections包中的Counter用于统计str list 中元素出现次数 from collections im ...

编写python爬虫采集彩票网站数据，将数据写入mongodb数据库

编写python爬虫采集彩票网站数据，将数据写入mongodb数据库的更多相关文章

随机推荐

热门专题