使用python抓取数据之菜鸟爬虫1

'''

Created on 2018-5-27

@author: yaoshuangqi

'''

#本代码获取百度乐彩网站上的信息，只获取最近100期的双色球

import urllib.request

from bs4 import BeautifulSoup

import random

ere_hitlist = []

hitlist = []

def getSSQ100():

    #site = 'http://trend.lecai.com/ssq/redBaseTrend.action?recentPhase=100&onlyBody=false&phaseOrder=up&coldHotOrder=number'

    site ='https://www.17500.cn/ssq/'

    page = urllib.request.urlopen(site)

    html = page.read().decode('gb18030');#注意编码

    print(html)

    soup = BeautifulSoup(html,"html.parser")#指定html解析器

    hhlist = soup.find_all("td",class_="red_ball")

    bluelist = soup.find_all("td",class_="blue_ball")

    num = 0

    count = 0

    for tag in hhlist:

        global hitlist

        global ere_hitlist

        if num < 6:

            hitlist.append(tag.contents[0])

            if count == 599:

                ere_hitlist.append(hitlist)

                hitlist = []

        elif num == 6 :

            ere_hitlist.append(hitlist)

            hitlist = []

            num = 0

            hitlist.append(tag.contents[0])

        num+=1

        count+=1

    num = 0

    for sublist in ere_hitlist:

        sublist.append(bluelist[num].contents[0])

        num+=1

def chooseSSQ():

    hhlist = []

    lhlist = []

    ylhlist = ['','','','','','','','','','','','','','','','','','','','','','','','','','','','','','','','','']

    ylllist = ['','','','','','','','','','','','','','','','']

    ylhrlist = []

    yllrlist = []

    num = 0

    for curlist in ere_hitlist:

        for value in curlist:

            num+=1

            for ylval in ylhlist:

                if ylval == value and len(curlist) == num:

                    yllrlist.append(value)

                elif ylval == value and len(curlist) != num:

                    ylhrlist.append(value)

        num = 0

    print("红号：",len(ylhrlist),"蓝号：",len(yllrlist))

    if len(ylhrlist) == 600 and len(yllrlist) == 100:

        lh = random.randint(0,99)

        lhlist.append(ere_hitlist[lh][6])

        while len(hhlist) < 6:

            hh = random.randint(0,99)

            hhs = random.randint(0,5)

            hhlist.append(ere_hitlist[hh][hhs])

            hhlist = list(set(hhlist))

    elif len(ylhrlist) == 600 and len(yllrlist) != 100:

        lh = random.randint(0,len(yllrlist))

        lhlist.append(yllrlist[lh])

        lh = random.randint(0,15)

        lhlist.append(ylllist[lh])

        while len(hhlist) < 6:

            hh = random.randint(0,99)

            hhs = random.randint(0,5)

            hhlist.append(ere_hitlist[hh][hhs])

            hhlist = list(set(hhlist))

    elif len(ylhrlist) != 600 and len(yllrlist) == 100:

        lh = random.randint(0,99)

        lhlist.append(lh)

        while len(hhlist) < 3:

            hh = random.randint(0,len(ylhrlist))

            hhlist.append(ylhrlist[hh])

            hhlist = list(set(hhlist))

        while len(hhlist) < 6:

            hh = random.randint(0,len(ylhlist))

            hhlist.append(ylhlist[hh])

            hhlist = list(set(hhlist))        

    elif len(ylhrlist) != 600 and len(yllrlist) != 100:

        lh = random.randint(0,len(yllrlist))

        lhlist.append(yllrlist[lh])

        lh = random.randint(0,15)

        lhlist.append(ylllist[lh])

        while len(hhlist) < 3:

            hh = random.randint(0,len(ylhrlist))

            hhlist.append(ylhrlist[hh])

            hhlist = list(set(hhlist))

        while len(hhlist) < 6:

            hh = random.randint(0,len(ylhlist))

            hhlist.append(ylhlist[hh])

            hhlist = list(set(hhlist))

    print("根据前100期双色球中奖号码，本人预测下一期中奖号码是，红号：",hhlist,",蓝号：",lhlist)

if  __name__ == '__main__':

        getSSQ100()

        chooseSSQ()

使用python抓取数据之菜鸟爬虫1的更多相关文章

python抓取数据常见反爬虫情况
1.报文头信息: User-Agent Accept-Language 防盗链上referer 随机生成不同的User-Agent构造报头 2.加抓取等待时间每抓取一页都让它随机休息几秒,加入此 ...
python抓取数据，python使用socks代理抓取数据
在python中,正常的抓取数据直接使用urllib2 这个模块: import urllib2 url = 'http://fanyi.baidu.com/' stream = urllib2.ur ...
在mac下使用python抓取数据
2015已经过去,这是2016的第一篇博文! 祝大家新年快乐! 但是我还有好多期末考试! 还没开始复习,唉,一把辛酸泪! 最近看了一遍彦祖的文章叫做 iOS程序员如何使用Python写网路爬虫所以自 ...
python抓取数据构建词云
1.词云图词云图,也叫文字云,是对文本中出现频率较高的"关键词"予以视觉化的展现,词云图过滤掉大量的低频低质的文本信息,使得浏览者只要一眼扫过文本就可领略文本的主旨. 先看几个词 ...
python 抓取数据，pandas进行数据分析并可视化展示
感觉要总结总结了,希望这次能写个系列文章分享分享心得,和大神们交流交流,提升提升. 因为半桶子水的水平,一直在想写什么,为什么写,怎么写. 直到现在找到了一种好的办法: 1.写什么自己手上掌握的,工 ...
python 抓取数据存入 excel
import requestsimport datetimefrom random import choicefrom time import timefrom openpyxl import loa ...
Python 抓取数据存储到Mysql中
# -*- coding: utf-8 -*- import os,sys import requests import bs4 import pymysql#import MySQLdb #连接MY ...
Python 抓取数据存储到Redis中
redis是一个key-value存储结构.和Memcached类似,它支持存储的value类型相对更多,包括string(字符串).list(链表).set(集合).zset(sorted set ...
使用python抓取并分析数据—链家网(requests+BeautifulSoup)（转）
本篇文章是使用python抓取数据的第一篇,使用requests+BeautifulSoup的方法对页面进行抓取和数据提取.通过使用requests库对链家网二手房列表页进行抓取,通过Beautifu ...

随机推荐

Android开发：APK的反编译（获取代码和资源文件）
一.反编译工具: 1.APKTool: APKTool是由GOOGLE提供的APK编译工具,能够完成反编译及回编译apk的工作.同时,它也有着安装反编译系统apk所需要的framework-res框架 ...
Socket模拟HTTP请求
WEB服务器可以可以理解为socket的上层封装,其也是TCP/IP协议,只要知道其IP地址和端口号就可以与他进行通信了与WEB服务器数据交互,其重点在于请求头,如果请求头不对则不能进行数据传输简 ...
synchronized的四种作用域以及不能被继承解析
synchronized是java中用于同步的关键字,其典型的作用域如下所示. 1 对象锁 @Slf4j public class SynchronizedExample1 { private fin ...
网络协议 16 - DNS 协议：网络世界的地址簿
[前五篇]系列文章传送门: 网络协议 11 - Socket 编程(下):眼见为实耳听为虚网络协议 12 - HTTP 协议:常用而不简单网络协议 13 - HTTPS 协议:加密路上无尽头网络 ...
Mybatis之旅第二篇-Mapper动态代理方式
一.引言通过上一篇mybatis的入门学习,我们已经会使用mybatis实现简单的增删改查,但是我们也发现了用原始Dao开发的一些问题: Dao方法体存在重复代码:通过SqlSessionFacto ...
.net4.5部署到docker容器
.net4.5部署到docker容器部署到windows容器部署到linux容器部署到windows容器由于.net本身就是运行在windows平台的,所以它与windows容器也是更加适合, ...
Java 集合详解
一.集合的由来通常,我们的程序需要根据程序运行时才知道创建多少个对象.但若非程序运行,程序开发阶段,我们根本不知道到底需要多少个数量的对象,甚至不知道它的准确类型.为了满足这些常规的编程需要,我们要 ...
[开发技巧]·Numpy中对axis的理解与应用
[开发技巧]·Numpy中对axis的理解与应用 1.问题描述在使用Numpy时我们经常要对Array进行操作,如果需要针对Array的某一个纬度进行操作时,就会用到axis参数. 一般的教程都是针 ...
Centos7+LVS-DR+keepalived实验（包含sorry-server、日志、及HTTP-GET的健康检测）
目录检索一.简介 1.lvs-dr原理请参考原理篇 2.keepalived原理请参考原理篇 3.基于lvs-dr+keepalived故障切换架构图如下: 二.部署 1.环境 2.准备RS的web ...
简简单单的Vue3（插件开发，路由系统，状态管理）
既然选择了远方,便只顾风雨兼程 __ HANS许系列:零基础搭建前后端分离项目系列:零基础搭建前后端分离项目插件路由(vue-router) 状态管理模式(Vuex) 那在上篇文章,我们讲了, ...

使用python抓取数据之菜鸟爬虫1

使用python抓取数据之菜鸟爬虫1的更多相关文章

随机推荐

热门专题