3.15学习总结（Python爬取网站数据并存入数据库）

在官网上下载了Python和PyCharm，并在网上简单的学习了爬虫的相关知识。

结对开发的第一阶段要求：

网上爬取最新疫情数据，并存入到MySql数据库中
在可视化显示数据详细信息

项目代码：

import requests

from bs4 import BeautifulSoup

import json

import time

from pymysql import *

def mes():

    url = 'https://ncov.dxy.cn/ncovh5/view/pneumonia?from=timeline&isappinstalled=0'  #请求地址

    headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.87 Safari/537.36 SLBrowser/6.0.1.6181'}#创建头部信息

    resp =  requests.get(url,headers = headers)  #发送网络请求

    content=resp.content.decode('utf-8')

    soup = BeautifulSoup(content, 'html.parser')

    listA = soup.find_all(name='script',attrs={"id":"getAreaStat"})

    account =str(listA)

    mes = account.replace('[<script id="getAreaStat">try { window.getAreaStat = ', '')

    mes=mes.replace('}catch(e){}</script>]','')

    #mes=account[52:-21]

    messages_json = json.loads(mes)

    print(messages_json)

    times=time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(time.time()))

    print(times)

    provinceList=[]

    cityList=[]

    lenth=total()

    con=len(messages_json)+lenth#算出数据库已有的条数+今天省份的条数，才是城市的开始id

    for item in messages_json:

        lenth+=1

        provinceName=item['provinceName']

        confirmedCount=item['confirmedCount']

        suspectedCount=item['suspectedCount']

        curedCount=item['curedCount']

        deadCount=item['deadCount']

        cities=item['cities']

        provinceList.append((lenth,times,provinceName,None,confirmedCount,suspectedCount,curedCount,deadCount))

        for i in cities:

            con+=1

            provinceName = item['provinceName']

            cityName=i['cityName']

            confirmedCount = i['confirmedCount']

            suspectedCount = item['suspectedCount']

            curedCount = i['curedCount']

            deadCount = i['deadCount']

            cityList.append((con,times,provinceName,cityName,confirmedCount,suspectedCount,curedCount,deadCount))

    insert(provinceList,cityList)

def insert(provinceList, cityList):

    provinceTuple=tuple(provinceList)

    cityTuple=tuple(cityList)

    cursor = db.cursor()

    sql = "insert into info values (%s,%s,%s,%s,%s,%s,%s,%s) "

    try:

        cursor.executemany(sql,provinceTuple)

        print("插入成功")

        db.commit()

    except Exception as e:

        print(e)

        db.rollback()

    try:

        cursor.executemany(sql,cityTuple)

        print("插入成功")

        db.commit()

    except Exception as e:

        print(e)

        db.rollback()

    cursor.close()

def total():

    sql= "select * from info"

    cursor = db.cursor()

    try:

        cursor.execute(sql)

        results = cursor.fetchall()

        lenth = len(results)

        db.commit()

        return lenth

    except:

        print('执行失败，进入回调1')

        db.rollback()

# 连接数据库的方法

def connectDB():

    try:

        db = connect(host='localhost', port=3306, user='root', password='156132', db='world',charset='utf8')

        print("数据库连接成功")

        return db

    except Exception as e:

        print(e)

    return NULL

if __name__ == '__main__':

    db=connectDB()

    mes()

效果展示：

代码询问的同学，博客园地址：https://www.cnblogs.com/Arisf/

两位学长有详细讲解：https://www.cnblogs.com/studya/p/13062641.html https://www.cnblogs.com/dazhi151/p/12461830.html

3.15学习总结（Python爬取网站数据并存入数据库）的更多相关文章

python爬取网站数据
开学前接了一个任务,内容是从网上爬取特定属性的数据.正好之前学了python,练练手. 编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这个机会算是彻底搞清楚了. 问题要从文字的编码讲 ...
python爬取网站数据保存使用的方法
这篇文章主要介绍了使用Python从网上爬取特定属性数据保存的方法,其中解决了编码问题和如何使用正则匹配数据的方法,详情看下文编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这 ...
Python 爬取网站数据
一.使用request库实现批量下载HTML 二.使用BeautifulSoup库实现html解析官网:https://beautifulsoup.readthedocs.io/zh_CN/v4.4 ...
毕设之Python爬取天气数据及可视化分析
写在前面的一些P话:(https://jq.qq.com/?_wv=1027&k=RFkfeU8j) 天气预报我们每天都会关注,我们可以根据未来的天气增减衣物.安排出行,每天的气温.风速风向. ...
Python爬取房产数据，在地图上展现！
小伙伴,我又来了,这次我们写的是用python爬虫爬取乌鲁木齐的房产数据并展示在地图上,地图工具我用的是 BDP个人版-免费在线数据分析软件,数据可视化软件 ,这个可以导入csv或者excel数据. ...
利用linux curl爬取网站数据
看到一个看球网站的以下截图红色框数据,想爬取下来,通常爬取网站数据一般都会从java或者python爬取,但本人这两个都不会,只会shell脚本,于是硬着头皮试一下用shell爬取,方法很笨重,但旨在 ...
如何使用Python爬取基金数据，并可视化显示
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理以下文章来源于Will的大食堂,作者打饭大叔前言美国疫情越来越严峻,大选也进入 ...
Python学习-使用Python爬取陈奕迅新歌《我们》网易云热门评论
<后来的我们>上映也有好几天了,一直没有去看,前几天还爆出退票的事件,电影的主题曲由陈奕迅所唱,特地找了主题曲<我们>的MV看了一遍,还是那个感觉.那天偶然间看到Python中 ...
python入门学习之Python爬取最新笔趣阁小说
Python爬取新笔趣阁小说,并保存到TXT文件中我写的这篇文章,是利用Python爬取小说编写的程序,这是我学习Python爬虫当中自己独立写的第一个程序,中途也遇到了一些困难,但是最后 ...

随机推荐

Spring Cloud 专题之七：Sleuth 服务跟踪
书接上回: SpringCloud专题之一:Eureka Spring Cloud专题之二:OpenFeign Spring Cloud专题之三:Hystrix Spring Cloud 专题之四:Z ...
使用Freemarker导出Word文档（包含图片）代码实现及总结
.personSunflowerP { background: rgba(51, 153, 0, 0.66); border-bottom: 1px solid rgba(0, 102, 0, 1); ...
SpringMVC学习08（拦截器）
8.拦截器概述 SpringMVC的处理器拦截器类似于Servlet开发中的过滤器Filter,用于对处理器进行预处理和后处理.开发者可以自己定义一些拦截器来实现特定的功能. 过滤器与拦截器的区别: ...
linux的iptables设置
添加规则 -A 在链末尾追加一条规则 -I 在链开头或某序号前插入一条规则查看规则 -L 列出所有规则 -n 数字显示地址和端口信息 -v 详细信息 -line-numbers 显示规则序号删除规 ...
Git-03-工作区和暂存区
工作区和暂存区的概念工作区工作区:就是电脑里能看到的目录,如现在学习的目录github 暂存区版本库:工作区内有一个隐藏目录 .git,这个叫做版本库 git版本库中有一个重要的区叫做暂存区(i ...
efcore分表下"完美"实现
ShardingCore 如何呈现"完美"分表这篇文章是我针对efcore的分表的简单介绍,如果您有以下需求那么可以自己选择是否使用本框架,本框架将一直持续更新下去,并且免费开源 ...
（一）Linux之目录结构
Linux之目录结构目录 Linux之目录结构一.概述一.基本介绍二.具体的目录结构(不用背,知道即可) Linux /usr目录 Linux /var 目录一.概述学习 Linux,不仅 ...
AECC2018同时中英文切换多开使用，加倍提高你的工作效率
最近相信不少人已经更新了AECC2018,升级之后第一件重要的事当然是中英文的切换了,要不然工作中很麻烦.对于一直习惯用中文的人来说,在用模板过程中会出现各种表达式报错极其不方便,而对于习惯英文操作朋 ...
uwp 中的appservice
在上篇里,我使用的是寄宿在WPF上的WCF进行两个程序间的通信,在解决问题的同时,我的同事也在思考能否使用UWP来做这件事.于是,我们发现了App Service,两个UWP应用沟通的桥梁. App ...
springboot 2.0 整合 RestTemplate
首先导入springboot 的 web 包 <dependency> <groupId>org.springframework.boot</groupId> &l ...

3.15学习总结（Python爬取网站数据并存入数据库）

3.15学习总结（Python爬取网站数据并存入数据库）的更多相关文章

随机推荐

热门专题