使用selenium再次爬取疫情数据(链接数据库)

　爬取网页地址:

　　　　　　　丁香医生

数据库连接代码:

def db_connect():

    try:

        db=pymysql.connect('localhost','root','zzm666','payiqing')

        print('database connect success')

        return db

    except Exception as e:

        raise e

    return 0

爬取代码:

def pa_website(db):

    driver = webdriver.Chrome()

    driver.get('https://ncov.dxy.cn/ncovh5/view/pneumonia?from=timeline&isappinstalled=0')

    time.sleep(5)#页面渲染等待,保证数据完整性

    driver.find_element_by_xpath('//*[@id="root"]/div/div[4]/div[9]/div[21]').click()#点击更多数据，页面数据未加载完

    divs=driver.find_elements_by_xpath('//*[@id="root"]/div/div[4]/div[9]/div[@class="fold___85nCd"]')#找到要爬取的数据上一次代码路径

    cursor = db.cursor()

    for div in divs:

        address=str(div.find_element_by_xpath('.//div[@class="areaBlock1___3qjL7"]/p[1]').text)

        confirm_issue=str(div.find_element_by_xpath('.//div[@class="areaBlock1___3qjL7"]/p[2]').text)

        all_confirm=str(div.find_element_by_xpath('.//div[@class="areaBlock1___3qjL7"]/p[3]').text)

        dead=str(div.find_element_by_xpath('.//div[@class="areaBlock1___3qjL7"]/p[4]').text)

        cure=str(div.find_element_by_xpath('.//div[@class="areaBlock1___3qjL7"]/p[5]').text)

        with open('data.csv','a',newline="") as csvfile:#创建data.csv文件,（推荐采用这种方式）

            writer=csv.writer(csvfile,delimiter=',')

            writer.writerow([address,confirm_issue,all_confirm,dead,cure])

        sql="insert into info(id,address,confirm_issue,all_confirm,dead,cure)values ('%d','%s','%s','%s','%s','%s')"%(0,address,confirm_issue,all_confirm,dead,cure)

        try:

            cursor.execute(sql)

            db.commit()

            print('数据插入成功')

        except Exception as e:

            raise e

    db.close()

爬取流程:

　　1.获取目标网址

　　2.获取上一级目标路径

　　3.遍历路径下的目标

　　4.获取数据信息

　　5.生存csv文件展示(可以省略)

　　6.插入数据库

　　7.当数据全部插入后，关闭数据库

附(总源码+程序截图):

import csv

import requests

from selenium import webdriver

import pymysql

import time

from selenium.webdriver import  ActionChains  #动作链,滑动验证码登录

def db_connect():

    try:

        db=pymysql.connect('localhost','root','zzm666','payiqing')

        print('database connect success')

        return db

    except Exception as e:

        raise e

    return 0

def pa_website(db):

    driver = webdriver.Chrome()

    driver.get('https://ncov.dxy.cn/ncovh5/view/pneumonia?from=timeline&isappinstalled=0')

    time.sleep(5)

    driver.find_element_by_xpath('//*[@id="root"]/div/div[4]/div[9]/div[21]').click()

    divs=driver.find_elements_by_xpath('//*[@id="root"]/div/div[4]/div[9]/div[@class="fold___85nCd"]')

    cursor = db.cursor()

    for div in divs:

        address=str(div.find_element_by_xpath('.//div[@class="areaBlock1___3qjL7"]/p[1]').text)

        confirm_issue=str(div.find_element_by_xpath('.//div[@class="areaBlock1___3qjL7"]/p[2]').text)

        all_confirm=str(div.find_element_by_xpath('.//div[@class="areaBlock1___3qjL7"]/p[3]').text)

        dead=str(div.find_element_by_xpath('.//div[@class="areaBlock1___3qjL7"]/p[4]').text)

        cure=str(div.find_element_by_xpath('.//div[@class="areaBlock1___3qjL7"]/p[5]').text)

        with open('data.csv','a',newline="") as csvfile:

            writer=csv.writer(csvfile,delimiter=',')

            writer.writerow([address,confirm_issue,all_confirm,dead,cure])

        sql="insert into info(id,address,confirm_issue,all_confirm,dead,cure)values ('%d','%s','%s','%s','%s','%s')"%(0,address,confirm_issue,all_confirm,dead,cure)

        try:

            cursor.execute(sql)

            db.commit()

            print('数据插入成功')

        except Exception as e:

            raise e

    db.close()

def main():

    db = db_connect()

    pa_website(db)

if __name__=="__main__":

    main()

使用selenium再次爬取疫情数据(链接数据库)的更多相关文章

爬取疫情数据，以django+pyecharts实现数据可视化web网页
在家呆着也是呆着,不如做点什么消磨时间呗~ 试试用django+pyecharts实现疫情数据可视化web页面这里要爬疫情数据来自丁香园.搜狗及百度的疫情实时动态展示页先看看劳动成果: 导航栏: ...
selenium爬虫 | 爬取疫情实时动态（二）
'''@author:Billie更新说明:1-28 17:00 项目开始着手,spider方法抓取到第一条疫情数据,save_data_csv方法将疫情数据保存至csv文件1-29 13:12 目标 ...
python爬取疫情数据详解
首先逐步分析每行代码的意思: 这是要引入的东西: from os import path import requests from bs4 import BeautifulSoup import js ...
利用Python爬取疫情数据并使用可视化工具展示
import requests, json from pyecharts.charts import Map, Page, Pie, Bar from pyecharts import options ...
selenium爬虫 | 爬取疫情实时动态
import csvimport selenium.webdriverfrom selenium.webdriver.chrome.options import Optionsclass spider ...
python爬取疫情数据存入MySQL数据库
import requests from bs4 import BeautifulSoup import json import time from pymysql import * def mes( ...
使用selenium进行爬取掘金前端小册的数据
Selenium 简介百度百科介绍: Selenium [1] 是一个用于Web应用程序测试的工具.Selenium测试直接运行在浏览器中,就像真正的用户在操作一样.支持的浏览器包括IE(7, 8, ...
使用webdriver+urllib爬取网页数据(模拟登陆，过验证码)
urilib是python的标准库,当我们使用Python爬取网页数据时,往往用的是urllib模块,通过调用urllib模块的urlopen(url)方法返回网页对象,并使用read()方法获得ur ...
[python爬虫] Selenium定向爬取PubMed生物医学摘要信息
本文主要是自己的在线代码笔记.在生物医学本体Ontology构建过程中,我使用Selenium定向爬取生物医学PubMed数据库的内容. PubMed是一个免费的搜寻引擎,提供生物医学方 ...

随机推荐

Scala 基础（十四）：Scala 模式匹配（二）
1 匹配数组 1)Array(0) 匹配只有一个元素且为0的数组. 2)Array(x,y) 匹配数组有两个元素,并将两个元素赋值为x和y.当然可以依次类推Array(x,y,z) 匹配数组有3个元素 ...
flask 源码专题（十）：flash源码研究
flash源码 def flash(message, category="message"): flashes = session.get("_flashes" ...
python处理json总结
一.首先,了解下什么是JSON? JSON:JavaScript Object Notation [JavaScript 对象表示法] JSON 是一种轻量级的数据交换格式,完全独立于任何程序语言的文 ...
jpa随手笔记
jpa注解1.设置Pojo为实体@Entity //标识这个pojo是一个jpa实体 2.设置表名@Table(name = "users") //指定表名为users 3.设置主 ...
java的干儿子锁Lock
目录 Lock的由来线程之间的交互 Lock方法简介 lock() lockInterruptibly() trylock() trylock(long,TimeUnit) unlock() new ...
less : 写一个display:flex的mixin
和scss一样,less也是一个好用的css预处理语言,语法也很相近. 而我们在使用display:flex的时候,很容易苦恼于里面的设置的单词很难记(尤其是对我这种英语很差的人来说). 所以我们可以 ...
Python基础-异常
异常捕获常见异常类型 Exception:顶级异常类,大部分异常类都是它的子类.SyntaxError:语法错误TypeError:类型错误ValueError:值错误NameError:找不到名称 ...
python多线程之Threading
什么是线程? 线程是操作系统内核调度的基本单位,一个进程中包含一个或多个线程,同一个进程内的多个线程资源共享,线程相比进程是“轻”量级的任务,内核进行调度时效率更高. 多线程有什么优势? 多线程可以实 ...
ElementUI中 el-table-column 显示的数据为多个返回数据的拼接
遇到个问题就是其中有个要展示的数据来自接口返回的两个字段. 原用法是: 原以为prop=" "中只能放一个字段的数据,想放两个字段数据的话,要把 <el-table-colu ...
Eclipse普通java Project文件路径问题
Eclipse普通java Project文件路径问题项目的结构如图读取src里某个包下的文件,代码如下 BufferedReader br=new BufferedReader(new File ...

使用selenium再次爬取疫情数据(链接数据库)

使用selenium再次爬取疫情数据(链接数据库)的更多相关文章

随机推荐

热门专题