# -*- coding: utf-8 -*-"""Created on Fri Aug 31  2018 @author: chenlinlab""" from selenium import webdriver from time import sleep options = webdriver.ChromeOptions() options.add_argument('disable-infobars') driver = webdrive…
本博文使用的数据库是MySQL和MongoDB数据库.安装MySQL可以参照我的这篇博文:https://www.cnblogs.com/tszr/p/12112777.html 其中操作Mysql使用到的python模块是pymysql,下面是有关这个模块的使用说明: 创建一个数据库test create DATABASE taobao; 下面将要安装一个navicat for mysql这样的软件,下载链接:https://www.pcsoft.com.cn/soft/20832.html?…
注: 上一篇<Python+Selenium爬取动态加载页面(1)>讲了基本地如何获取动态页面的数据,这里再讲一个稍微复杂一点的数据获取全国水雨情网.数据的获取过程跟人手动获取过程类似,所以也不会对服务器造成更大负荷.本文的代码见Selenium获取动态页面数据2.ipynb或Selenium获取动态页面数据2.py.同样在开始前需要准备环境,具体环境准备参考上一篇. 1.数据获取目标 全国水雨情网的数据同样是动态加载出来的,在浏览中打开网页后http://xxfb.hydroinfo.gov…
注: 最近有一小任务,需要收集水质和水雨信息,找了两个网站:国家地表水水质自动监测实时数据发布系统和全国水雨情网.由于这两个网站的数据都是动态加载出来的,所以我用了Selenium来完成我的数据获取.数据的获取过程跟人手动获取过程类似,所以也不会对服务器造成更大负荷.这是我写的第1个爬虫,初次接触,还请各位多多指教.本文的代码见Selenium获取动态页面数据1.ipynb或Selenium获取动态页面数据1.py. 1.准备环境 工欲善其事,必先装好环境,耐心地把下面的环境装好. 建议安装Py…
问题:1.如何将array保存到txt文件中?2.如何将存到txt文件中的数据读出为ndarray类型? 需求:科学计算中,往往需要将运算结果(array类型)保存到本地,以便进行后续的数据分析. 解决:直接用numpy中的方法. 1:numpy.savetxt(fname,X):第一个参数为文件名,第二个参数为需要存的数组(一维或者二维). 2.numpy.loadtxt(fname):将数据读出为array类型. 示例 >>> import numpy as np >>&…
在数据库时候我设计了学生的分数为nvarchar(50),是为了在从TXT文件中读取数据插入到数据库表时候方便,但是在后期由于涉及到统计问题,比如求平均值等,需要int类型才可以,方法是:Convert(int,字段名).例如:select avg(Convert(int,M_Score)) from temp 建立视图,将视图当表示用 CREATE VIEW temp AS select StudentId, MAX(StudentScore) as M_Score from T_Studen…
处理页面动态加载的爬取 selenium selenium是python的一个第三方库,可以实现让浏览器完成自动化的操作,比如说点击按钮拖动滚轮等 环境搭建: 安装:pip install selenium 获取浏览器的驱动程序:下载地址http://chromedriver.storage.googleapis.com/index.html 驱动与浏览器版本对应:https://blog.csdn.net/ezreal_tao/article/details/80808729 设置chorme…
流程: 爬取的数据处理为列表,包含字典.里面包含中文, 经过json.dumps,保存到json文件中, 发现里面的中文显示未\ue768这样子 查阅资料发现,json.dumps 有一个参数.ensure_ascii =true,  它会将不是ascii字符的转义为json 字符串. 如果是false ,不是ascii字符的会包含在里面,即如果是中文就会保存中文. 但是我认为json这样写是有道理的. 用requests模块, requests.post(url,json=handled_da…
#!/usr/bin/python# coding=utf-8# 作者 :Y0010026# 创建时间 :2018/12/16 16:27# 文件 :spider_05.py# IDE :PyCharm import urllib2import urllib url = 'https://movie.douban.com/j/new_search_subjects?sort=T&range=0,10' # 要传递的post方式的数据,有可能会有多组数据submit_data = { 'start…
pipelines.py文件中 import codecs import csv # 保存到CSV文件中 class CsvPipeline(object): def __init__(self): self.file = codecs.open('a.csv', 'w', encoding='utf_8_sig') def process_item(self, item, spider): fieldnames = ['title', 'img_url', 'download_http'] w…