上一篇文章:<数据质量检查-理论篇>主要介绍了数据质量检查的基本思路与方法,本文作为补充,从Python实战角度,提供具体的实现方法. 承接上文,仍然从重复值检查.缺失值检查.数据倾斜问题.异常值检查四方面进行描述. 1.环境介绍 版本:python2.7 工具:Spyder 开发人:hbsygfz 2.数据集介绍 数据集:dataset.xlsx 3.代码实现 3.1 导入相关库 import pandas as pd 3.2 读取数据集 dataset = pd.read_excel(&q…
在上一篇文章<数据准备<4>:变量筛选-理论篇>中,我们介绍了变量筛选的三种方法:基于经验的方法.基于统计的方法和基于机器学习的方法,本文将介绍后两种方法在Python(sklearn)环境下的具体实现. 1.环境介绍 版本:python2.7 工具:Spyder 开发人:hbsygfz 2.数据集介绍 数据集:sklearn中自带的cancer数据集,可参考官方介绍 from sklearn.datasets import load_breast_cancer cancer =…
在上一篇文章<数据准备<3>:数据预处理>中,我们提到降维主要包括两种方式:基于特征选择的降维和基于维度转换的降维,其中基于特征选择的降维通俗的讲就是特征筛选或者变量筛选,是指从多个特征(变量)中筛选出显著的特征(变量),在分类预测问题中,就是筛选出对目标变量有预测能力的特征(变量).本篇主要介绍特征(变量)筛选的基本思路与方法,为简洁,下文均使用"变量筛选"指代. 变量筛选主要有三种方法:基于经验的方法(比如专家法).基于统计的方法(比如信息增益.区分度)和基…
数据行业有一句很经典的话--"垃圾进,垃圾出"(Garbage in, Garbage out, GIGO),意思就是,如果使用的基础数据有问题,那基于这些数据得到的任何产出都是没有价值的.而对于数据分析挖掘而言,只有一份高质量的基础数据,才可能得到正确.有用的结论.本文主要介绍数据质量检查的基本思路和方法,具体包括:从哪些角度检查数据质量问题.发现数据质量问题后又如何处理两方面,并提供基于Python的实现方法. 另外,数据质量检查是数据治理中的一个重要课题,涉及内容广,由于笔者经验…
本篇文章我们以抓取历史天气数据为例,简单说明数据抓取的两种方式: 1.一般简单或者较小量的数据需求,我们以requests(selenum)+beautiful的方式抓取数据 2.当我们需要的数据量较多时,建议采用scrapy框架进行数据采集,scrapy框架采用异步方式发起请求,数据抓取效率极高. 下面我们以http://www.tianqihoubao.com/lishi/网站数据抓取为例进行进行两种数据抓取得介绍: 1.以request+bs的方式采集天气数据,并以mysql存储数据 思路…
本篇目标:我们以爬取京东商城商品数据为例,展示Scrapy框架对接selenium爬取京东商城商品数据. 背景: 京东商城页面为js动态加载页面,直接使用request请求,无法得到我们想要的商品数据,故需要借助于selenium模拟人的行为发起请求,输出源代码,然后解析源代码,得到我们想要的数据. 第一步:设置我们需要提取的字段,也就是在Scrapy框架中设置Item.py文件. class ProductItem(scrapy.Item): # define the fields for y…
基于 Flink 1.9 讲解的专栏,涉及入门.概念.原理.实战.性能调优.系统案例的讲解. 专栏介绍 扫码下面专栏二维码可以订阅该专栏 首发地址:http://www.54tianzhisheng.cn/2019/11/15/flink-in-action/ 专栏地址:https://gitbook.cn/gitchat/column/5dad4a20669f843a1a37cb4f 专栏亮点 全网首个使用最新版本 Flink 1.9 进行内容讲解(该版本更新很大,架构功能都有更新),领跑于目…
               Wireshark数据抓包分析--网络协议篇     watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvZGF4dWViYQ==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" alt="">                 Wireshark是眼下最受欢迎的抓包工具. 它能够执行在Windows.…
Python数据抓取技术与实战 目录 D11章Python基础1.1Python安装1.2安装pip1.3如何查看帮助1.4D1一个实例1.5文件操作1.6循环1.7异常1.8元组1.9列表1.10字典1.11集合1.12随机数1.13enumerate的使用1.14D1二个实例D12章字符串解析2.1常用函数2.2正则表达式2.3BeautifulSoup2.4json结构D13章单机数据抓取3.1单机顺序抓取3.2requests3.3并发和并行抓取D14章分布式数据抓取4.1RPC的使用4…
数据分布图简介 中医上讲看病四诊法为:望闻问切.而数据分析师分析数据的过程也有点相似,我们需要望:看看数据长什么样:闻:仔细分析数据是否合理:问:针对前两步工作搜集到的问题与业务方交流:切:结合业务方反馈的结果和项目需求进行数据分析. "望"的方法可以认为就是制作数据可视化图表的过程,而数据分布图无疑是非常能反映数据特征(用户症状)的.R语言提供了多种图表对数据分布进行描述,本文接下来将逐一讲解. 绘制基本直方图 本例选用如下测试集: 直方图的横轴为绑定变量区间分隔的取值范围,纵轴则表…