最近博主在做个 kaggle 竞赛,有个 Kernel 的数据探索分析非常值得借鉴,博主也学习了一波操作,搬运过来借鉴,原链接如下: https://www.kaggle.com/willkoehrsen/start-here-a-gentle-introduction 1 数据介绍 数据由Home Credit提供,该服务致力于向无银行账户的人群提供信贷(贷款).预测客户是否偿还贷款或遇到困难是一项重要的业务需求,Home Credit将在Kaggle上举办此类竞赛,以了解机器学习社区可以开展…
博主在之前的博客 Kaggle:Home Credit Default Risk 数据探索及可视化(1) 中介绍了 Home Credit Default Risk 竞赛中一个优秀 kernel 关于数据的探索及可视化的工作,本篇博客将围绕如何构建特征工程展开叙述,原文链接地址:Start Here: A Gentle Introduction 1 简介 特征工程是指一个基因过程,可以涉及特征构建:从现有数据中添加新特征和特征选择:仅选择最重要的特征或其他降维方法.我们可以使用许多技术来创建特征…
最近一直断断续续的做这个泰坦尼克生存预测模型的练习,这个kaggle的竞赛题,网上有很多人都分享过,而且都很成熟,也有些写的非常详细,我主要是在牛人们的基础上,按照数据挖掘流程梳理思路,然后通过练习每一步来熟悉应用python进行数据挖掘的方式. 数据挖掘的一般过程是:数据预览——>数据预处理(缺失值.离散值等)——>变量转换(构造新的衍生变量)——>数据探索(提取特征)——>训练——>调优——>验证 1 数据预览 1.1 head() 预览数据集的前面几条数据可以大致…
# postgresql-分页重复数据探索 ## 问题背景 许多开发和测试人员都可能遇到过列表的数据翻下一页的时候显示了上一页的数据,也就是翻页会有重复的数据. ### 如何处理? 这个问题出现的原因是因为选择的排序字段有重复,常见的处理办法就是排序的时候加上唯一字段,这样在分页的过程中数据就不会重复了.关于这个问题文档也有解释并非是一个bug.而是排序时需要选择唯一字段来做排序,不然返回的结果不确定 ### 排序返回数据重复的根本原因是什么呢? 经常优化sql的同学可能会发现,执行计划里面会有…
数据质量分析 脏数据包括:缺失值:异常值:不一致的值:重复数据及含有特殊符号的数据: 1.缺失值处理 统计缺失率,缺失数 2.异常值处理 (1)简单统计量分析 (2)3Q原则 正态分布情况下,小概率事件为异常值 不服从正太分布的,可以用原离平均值多少倍标准差来分析 (3)箱线图分析 使用describe()描述 主要数据探索函数 1.Pandas常用函数总结 导入数据 导出数据 查看.检查数据 数据选取 数据清理 dataframe处理NAN值 data_3=data_3.where(data_…
今天我们来讲一讲有关数据探索的问题.其实这个概念还蛮容易理解的,就是我们刚拿到数据之后对数据进行的一个探索的过程,旨在了解数据的属性与分布,发现数据一些明显的规律,这样的话一方面有助于我们进行数据预处理,另一方面在进行特征工程时可以给我们一些思路.所以这样一个过程在数据挖掘中还是蛮有用的,相信大家在网上看过不少数据挖掘比赛的Kernel,一般一上来都先是个数据探索的过程.之前听过一个老师讲课,说数据探索过程其实可有可无,直接预处理猛搞,但典型的口嫌体正直,在演示一个比赛的流程时,还是先进行了汇总…
# 背景介绍 从学sklearn时,除了算法的坎要过,还得学习matplotlib可视化,对我的实践应用而言,可视化更重要一些,然而matplotlib的易用性和美观性确实不敢恭维.陆续使用过plotly.seaborn,最终定格在了Bokeh,因为它可以与Flask完美的结合,数据看板的开发难度降低了很多. 前阵子看到这个库可以较为便捷的实现数据探索,今天得空打算学习一下.原本访问的是英文文档,结果发现已经有人在做汉化,虽然看起来也像是谷歌翻译的,本着拿来主义,少费点精力的精神,就半抄半学,还…
背景介绍 从学sklearn时,除了算法的坎要过,还得学习matplotlib可视化,对我的实践应用而言,可视化更重要一些,然而matplotlib的易用性和美观性确实不敢恭维.陆续使用过plotly.seaborn,最终定格在了Bokeh,因为它可以与Flask完美的结合,数据看板的开发难度降低了很多. 前阵子看到这个库可以较为便捷的实现数据探索,今天得空打算学习一下.原本访问的是英文文档,结果发现已经有人在做汉化,虽然看起来也像是谷歌翻译的,本着拿来主义,少费点精力的精神,就半抄半学,还是发…
目录 数据质量分析   当我们得到数据后,接下来就是要考虑样本数据集的数据和质量是否满足建模的要求?是否出现不想要的数据?能不能直接看出一些规律或趋势?每个因素之间的关系是什么?   通过检验数据集的数据质量,绘制图表,计算某些特征值等手段,对样本数据集的结构和规律进行分析的过程就是数据探索.数据质量检测对后面的数据预处理有很大参考作用,并有助于选择合适的建模方法.   数据探索大致分为 质量探索 和 特征探索 两方面. 数据质量分析    定义:数据质量分析是数据预处理的前提,也是对数据挖掘的…
数据探索的核心: 1.数据质量分析(跟数据清洗密切联系,缺失值.异常值等) 2.数据特征分析(分布.对比.周期性.相关性.常见统计量等) 数据清洗的步骤: 1.缺失值处理(通过describe与len直接发现.通过0数据发现) 2.异常值处理(通过散点图发现) 一般遇到缺失值,处理方式为(删除.插补.不处理) 插补 遇到异常值,一般处理方式为视为缺失值.删除.修补(平均数.中位数等).不处理.…
1.探索数据 1.1 安装agate库 1.2 导入数据 1.3 探索表函数 a.排序 b.最值,均值 c.清除缺失值 d.过滤 e.百分比 1.4 连结多个数据集 a.捕捉异常 b.去重 c.缺失数据的处理 d.联结数据集 1.5 识别相关性 利用numpy分析 1.6 找出离群值 a.使用标准差 b.使用绝对中位差 (数据分布以及数据分布所展现的趋势) 1.7 数据分组 研究数据分组之间的关系(创建分组,聚合这些分组,确定分组之间的联系) 2 分析数据 2.1 分析数据与探索数据的区别 分析…
摘要:作为IOT最底层的无线通信网络生成大量与位置相关的数据,用于无线通信网络规划和优化,帮助电信运营商建设更好体验的精品网络,构建万物互联的信息社会. 本文分享自华为云社区<基于CarbonData的电信时空大数据探索>,作者: 张军.龚云骏 . 1使用场景 随着万物互联的时代到来,以及智慧终端普及,现实世界超过80%的数据与地理位置相关,比如日常使用的社交.支付.出行相关APP.作为IOT最底层的无线通信网络也会生成大量与位置相关的数据,用于无线通信网络规划和优化,帮助电信运营商建设更好体…
本文完整代码已上传至我的Github仓库https://github.com/CNFeffery/FefferyViz 1 简介 OD数据是交通.城市规划以及GIS等领域常见的一类数据,特点是每一条数据都记录了一次OD(O即Origin,D即Destination)行为的起点与终点坐标信息. 而针对OD数据常见的可视化表达方式为弧线图,譬如图1所示的例子,就针对纽约曼哈顿等区域的某时间段Uber打车记录上下车点数据进行展示: 图1 但这种传统的表达方式局限很明显:当OD记录数量众多时,因为不同线…
认识Kibana Kibana 是一个为 Logstash 和 ElasticSearch 提供的日志分析的 Web 接口.可使用它对日志进行高效的搜索.可视化.分析等各种操作.Kibana的使用场景主要集中在两方面: 实时监控.通过histogram面板,配合不同条件的多个queries可以对一个事件走很多个维度组合出不同的时间序列走势.时间序列数据是最常见的监控报警了. 问题分析.通过Kibana的交互式界面可以很快地将异常时间或者事件范围缩小到秒级或者个位数.期望一个完美的系统可以给你自动…
案例分析:Prosper是美国的一家P2P在线借贷平台,网站撮合了一些有闲钱的人和一些急用钱的人.用户若有贷款需求,可在网站上列出期望数额和可承受的最大利率.潜在贷方则为数额和利率展开竞价. 本项目拟通过该数据集的探索,结合自己的理解进行分析,最终目的的是初步预测哪些人贷款后会还款.哪些人会赖账. 1.探索数据集 loandata = read.csv("prosperLoanData.csv") str(loandata) 结论:一共有81个变量,113937个对象 2.选择分析的变…
案例分析:拍拍贷是中国的一家在线借贷平台,网站撮合了一些有闲钱的人和一些急用钱的人.用户若有贷款需求,可在网站上选择借款金额. 本项目拟通过该数据集的探索,结合自己的理解进行分析,最终目的的是初步预测贷款的利率和哪些因素有关. 0.加载包 library(ggplot2) library(gridExtra) library(utf8) library(dplyr) library(tidyr) library(GGally) library(RColorBrewer) library(care…
先看这个 kaggle数据集下载 -------------------------------- 有时发现下载不了kaggle数据 关于kaggle没有办法下载数据集dataset问题 安装kaggle库时又出现time out的情况? pip 下载报"connection to pypi.org time out" 中间还出现了下载后找不到文件的情况 下载后找不到文件? --------------------------------------------------------…
完整代码: https://github.com/cindycindyhi/kaggle-Titanic 特征工程系列: Titanic系列之原始数据分析和数据处理 Titanic系列之数据变换 Titanic系列之派生属性&维归约 缺失值填充之后,就要对其他格式有问题的属性进行处理了.比如Sex Embarked这些属性的值都是字符串类型的,而scikit learn中的模型都只能处理数值型的数据,需要将这些原始的字符串类型的数据转为数值型数据.所有数据通常可以分成两种类型:定量与定性.定量的…
1.缺失值处理:删除.插补.不处理 2.离群点分析:简单统计量分析.3σ原则(数据服从正态分布).箱型图(最好用) 离群点(异常值)定义为小于QL-1.5IQR或大于Qu+1.5IQR import pandas as pd catering_sale = '../data/catering_sale.xls' #餐饮数据 data = pd.read_excel(catering_sale, index_col = u'日期') #读取数据,指定“日期”列为索引列 import matplot…
公司项目最近出现获取访问域名.端口.IP错误现象,通过排查发现, 之前项目一直通过Nginx自定义Headers信息来获取,但最近运维人员失误操作造成自定义Header信息丢失,造成项目拿不到对应的数据.思前想后,想找找官方有没有关于此类问题通用标准化的解决方案. 一.Nginx配置如下: proxy_redirect off; proxy_set_header Host $host; proxy_set_header X-Real-IP $remote_addr; proxy_set_head…
前两天在搞自己的项目,前端js框架用的是angularjs框架:网站整的差不多的时候出事了:那就是当我用$http.post()方法向服务器提交一些数据的时候:后台总是接收不到数据: 于是采用了其他方法暂时性替代一下: 今天正好有时间研究这个事情:网上查了很多资料:都试了试:都是不太好:但是还是给我提供了一些解决问题的思路: 正文开始:首先做了个demo如下:主要是为了比较他们的不同之处: html如下: <div class="container-fluid" data-ng-…
感觉大佬的代码写的就是好,在处理数据的方面,首先定义一个 提取特征的类, class Extractor(object):,然后每一种方法对这个类进行重构,这个类主要结构就是: class Extractor(object): def __init__(self, config_fp): # set feature name self.feature_name = self.__class__.__name__ # set feature file path self.data_feature_…
计算缺失值个数 计算缺失率   简单统计量:计算最值     箱形图分析   分布分析:画出频率直方图 统计量分析:对于连续属性值,求出均值以及标准差         缺失值处理:删除法     去除无用属性:删除“ID”属性 或者   离散化:把“Children”属性转换成分类型的两个值“YES”和“NO”:把income属性按照节点12640.3:17390.1:29622:43228.2离散化.      …
#-*- coding: utf-8 -*- import pandas as pda import matplotlib.pyplot as pyl import matplotlib.font_manager from collections import Counter '''配置变量区--start--''' zhibanfile = 'zhibanbiao.xlsx' week = 6 # 排班排了几周 colstart = 2 # 从0开始,要统计数据开始列 colend = 9 #…
public class VisualAccumulator VisualAccumulator() 创建一个累加器 void addDataValue(double val) 添加一个新的数据值 double mean() 所有数据值的平均值 String toString() 对象的字符串表示 所用到的java类有: [ VisualAccumulator.java ]如下 public class VisualAccumulator { private double total; priv…
日常的大数据使用都是在服务器命令行中进行的,可视化功能仅仅依靠各个组件自带的web界面来实现,不同组件对应不同的端口号,如:HDFS(50070),Yarn(8088),Hbase(16010)等等,而大数据的组件又有很多,为了解决某个问题,常常需要结合多个组件来使用,但是每个组件又有独立的web界面进行可视化,这时,如果有一个统一的web界面来管理并可以开发所有大数据的组件是非常方便的,而Hue正是这样的工具,它管理的大数据组件包括:HDFS.HBase.Hive.Pig.Sqoop.Spar…
前言 数据时代,数据的多源集成和快速检索查询是第一步,配上数据分析及可视化才能算窥得大数据一角. 创建这个项目的主要目的一是对前期工作的一些总结,二是提升自己. 这里简单介绍一下sqlpro这个项目的核心功能. 本项目基于python的flask web框架.提供简单的页面(起初准备用vue写前端,奈何自身能力所限,遂放弃.依然基于flask+jinja2的mvt模式). 对于数据查询引擎部分,因为需要支持多数据源,所以选用了presto.presto是一个优秀的支持多种数据源联合查询的数据查询…
题目如下: 共由6个函数组成: 第一个函数爬取数据并转为DataFrame: 第二个函数爬取数据后存入Excel中,对于解题来说是多余的,仅当练手以及方便核对数据: 后面四个函数分别对应题目中的四个matplotlib图,为了看起来简洁,所有耦合较高. 下面对每个函数详细介绍 0.包导入 #!/usr/bin/env python3 # -*- coding:utf-8 -*- import requests import json import openpyxl import pandas i…
首先依托于一个场景来进行可视化分析 直接选了天池大数据竞赛的新人赛的一个活跃题目 用的方式也是最常用的数据预处理方式 [新人赛]快来一起挖掘幸福感!https://tianchi.aliyun.com/competition/entrance/231702/introduction 既然是data cleaning的总结 就稍微写详细点 (其实感觉在写废话 我一共就想总结一下matplotlib的pyplot和seaborn的画图) 用pandas读进来之后是dataframe格式的,所以可以用…
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 武汉地区,目前已经实现住院患者清零了,国内疫情已经稳定,然而中国以外新冠确诊病例达到2720458例.为了体现大国风范,今天带领大家用python实现绘制疫情地图 知识点 1. 爬虫基本流程 2. json 3. requests 4. pyecharts 开发环境 Python 3.6 Pycharm 思路 1.目标网址 2.模拟浏览器实现访问url 3.从网页源代码中…