value_counts将会对于指定列的数据进行group,然后统计出各个出现的值的数量,并且按照从高到低的顺序进行排序
  1. train_data = load_titanic_data("train.csv")
  2. train_data["Pclass"].value_counts()
输出:
  1. 3 491
  2. 1 216
  3. 2 184
  4. Name: Pclass, dtype: int64
代表Pclass这个字段共有三种值:1,2,3;出现的次数分别为216,184以及491,上面的列表就是按照出现“值”的数量从高到低排列以及数量进行排列;
原则即使:在对于NaN值处理常规的一种方案就是对于数字型取“中位数”,对于Category的(文字型)填充则取出现频率最高的;下面就是实现对于文字型填充Null值;
  1. from sklearn.pipeline import Pipeline
  2. from sklearn.preprocessing import Imputer
  3.  
  4. num_pipeline = Pipeline([
  5. ("select_numeric", DataFrameSelector(["Age", "SibSp", "Parch", "Fare"])),
  6. ("imputer", Imputer(strategy="median")),
  7. ])
  8.  
  9. class MostFrequentImputer(BaseEstimator, TransformerMixin):
  10. def fit(self, X, y=None):
  11. self.most_frequent_ = pd.Series([X[c].value_counts().index[0] for c in X],
  12. index=X.columns)
  13. return self
  14. def transform(self, X, y=None):
  15. return X.fillna(self.most_frequent_)
  16.  
  17. from future_encoders import OneHotEncoder
  18. cat_pipeline = Pipeline([
  19. ("select_cat", DataFrameSelector(["Pclass", "Sex", "Embarked"])),
  20. ("imputer", MostFrequentImputer()),
  21. ("cat_encoder", OneHotEncoder(sparse=False)),
  22. ])
  23.  
  24. cat_pipeline.fit_transform(train_data)
 参考:

关于value_count的更多相关文章

  1. Python数据分析笔记目录

    速查笔记 使用实例 Pandas-数据导入 (未完成) Pandas-数据探索 基础属性 shape indexs columns values dtype/dtypes 汇总和计算描述统计 coun ...

  2. Python_Day_01(使用环境为Python3.0+)

    Python 变量与赋值. Python在赋值时时不需要进行定义类型,可直接进行定义赋值. #直接赋值字符串格式 value = "Char" #直接赋值为数字 value = 1 ...

  3. Pandas-数据探索

    Pandas包对数据的常用探索功能,方便了解数据描述性属性. 目录 基础属性 shape indexs columns values dtype/dtypes 汇总和计算描述统计 count() va ...

  4. matplotlib basic and boxplot

    ============================================matplotlib 绘图基础========================================= ...

  5. Elasticsearch学习笔记(一)

    批量建索引: curl -s -XPOST 'localhost:9200/_bulk' --data-binary @documents.json 查看索引mappingmyindex/_mappi ...

  6. Elasticsearch查询

    Elasticsearch支持两种类型的查询:基本查询和复合查询. 基本查询,如词条查询用于查询实际数据. 复合查询,如布尔查询,可以合并多个查询, 然而,这不是全部.除了这两种类型的查询,你还可以用 ...

  7. aggregation 详解2(metrics aggregations)

    概述 权值聚合类型从需要聚合的文档中取一个值(value)来计算文档的相应权值(比如该值在这些文档中的max.sum等). 用于计算的值(value)可以是文档的字段(field),也可以是脚本(sc ...

  8. Elasticsearch--Aggregation详细总结(聚合统计)

    Elasticsearch的Aggregation功能也异常强悍. Aggregation共分为三种:Metric Aggregations.Bucket Aggregations. Pipeline ...

  9. 数据特征分析:1.基础分析概述& 分布分析

    基础分析概述 几个基础分析思路: 分布分析 对比分析 统计分析 帕累托分析 正态性检测 相关性分析 分布分析 分布分析是研究数据的分布特征和分布类型,分定量数据.定性数据区分基本统计量. import ...

随机推荐

  1. 解析url中参数

    兼容不带参数等情况 function getUrlParam(){ var params = {}; var search = location.search; search = /\?/.test( ...

  2. 解释生成器(generator)于函数的不同,并实现和使用简单generator?

    生成器和函数的主要区别在于函数return avalue,生成器yield  a  value,同事标记或记忆point of the yield 以便在下次调用时从标记点恢复执行,yield使用函数 ...

  3. logging 模块 五星知识

    logging 是用来记录日志的,有下面5种模式,它和print功能一样,只不过,print不能控制自己打印的内容,而logging可以控制,你想打印什么东西. logging 有两种形式: 第一种: ...

  4. 九度OJ-1131-合唱排队-双向递增子序列

    题目1131:合唱队形 时间限制:1 秒 内存限制:32 兆 特殊判题:否 提交:4948 解决:1570 题目描述: N位同学站成一排,音乐老师要请其中的(N-K)位同学出列,使得剩下的K位同学不交 ...

  5. Mysql 创建数据库命令

    GBK: create database test2 DEFAULT CHARACTER SET gbk COLLATE gbk_chinese_ci; UTF8: CREATE DATABASE ` ...

  6. C#Lambda表达式详解

    Lambda表达式教程 本文提供全流程,中文翻译. Chinar 坚持将简单的生活方式,带给世人!(拥有更好的阅读体验 -- 高分辨率用户请根据需求调整网页缩放比例) Chinar -- 心分享.心创 ...

  7. SQLI DUMB SERIES-3

    less3 输入?id=1' 说明输入的id旁边加了单引号和括号('id'),直接在1后面加入“ ') ”,闭合前面的单引号和括号. 方法同less1相同. 例如:查询PHP版本和数据库名字 ?id= ...

  8. es6的let与es5的var定义变量的区别

    es6的let与es5的var定义变量的区别 自身新手第一次接触let关键字的时候,不知道let与var的区别,本能认为是一样,但非如此,比如下述的代码运行就会报错: let hello = 'hel ...

  9. HDU 1014 G题

    Uniform Generator Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others) T ...

  10. StackExchange.Redis和Log4Net构建日志

    利用StackExchange.Redis和Log4Net构建日志队列   简介:本文是一个简单的demo用于展示利用StackExchange.Redis和Log4Net构建日志队列,为高并发日志处 ...