Python之数据处理-2

　　一、数据处理其实是一个很麻烦的事情。

　　　　在一个样本中存在特征数据（比如：人（身高、体重、出生年月、年龄、职业、收入...））当数据的特征太多或者特征权重小或者特征部分满足的时候。

　　　　这个时候就要进行数据的处理（比如：预测性别，特征出生年月，的影响就会很低，这里就要减少这一特征的权重，或者删除。再比如：预测92年的人的职业，这个时候首先需要过滤特征，然后判断出生年月中的年就没有必要成为特征，但是可以新增特征月，删除原来的出生年月特征）

　　　　还有就是我们在使用table数据时，一般数据都是分开（比如：用户、角色、权限等）。我们这个时候就需要把数据合并成一个群体样本。通过他们之间的联系，进行数据合并。

　　二、上面只是列举了几种数据的处理方式，实际的数据处理比想象的要复杂。当数据特征数据处理的很好的时候，我们会进行数据分割。一般分割为训练集、测试集。目的用来评估模型的准确度。

　　三、例举几种数据处理方式：

　　　　1）数据合并

    # 读取数据

    orders = pandas.read_csv("market/orders.csv")

    prior = pandas.read_csv("market/order_products__prior.csv")

    products = pandas.read_csv("market/products.csv")

    aisles = pandas.read_csv("market/aisles.csv")

    # 合并数据

    _msg = pandas.merge(orders, prior, on=["order_id", "order_id"])

    _msg = pandas.merge(_msg, products, on=["product_id", "product_id"])

    merge_data = pandas.merge(_msg, aisles, on=["aisle_id", "aisle_id"])

    # 交叉表(特殊分组)

    # （用户ID， 类别）

    cross = pandas.crosstab(merge_data["user_id"], merge_data["aisle"])

　　　　2）过滤特征

    # 数据筛选

    train_data = train_data.query("x > 1.0 & x < 1.25 & y > 2.5 & y < 2.75")

　　　　3）新增删除特征

    # 转换时间

    time_value = pandas.to_datetime(train_data["time"], unit="s")

    # 转换成字典

    time_value = pandas.DatetimeIndex(time_value)

    # print(time_value)

    # 构造特征

    data = train_data.copy()

    data["day"] = time_value.day

    data["hour"] = time_value.hour

    data["weekday"] = time_value.weekday

    # print(train_data.head(10))

    # 删除影响特征的数据,axis为1纵向删除

    data = data.drop(["time"], axis=1)

    # 转换时间

    time_value = pandas.to_datetime(train_data["time"], unit="s")

    # 转换成字典

    time_value = pandas.DatetimeIndex(time_value)

    # print(time_value)

    # 构造特征

    data = train_data.copy()

    data["day"] = time_value.day

    data["hour"] = time_value.hour

    data["weekday"] = time_value.weekday

    # print(train_data.head(10))

    # 删除影响特征的数据,axis为1纵向删除

    data = data.drop(["time"], axis=1)

    # 删除小于目标值的数据

    place_count = data.groupby("place_id").count()

    # print(place_count)

    # 过滤数量大于5的地点ID，并且加入列中

    tf = place_count[place_count.x > 5].reset_index()

    # print(tf)

    data = data[data["place_id"].isin(tf.place_id)]

    # 取特征值和目标值

    y = data["place_id"]

    x = data.drop(["place_id", "row_id"], axis=1)

　　4）数据分割（sklearn.model_selection），很重要

 　　# 数据分割

    x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.25)

　　x,y：训练集和目标值

　　x_train, y_train：训练集

　　x_test, y_test：测试集

Python之数据处理-2的更多相关文章

python地理数据处理库geopy
http://blog.csdn.net/pipisorry/article/details/52205266 python地理位置处理 python地理编码地址以及用来处理经纬度的库 GeoDjan ...
Python空间数据处理环境搭
Python空间数据处理环境搭 Conda的下载和安装什么是Conda? 官方定义:Package, dependency and environment management for any la ...
Python之数据处理
一.CSV数据处理 CSV文件格式:逗号分隔值(Comma-Separated Value,CSV,有时也称为字符分隔值,因为分隔符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本).纯文 ...
Python爬虫数据处理
一.首先理解下面几个函数设置变量 length()函数 char_length() replace() 函数 max() 函数1.1.设置变量 set @变量名=值 set @address='中国 ...
python常用数据处理库
Python之所以能够成为数据分析与挖掘领域的最佳语言,是有其独特的优势的.因为他有很多这个领域相关的库可以用,而且很好用,比如Numpy.SciPy.Matploglib.Pandas.Scikit ...
Python - 基本数据处理函数round()、int()、floor()、ceil()
前言对每位程序员来说,在编程过程中数据处理是不可避免的,很多时候都需要根据需求把获取到的数据进行处理,取整则是最基本的数据处理.取整的方式则包括向下取整.四舍五入.向上取整等等.下面就来看看在Pyt ...
Python的数据处理学习(三)
三.类的继承 Python 的class可以允许从零开始创建一个定制类,就像文章(二)创建Athlete类一样,也可以通过继承现有的其他类类创建一个类,这也包括用List.set和dict提供的p ...
Python的数据处理学习(二)
本文参考Paul Barry所著的<Head First Python>一书,参考代码均可由http://python.itcarlow.ie/站点下载.本文若有任何谬误希望不吝赐教~ 二 ...
python pandas 数据处理
pandas是基于numpy包扩展而来的,因而numpy的绝大多数方法在pandas中都能适用. pandas中我们要熟悉两个数据结构Series 和DataFrame Series是类似于数组的对象 ...
6 python高级数据处理和可视化
6.2. pyplot作图 1.折线图和散点图 t = np.arange(0,4,0.1) plt.plot(t,t,'o',t,t+2,t,t**2,'o') plt.show() 2.柱线图 p ...

随机推荐

mysql - ERROR 1114 (HY000): The table is full
mysql - ERROR 1114 (HY000): The table is full - Stack Overflowhttps://stackoverflow.com/questions/73 ...
#软件更新#Visual Studio更新到16.3.8
#软件更新#Visual Studio更新到16.3.8 此次更新包括以下内容:(1)支持Xcode 11.2.(2)修复无法从System.String类型转化的bug.(3)修复UWP开发中,加载 ...
小D课堂 - 零基础入门SpringBoot2.X到实战_第4节 Springboot2.0单元测试进阶实战和自定义异常处理_17、SpringBootTest单元测试实战
笔记 1.@SpringBootTest单元测试实战简介:讲解SpringBoot的单元测试 1.引入相关依赖 <!--springboot程 ...
PHP 对象接口
对象接口 (interface) 使用接口(interface),可以指定某个类必须实现哪些方法,但不需要定义这些方法的具体内容. 接口是通过 interface 关键字来定义的,就像定义一个标准的类 ...
【转载】 clusterdata-2011-2 谷歌集群数据分析（二）--task_usage
原文地址: https://blog.csdn.net/yangss123/article/details/78298749 由于原文声明其原创文章不得允许不可转载,故这里没有转载其正文内容. --- ...
linux后台启动springboot并指定日志文件名称
如果用nohup启动jar包的话,默认的日志文件就是nohup.out,那么如果启动多个jar包的话,看日志文件就麻烦了,因为他们都会写入到nohup.out文件中. 所以我们来指定一下不同jar包的 ...
ANSI转义序列
http://ascii-table.com/ansi-escape-sequences.php 制作控制台程序时, 要实现一些特殊效果, 需要了解一下 [ANSI转义序列] . ANSI转义序列是一 ...
【设计】IOT设备控制页面设计
https://www.uishe.cn/10803.html https://huaban.com/pins/1012512760/ https://huaban.com/pins/10878772 ...
《MySQL必知必会》学习笔记——第1章了解SQL
第1章了解SQL 本章将介绍数据库和SQL,它们是学习MySQL的先决条件. 1.1 数据库基础你正在阅读本书,这表明你需要以某种方式与数据库打交道.在深入学习MySQL及其SQL语言的实现之前, ...
iOS-UITableView的性能优化10个小技巧
通常你会发现一个图片类的app会在一个imageView上做下面这些事情: 1 下载图片(主要的内容图片+用户头像图片)2 更新时间戳3 展示评论4 计算动态的cell的高度 Tip#1 学习 ...

Python之数据处理-2

Python之数据处理-2的更多相关文章

随机推荐

热门专题