机器学习之路--Pandas

【机器学习之路--Pandas】的更多相关文章

机器学习之路--Pandas

Pandas 是对numpy的封装 Pandas 核心结构DataFrame 近似看出矩阵结构panda字符型叫object dataframe其中一行或者一列叫series dataframe 里面结构是series series里面的结构又是ndarryayseries 就是可以自定义索引的ndarray string index可以用来字符串切片常用代码 #导入模块 import pandas #常用读取文件 food_info = pandas.read_csv("food_info.…

机器学习之路：python线性回归分类器 LogisticRegression SGDClassifier 进行良恶性肿瘤分类预测

使用python3 学习了线性回归的api 分别使用逻辑斯蒂回归和随机参数估计回归对良恶性肿瘤进行预测我把数据集下载到了本地,可以来我的git下载源代码和数据集:https://github.com/linyi0604/MachineLearning import numpy as np import pandas as pd from sklearn.cross_validation import train_test_split from sklearn.preprocessi…

机器学习三剑客之 pandas + numpy

机器学习什么是机器学习? 机器学习是从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测机器学习存在的目的和价值领域? 领域: 医疗.航空.教育.物流.电商等... 目的: 让机器学习程序替换手动的步骤,减少企业的成本也提高企业的效率 jupyter lab语法使用 jupyter lab安装命令:pip install jupyterlab 接下来了解下机器学习三剑客的前两位 numpy + pandas 的使用一.区别Numpy:是数值计算的扩展包,它能高效处理N维数组,…

【机器学习_8】pandas

背景关于同一个话题,不同作者也有不同行文结构.但要真正理解并会用,在我的经验里,是必须要自己重新组织的. 本文是基于以往看过的资料,从自身数据处理应用的角度出发,重新组织pandas应用结构,希望能边梳理边掌握. 目录 1.dataframe&series 2.输入输出&常用函数 3.数据清洗 4.数据转换 5.高阶函数lamba 6.图 1.dataframe&series 2.输入输出&常用函数 3.数据清洗查看各列情况(空值数.数据类型.异常值) 空值填充数据类…

机器学习三剑客之Pandas中DataFrame基本操作

Pandas 是基于Numpy 的一种工具,是为了解决数据分析任务而创建的.Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具.Pandas提供了大量能使我们快速便捷地处理数据的函数和方法. 安装命令:pip install pandas 具体操作如下:值得注意得是配置环境变量和添加项目路径要优先于导包否则系统将检测不到pandas库 #导包 import os import sys #将脚本所在得工程添加到环境变量绝对路径 sys.path.append(…

机器学习之路： python 实践提升树 XGBoost 分类器

git: https://github.com/linyi0604/MachineLearning 数据集被我下载到本地,可以去我的git上拿数据集 XGBoost提升分类器属于集成学习模型把成百上千个分类准确率较低的树模型组合起来不断迭代,每次迭代生成一颗新的树下面对泰坦尼克遇难预测使用XGBoost模型和其他分类器性能进行比较 import pandas as pd from sklearn.cross_validation import train_test_split fr…

机器学习之路：python 特征降维特征筛选 feature_selection

特征提取: 特征降维的手段抛弃对结果没有联系的特征抛弃对结果联系较少的特征以这种方式,降低维度数据集的特征过多,有些对结果没有任何关系,这个时候,将没有关系的特征删除,反而能获得更好的预测结果下面使用决策树,预测泰坦尼克号幸存情况,对不同百分比的筛选特征,进行学习和预测,比较准确率 python3学习使用api 使用到联网的数据集,我已经下载到本地,可以到我的git中下载数据集 git: https://github.com/linyi0604/MachineLearning 代码:…

机器学习之路：python 特征降维主成分分析 PCA

主成分分析: 降低特征维度的方法. 不会抛弃某一列特征, 而是利用线性代数的计算,将某一维度特征投影到其他维度上去, 尽量小的损失被投影的维度特征 api使用: estimator = PCA(n_components=20) pca_x_train = estimator.fit_transform(x_train) pca_x_test = estimator.transform(x_test) 分别使用支持向量机进行学习降维前后的数据再预测该数据集源自网上 https://archive…

机器学习之路：python k均值聚类 KMeans 手写数字

python3 学习使用api 使用了网上的数据集,我把他下载到了本地可以到我的git中下载数据集: https://github.com/linyi0604/MachineLearning 代码: import numpy as np import pandas as pd from sklearn.cluster import KMeans from sklearn import metrics ''' k均值算法: 1 随机选择k个样本作为k个类别的中心 2 从k个样本出发,选取最近的样…

机器学习之路：python 集成回归模型随机森林回归RandomForestRegressor 极端随机森林回归ExtraTreesRegressor GradientBoostingRegressor回归预测波士顿房价

python3 学习机器学习api 使用了三种集成回归模型 git: https://github.com/linyi0604/MachineLearning 代码: from sklearn.datasets import load_boston from sklearn.cross_validation import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.ensemble…