机器学习之路--Pandas】的更多相关文章

Pandas 是对numpy的封装 Pandas 核心结构DataFrame 近似看出矩阵结构panda字符型叫object dataframe其中一行或者一列叫series dataframe 里面结构是series series里面的结构又是ndarryayseries 就是可以自定义索引的ndarray string index可以用来字符串切片 常用代码 #导入模块 import pandas #常用读取文件 food_info = pandas.read_csv("food_info.…
使用python3 学习了线性回归的api 分别使用逻辑斯蒂回归  和   随机参数估计回归 对良恶性肿瘤进行预测 我把数据集下载到了本地,可以来我的git下载源代码和数据集:https://github.com/linyi0604/MachineLearning import numpy as np import pandas as pd from sklearn.cross_validation import train_test_split from sklearn.preprocessi…
机器学习 什么是机器学习? 机器学习是从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测 机器学习存在的目的和价值领域? 领域: 医疗.航空.教育.物流.电商 等... 目的: 让机器学习程序替换手动的步骤,减少企业的成本也提高企业的效率 jupyter lab语法使用 jupyter lab安装 命令:pip install jupyterlab 接下来了解下机器学习三剑客的前两位 numpy + pandas 的使用 一.区别Numpy:是数值计算的扩展包,它能高效处理N维数组,…
背景 关于同一个话题,不同作者也有不同行文结构.但要真正理解并会用,在我的经验里,是必须要自己重新组织的. 本文是基于以往看过的资料,从自身数据处理应用的角度出发,重新组织pandas应用结构,希望能边梳理边掌握. 目录 1.dataframe&series 2.输入输出&常用函数 3.数据清洗 4.数据转换 5.高阶函数lamba 6.图 1.dataframe&series 2.输入输出&常用函数 3.数据清洗 查看各列情况(空值数.数据类型.异常值) 空值填充 数据类…
Pandas 是基于Numpy 的一种工具,是为了解决数据分析任务而创建的.Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具.Pandas提供了大量能使我们快速便捷地处理数据的函数和方法. 安装命令:pip install pandas 具体操作如下:值得注意得是配置环境变量和添加项目路径要优先于导包 否则系统将检测不到pandas库 #导包 import os import sys #将脚本所在得工程添加到环境变量 绝对路径 sys.path.append(…
git: https://github.com/linyi0604/MachineLearning 数据集被我下载到本地,可以去我的git上拿数据集 XGBoost提升分类器 属于集成学习模型 把成百上千个分类准确率较低的树模型组合起来 不断迭代,每次迭代生成一颗新的树 下面 对泰坦尼克遇难预测使用XGBoost模型 和 其他分类器性能进行比较 import pandas as pd from sklearn.cross_validation import train_test_split fr…
特征提取: 特征降维的手段 抛弃对结果没有联系的特征 抛弃对结果联系较少的特征 以这种方式,降低维度 数据集的特征过多,有些对结果没有任何关系,这个时候,将没有关系的特征删除,反而能获得更好的预测结果 下面使用决策树,预测泰坦尼克号幸存情况,对不同百分比的筛选特征,进行学习和预测,比较准确率 python3学习使用api 使用到联网的数据集,我已经下载到本地,可以到我的git中下载数据集 git: https://github.com/linyi0604/MachineLearning 代码:…
主成分分析: 降低特征维度的方法. 不会抛弃某一列特征, 而是利用线性代数的计算,将某一维度特征投影到其他维度上去, 尽量小的损失被投影的维度特征 api使用: estimator = PCA(n_components=20) pca_x_train = estimator.fit_transform(x_train) pca_x_test = estimator.transform(x_test) 分别使用支持向量机进行学习降维前后的数据再预测 该数据集源自网上 https://archive…
python3 学习使用api 使用了网上的数据集,我把他下载到了本地 可以到我的git中下载数据集: https://github.com/linyi0604/MachineLearning 代码: import numpy as np import pandas as pd from sklearn.cluster import KMeans from sklearn import metrics ''' k均值算法: 1 随机选择k个样本作为k个类别的中心 2 从k个样本出发,选取最近的样…
python3 学习机器学习api 使用了三种集成回归模型 git: https://github.com/linyi0604/MachineLearning 代码: from sklearn.datasets import load_boston from sklearn.cross_validation import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.ensemble…