记录一下我做Udacity 的Data Scientist Nano Degree Project

做项目的时候看了别人的blog，决定自己也随手记录下在做项目中遇到的好的小知识点。

最近在做Udacity的Data Scientist Nano Degree Project的Customer_Segements 项目，随手记录下感觉一些挺好用的自己没注意到小细节

- 从文本中读取指定的行:

def loadDataSet(fileName, splitChar='\t'):

    """

    输入：文件名

    输出：数据集

    描述：从文件读入数据集

    """

    dataSet = []

    with open(fileName) as fr:

        for line in fr.readlines()[6:]:

            curline = line.strip().split(splitChar)#字符串方法strip():返回去除两侧（不包括）内部空格的字符串；字符串方法spilt:按照制定的字符将字符串分割成序列

            fltline = list(map(float, curline))#list函数将其他类型的序列转换成字符串；map函数将序列curline中的每个元素都转为浮点型

            dataSet.append(fltline)

    return dataSet

- python的方法统计列表中不同元素的数量

　　list_len = len(set('list')) #用set的方法

- 统计DataFrame中每行的缺失值:

　　missing_value_in_row = df.shape[1] - df.counts(axis = 1)

　　missing_value_in_col = df.shape[o] - df.counts(axis = 0)

- 通过布尔索引获取DataFrame的相应索引并转化为list(便于用来遍历):

　　names = list(df[df['counts'] <= 73500].index)

- 几种遍历DataFrame的方法:

　　iterrows:

for name, row in df.iterrows():

    print("Row{} of df  is{}".format(name, row))

　　iteritems:

for name, col in df.iteritems():

    print("col{} of df is {}".format(name, col))

　　itertuple:

　　同时回顾一下类似的enumerate()可用来遍历list:

my_list = ['apple', 'banana', 'grapes', 'pear']

for c, value in enumerate(my_list, 1):

    print(c, value)

# Output:

# 1 apple

# 2 banana

# 3 grapes

# 4 pear

- pandas 在数据清洗时候常用的两个函数:

　　对于字符串类型的筛选常用的是 pd.str.contains()这个是类似于SQL中的LIKE操作

　　对于一般的布尔索引常用的是 pd.isin()

- pandas中的数据类型转化:

　　Series -> array

df[name].values

　　Series -> list

df[name].to_list()

　　Series-> str

df[name].astpye(str)

- pandas 在数据编码或者转换的时候，建立创建字典，便于使用map来进行映射转换。

- 注意复习正则表达式，清洗数据很有用！

-关于Feature Transformation:

　　OneHotEncoder() 接受的输入是 2-D array 维度不符合的可以通过 .reshape(-1, 1)转换

　　LaBelBinarizer() 接受的输入是1-D array

　　同时值得注意的是df.column返回的是1-D,而df['column']返回的事2-D （以前一直没注意）

- pandas中处理缺失值的神器:

　　imputer() 只能接受2-D输入，返回的是array(这是sklearn的)

　　pd.fillna()

- 对于Kmeans模型返回的score的解释

　　score是kmeans聚类后每个类内的距离之和，我们可以把这个score画出来用elbow method来寻找最佳k值

记录一下我做Udacity 的Data Scientist Nano Degree Project的更多相关文章

现在很火的数据科学到底是什么？你对做DATA SCIENTIST感兴趣吗？
转自– Warald (Email: iamxiaoning@gmail.com) 博客: http://www.1point3acres.com,微博:http://www.weibo.com/wa ...
WebAPI 用ExceptionFilterAttribute实现错误（异常）日志的记录（log4net做写库操作）
WebAPI 用ExceptionFilterAttribute实现错误(异常)日志的记录(log4net做写库操作) 好吧,还是那个社区APP,非管理系统,用户行为日志感觉不是很必要的,但是,错误日 ...
数据分析师（Data Analyst），数据工程师（Data Engineer），数据科学家（Data Scientist）的区别
数据分析师(Data Analyst):负责从数据中提取出有用的信息,以帮助公司形成业务决策.工作内容包括:对数据进行提取,清洗,分析(用描述统计量,趋势分析,多维度分析,假设检验等统计常用方法对数据 ...
数据科学工作者(Data Scientist) 的日常工作内容包括什么
数据科学工作者(Data Scientist) 的日常工作内容包括什么众所周知,数据科学是这几年才火起来的概念,而应运而生的数据科学家(data scientist)明显缺乏清晰的录取标准和工作内容 ...
Becoming a Data Scientist – Curriculum via Metromap
From: http://nirvacana.com/thoughts/becoming-a-data-scientist/ Data Science, Machine Learning, Big D ...
What do data scientist do?
What do data scientist do? 1. Define the question 2.Define the ideal data set 3.Determine what data ...
.NET WebAPI 用ExceptionFilterAttribute实现错误（异常）日志的记录（log4net做写库操作）
好吧,还是那个社区APP,非管理系统,用户行为日志感觉不是很必要的,但是,错误日志咱还是得记录则个.总不能上线后报bug了让自己手足无措吧,虽然不管有木有错误日志报bug都是件很头疼的事... 我们知 ...
微软职位内部推荐-Senior Data Scientist
微软近期Open的职位: Extracting accurate, insightful and actionable information from data is part art and pa ...
微软职位内部推荐-Data Scientist
微软近期Open的职位: Job Description:Extracting accurate, insightful and actionable information from data is ...

随机推荐

小范笔记：ASP.NET Core API 基础知识与Axios前端提交数据
跟同事合作前后端分离项目,自己对 WebApi 的很多知识不够全,虽说不必要学全栈,可是也要了解基础知识,才能合理设计接口.API,方便与前端交接. 晚上回到宿舍后,对 WebApi 的知识查漏补缺, ...
Programming In Lua 第八章
1, 也就是说,lua虽然会把代码预编译成中间码,以提高运行速度.但其会在程序运行过程中需要编译器,所以其仍然是解释型语言.loadfile会加载一个文件并将其编译成中间码,并返回一个函数. 2, 3 ...
【Linux】一步一步学Linux——虚拟机简介和系统要求(04)
目录 00. 目录 01. VMware Workstation Pro15介绍 02. Workstation Pro 的主机系统要求 03. 虚拟机网络连接支持 04. 参考 00. 目录 @ 0 ...
Linux搭建基于Apache的HTTP服务器
Linux搭建基于Apache的HTTP服务器实验目标: 通过本实验掌握基于Linux的WWW服务器搭建. 实验步骤: 1.安装http服务 2.防火墙放通http服务 3.编辑测试网页 4.开 ...
使用PowerShell比较本地文本文件与Web上的文本文件是否相同
使用PowerShell比较本地文本文件是否相同通常有两种方式:1.通过Get-FileHash这个命令,比较两个文件的哈希是否相同:2.通过Compare-Object这个命令,逐行比较两个文件的内 ...
修改mysql错误日志级别
show variables like '%log_warnings%'; 1代表开启warning信息,0代表关闭warning信息 set session log_warnings=0; set ...
用Python玩数据-笔记整理-第二章
条件结构: if语句: if expression: #比较/成员/逻辑运算符 expr_true_suite #代码块必须缩进4个空格 else语句: if expression: expr_tru ...
OpenCV多版本切换和配置--opencv 安装与卸载、添加 opencv_contrib modules 以及 OpenCv 多版本切换
1. 查看安装Opencv的版本.以及libs和cflags $ pkg-config --modversion opencv $ pkg-config --cflags opencv // 编译链接 ...
Balking设计模式
import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.util.ArrayLi ...
Java文本类型输入与输出
import java.io.*; import java.time.LocalDate; import java.util.Scanner; public class Test { public s ...

记录一下我做Udacity 的Data Scientist Nano Degree Project

记录一下我做Udacity 的Data Scientist Nano Degree Project的更多相关文章

随机推荐

热门专题