python数据预处理for knn

机器学习实战 一书中第20页数据预处理，从文本中解析数据的程序。

 import numpy as np

 def dataPreProcessing(fileName):

     with open(fileName) as op:

         lines=op.readlines()

         # 返回值是list

         lineNumer=len(lines)

         # list长度即文件中的行数

         dataMatrix=np.zeros((lineNumer,3))

         # 初始化lineNumer行，3列的全0矩阵，注意双层括号

         labelVector=[]

         # 标记向量初始化，它在目前是一个空的list

         index=0

         # 索引，为了后面给数据矩阵和标记向量初始化用的

         for line in lines:

             line=line.strip()

             # 去空格

             temp=line.split('\t')

             # 按换行符分割数据，返回list

             dataMatrix[index,:]=temp[0:3]

             # 切片操作，dataMatrix[a,b:c]后的方括号中第一个值表示矩阵行号（从0开始）

             # 第二、三个参数代表从b开始，c结束，前开后闭，包含b不包含c的元素

             # temp中的两个参数同理

             # 将temp中的前3个值赋给dataMatrix

             labelVector.append(int(temp[-1]))

             # 将temp中的最后一个值赋给labelVector，注意强转类型，不强转取到的类型为string

             index=index+1

         return dataMatrix,labelVector

 # arr=np.array([[0,1,2],[3,4,5],[6,7,8]])

 # print(arr[2,:])

 fileName='./datingTestSet2.txt'

 # “/”：表示根目录，在windows系统下表示某个盘的根目录，如“E:\”；

 # “./”：表示当前目录；（表示当前目录时，也可以去掉“./”，直接写文件名或者下级目录）

 # “../”：表示上级目录。

 a,b=dataPreProcessing(fileName)

 print(a,b)


附：今晚很郁闷，pycharm启动慢得要死，Numpy又用不了，好不容易才用清华镜像把numpy升级到可用状态，期间pycharm卡死了好几次，ukylin的虚拟机更卡，气得我想把电脑砸了，以后有替代的ide了再也不用pycharm了

---------------------------------------------------------------------------------------
2020-02-15更新
读取txt文件中的数据

testArray=genfromtxt(fileName,delimiter="\t",dtype=str)

# 文件名、分隔符、读取的数据以什么类型返回

# print('testArray=\n',testArray)

# print(testArray.shape)

# print(testArray.dtype)

testLabels=testArray[:,3]

testLabels=testLabels.astype(int)

# 矩阵切片，取出所有行第3列，其中：表示所有行

print('testLabels\n',testLabels)

print(testLabels.shape)

testInfo=testArray[:,0:3]

# 读取每一行的前3列，这里的0:3是左闭右开区间

testInfo=testInfo.astype(float)

print('testInfo:\n',testInfo)

　　今晚又重温了 “唐宇迪\1章Python科学计算库—numpy”课程系列中的 05-07三节内容，其中《课时07.Numpy矩阵基础》只看到了3'12''

python数据预处理for knn的更多相关文章

Python数据预处理：机器学习、人工智能通用技术（1）
Python数据预处理:机器学习.人工智能通用技术白宁超 2018年12月24日17:28:26 摘要:大数据技术与我们日常生活越来越紧密,要做大数据,首要解决数据问题.原始数据存在大量不完整.不 ...
python data analysis | python数据预处理（基于scikit-learn模块）
原文:http://www.jianshu.com/p/94516a58314d Dataset transformations| 数据转换 Combining estimators|组合学习器 Fe ...
Python数据预处理—归一化，标准化，正则化
关于数据预处理的几个概念归一化 (Normalization): 属性缩放到一个指定的最大和最小值(通常是1-0)之间,这可以通过preprocessing.MinMaxScaler类实现. 常用的 ...
Python数据预处理之清及
使用Pandas进行数据预处理数据清洗中不是每一步都是必须的,按实际需求操作. 内容目录 1.数据的生成与导入 2.数据信息查看 2.1.查看整体数据信息 2.2.查看数据维度.列名称.数据格式 2 ...
Python数据预处理(sklearn.preprocessing)—归一化(MinMaxScaler)，标准化(StandardScaler)，正则化(Normalizer, normalize)
关于数据预处理的几个概念归一化 (Normalization): 属性缩放到一个指定的最大和最小值(通常是1-0)之间,这可以通过preprocessing.MinMaxScaler类实现. 常 ...
python数据预处理和特性选择后列的映射
我们在用python进行机器学习建模时,首先需要对数据进行预处理然后进行特征工程,在这些过程中,数据的格式可能会发生变化,前几天我遇到过的问题就是: 对数据进行标准化.归一化.方差过滤的时候数据都从D ...
Python数据预处理：使用Dask和Numba并行化加速
如果你善于使用Pandas变换数据.创建特征以及清洗数据等,那么你就能够轻松地使用Dask和Numba并行加速你的工作.单纯从速度上比较,Dask完胜Python,而Numba打败Dask,那么Num ...
Python数据预处理—训练集和测试集数据划分
使用sklearn中的函数可以很方便的将数据划分为trainset 和 testset 该函数为sklearn.cross_validation.train_test_split,用法如下: > ...
关系网络数据可视化：2. Python数据预处理
将数据中导演与演员的关系整理出来,得到导演与演员的关系数据,并统计合作次数 import numpy as np import pandas as pd import matplotlib.pyplo ...

随机推荐

border-radius 在浏览器开发者工具移动端里是有效的，在真机是无效的。
border-radius 在浏览器开发者工具移动端里是有效的,在真机是无效的,怎么解决? 答案是 border-radius:20px !important 加上!important 就好了.
吴裕雄--天生自然C++语言学习笔记：C++ 字符串
C++ 提供了以下两种类型的字符串表示形式: C 风格字符串 C++ 引入的 string 类类型 C 风格的字符串起源于 C 语言,并在 C++ 中继续得到支持.字符串实际上是使用 null 字符 ...
ELK 安装Beat
章节 ELK 介绍 ELK 安装Elasticsearch ELK 安装Kibana ELK 安装Beat ELK 安装Logstash Beat是数据采集工具,安装在服务器上,将采集到的数据发送给E ...
XSS跨站脚本攻击与CSRF跨站请求伪造攻击的学习总结（转载）
转载自 https://blog.csdn.net/baidu_24024601/article/details/51957270 之前就了解过这方面的知识,但是没有系统地总结.今天在这总结一下,也让 ...
面向对象-接口(interface)实战案例
面向对象-接口(interface)实战案例作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.接口(interface)概述 1>.接口的语法格式接口时抽象类的一种特殊体 ...
【分布式】流式计算Storm框架
Storm简介: Storm起源Twitter开源的一个类似于Hadoop的实时数据处理框架,不过两则还是有区别的,Hadoop是批量处理数据,而Storm处理的是实时的数据流. Storm应用场景: ...
List列表删除值为指定字段
需要处理一个场景,当值为某一个固定值或者为空的时候,删除列表中的这个值. ;i<list.size();i++){ if(list.get(i).equals("del")) ...
封装localStorage设置，获取，移除方法
export const local = { set(key, value) { localStorage.setItem(key, JSON.stringify(value)); }, get(ke ...
Monthly Expense(最大值最小化问题)
POJ-3273 ...
用豆瓣加速安装pandas、numpy、matplotlib(画图)
安装pandas.numpy会同时被安装 #pthony2.x,用豆瓣加速安装pandas pip install -i https://pypi.doubanio.com/simple/ panda ...

python数据预处理for knn

python数据预处理for knn的更多相关文章

随机推荐

热门专题