学习曲线的目的是选择更好的模型参数.以最近邻算法为例,选取最近的多少个数据点,才能达到最优.可以控制训练集不动,调整最近的点的个数,绘制学习曲线. import matplotlib.pyplot as plt score = [] krange=range(1,21) # K值取值范围 for i in krange: clf=KNN(n_neighbors=i) clf=clf.fit(Xtrain,Ytrain) score.append(clf.score(Xtest,Ytest)) p
Python股票数据分析 最近在学习基于python的股票数据分析,其中主要用到了tushare和seaborn.tushare是一款财经类数据接口包,国内的股票数据还是比较全的 官网地址:http://tushare.waditu.com/index.html#id5.seaborn则是一款绘图库,通过seaborn可以轻松地画出简洁漂亮的图表,而且库本身具有一定的统计功能. 导入的模块: import matplotlib.pyplot as plt import seaborn as sn
一.数据探索 1.数据读取 遍历文件夹,读取文件夹下各个文件的名字:os.listdir() 方法:用于返回指定的文件夹包含的文件或文件夹的名字的列表.这个列表以字母顺序. 它不包括 '.' 和'..' 即使它在文件夹中. 1.1 CSV格式数据 详细说明 (1)读取 ### python导入csv文件的4种方法 # 1.原始的方式 lines = [line.split(',') for line in open('iris.csv')] df = [[float(x) for x in li
目录 1. 数据探索的步骤和准备 2. 缺失值处理 为什么需要处理缺失值 Why data has missing values? 缺失值处理的技术 3. 异常值检测和处理 What is an outlier? What are the types of outliers? What are the causes of outliers? What is the impact of outliers on dataset? How to detect outlier? How to remov