sk-learning(2)

sk-learning 学习(2)

sklearing 训练评估

针对kdd99数据集使用逻辑回归分类训练然后进行评估发觉分数有点高的离谱取出10%数据494021条，并从中选择四分之一作为测试集结果这么高是否过拟合了？

import numpy as np

from sklearn import linear_model

from sklearn.externals import joblib

from sklearn import cross_validation

print("data loading ....")

data=np.loadtxt("newfile.csv",delimiter=",",dtype=np.int32)

print("load done....")

X=data[:,:-1]

target=data[:,-1]

X_train,X_test,y_train,y_test=cross_validation.train_test_split(X,target,test_size=0.25,random_state=1)

print("begin fit the model....")

clf=linear_model.LogisticRegression(penalty='l2', dual=False, tol=0.0001, C=1.0, fit_intercept=True, intercept_scaling=1, class_weight=None, random_state=None)

score=clf.fit(X_train,y_train).score(X_test,y_test)

print("the model have train success, we will save the model to file...")

#s=pickle.dumps(clf)

joblib.dump(clf, 'model.pkl')

#score

print(score)

# result output....

data loading ....

load done....

begin fit the model....

dd

the model have train success, we will save the model to file...

0.997449516623

十则交叉验证

>>> from sklearn import cross_validation

>>> X = np.array([[1, 2], [3, 4], [1, 2], [3, 4]])

>>> y = np.array([1, 2, 3, 4])

>>> kf = cross_validation.KFold(4, n_folds=2)

>>> len(kf)

2

>>> print(kf)

sklearn.cross_validation.KFold(n=4, n_folds=2, shuffle=False,

                               random_state=None)

>>> for train_index, test_index in kf:

...    print("TRAIN:", train_index, "TEST:", test_index)

...    X_train, X_test = X[train_index], X[test_index]

...    y_train, y_test = y[train_index], y[test_index]

TRAIN: [2 3] TEST: [0 1]

TRAIN: [0 1] TEST: [2 3]

.. automethod:: __init__

sk-learning(2)的更多相关文章

CVPR2018: Unsupervised Cross-dataset Person Re-identification by Transfer Learning of Spatio-temporal Patterns
论文可以在arxiv下载,老板一作,本人二作,也是我们实验室第一篇CCF A类论文,这个方法我们称为TFusion. 代码:https://github.com/ahangchen/TFusion 解 ...
Coursera Deep Learning 2 Improving Deep Neural Networks: Hyperparameter tuning, Regularization and Optimization - week2, Assignment(Optimization Methods)
声明:所有内容来自coursera,作为个人学习笔记记录在这里. 请不要ctrl+c/ctrl+v作业. Optimization Methods Until now, you've always u ...
人工智能（Machine Learning）—— 机器学习
https://blog.csdn.net/luyao_cxy/article/details/82383091 转载:https://blog.csdn.net/qq_27297393/articl ...
【Learning Notes】线性链条件随机场（CRF）原理及实现
1. 概述条件随机场(Conditional Random Field, CRF)是概率图模型(Probabilistic Graphical Model)与区分性分类( Discriminative ...
Statistics and Samples in Distributional Reinforcement Learning
郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! arXiv:1902.08102v1 [stat.ML] 21 Feb 2019 Abstract 我们通过递归估计回报分布的统计量,提供 ...
Training spiking neural networks for reinforcement learning
郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! 原文链接:https://arxiv.org/pdf/2005.05941.pdf Contents: Abstract Introduc ...
Privacy-Preserving Deep Learning via Additively Homomorphic Encryption
郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! Full version of a paper at the 8-th International Conference on Appli ...
【Machine Learning】KNN算法虹膜图片识别
K-近邻算法虹膜图片识别实战作者:白宁超 2017年1月3日18:26:33 摘要:随着机器学习和深度学习的热潮,各种图书层出不穷.然而多数是基础理论知识介绍,缺乏实现的深入理解.本系列文章是作者结 ...
【Machine Learning】Python开发工具：Anaconda+Sublime
Python开发工具:Anaconda+Sublime 作者:白宁超 2016年12月23日21:24:51 摘要:随着机器学习和深度学习的热潮,各种图书层出不穷.然而多数是基础理论知识介绍,缺乏实现 ...
【Machine Learning】机器学习及其基础概念简介
机器学习及其基础概念简介作者:白宁超 2016年12月23日21:24:51 摘要:随着机器学习和深度学习的热潮,各种图书层出不穷.然而多数是基础理论知识介绍,缺乏实现的深入理解.本系列文章是作者结 ...

随机推荐

ExecuteNonQuery(),ExecuteScalar(),ExecuteReader的用法-转
using System.Data.SqlClient;...SqlConnection conn = new SqlConnection(@"server=ws7\leosql;datab ...
Unity3d 控制物体移动、旋转、缩放
在Unity中通过利用 Input Manager(输入管理器)可以很简单的实现对一个物体进行移动.旋转.缩放操作. 演示代码: //通过虚拟轴控制物体移动.旋转.缩放 public class Mo ...
EasyUI 在mvc中的引入与使用
使用步骤: 一.先引入: 1.easyui下载,可以去官方网站去下载最新版EasyUI官方下载地址:http://www.jeasyui.com/download/index.php 2.下载后解压, ...
[CentOS7] 常用工具之差异备份工具 rdiff-backup
差异备份: rdiff-backup ==> 用于累积差异备份,加上自己写的shell script,每日备份,效果更佳先用yum search rdiff-backup看看是否yum源含有r ...
Codeforces - 1181B - Split a Number - 贪心
https://codeforces.com/contest/1181/problem/B 从中间拆开然后用大数搞一波. 当时没想清楚奇偶是怎么弄,其实都可以,奇数长度字符串的中心就在len/2,偶数 ...
vue中通过cross-env插件配置三种环境(开发，测试，生产)打包，不用切换api
1. 话不多说,第一步就是安装必要的插件 npm install cross-env --save 2.修改config里面的参数,这里只展示一个test,其他类似 3.修改package.json ...
二维偏序 tree
tree(二维偏序) 最近接触到一些偏序的东西. 传统线段树非叶子节点的划分点mid=(l+r)/2,但小R线段树mid是自己定的.但满足l<=mid<r,其余条件同原来线段树.那么不难发 ...
P2939 [USACO09FEB]改造路Revamping Trails（分层图最短路）
传送门完了我好像连分层图最短路都不会了……果然还是太菜了…… 具体来说就是记录一个步数表示免费了几条边,在dijkstra的时候以步数为第一关键字,距离为第二关键字.枚举边的时候分别枚举免不免费下一 ...
jmeter-提取器之正则表达式提取器
在接口测试中,有很多的接口参数值是需要从上一个接口的返回值中获取的,这个时候就可以用正则表达式提取器啦例如: 接口1 /user/login 返回{ "user_ticket" ...
bzoj5506:[gzoi2019]旅行者
传送门正反两边dijkstra染色,然后枚举一下边,求出最小值就好啦代码: #include<cstdio> #include<iostream> #include< ...

sk-learning(2)

sk-learning 学习(2)

sklearing 训练评估

十则交叉验证

sk-learning(2)的更多相关文章

随机推荐

热门专题