sklearn特征选择和分类模型

数据格式：

这里。原始特征的输入文件的格式使用libsvm的格式，即每行是label index1:value1 index2:value2这样的稀疏矩阵的格式。

sklearn中自带了非常多种特征选择的算法。

我们选用特征选择算法的根据是数据集和训练模型。

以下展示chi2的使用例。chi2，採用卡方校验的方法进行特征选择。比較适合0/1型特征和稀疏矩阵。

from sklearn.externals.joblib import Memory

from sklearn.datasets import load_svmlight_file

mem = Memory("./mycache")

@mem.cache

def get_data():

    data = load_svmlight_file("labeled_fea.txt")

    return data[0], data[1]

X, y = get_data()

from sklearn.feature_selection import SelectKBest

from sklearn.feature_selection import chi2

data  = SelectKBest(chi2, k=10000).fit_transform(X, y)

from sklearn.datasets import dump_svmlight_file

dump_svmlight_file(data, y, "labeled_chi2_fea.txt",False)

sklearn中分类模型也非常多，接口统一。非常方便使用。

分类之前。能够不进行特征选择。也能够先独立进行特征选择后再做分类，还能够通过pipeline的方式让特征选择和分类集成在一起。

from sklearn.externals.joblib import Memory

from sklearn.datasets import load_svmlight_file

mem = Memory("./mycache")

@mem.cache

def get_data():

    data = load_svmlight_file("labeled_fea.txt")

    return data[0], data[1]

X, y = get_data()

train_X = X[0:800000]

train_y = y[0:800000]

test_X = X[800000:]

test_y = y[800000:]

print(train_X.shape)

print(test_X.shape)

from sklearn.feature_selection import SelectKBest, chi2

from sklearn.pipeline import Pipeline

from sklearn.ensemble import RandomForestClassifier

from sklearn.naive_bayes import BernoulliNB, MultinomialNB

from sklearn.linear_model import RidgeClassifier

from sklearn.linear_model import Perceptron

from sklearn.neighbors import NearestCentroid

from sklearn.linear_model import SGDClassifier

from sklearn.svm import LinearSVC

from sklearn.ensemble import GradientBoostingClassifier

from sklearn import metrics

from time import time

#独立的特征选择

ch2 = SelectKBest(chi2, k=10000)

train_X = ch2.fit_transform(train_X, train_y)

test_X = ch2.transform(test_X)

#依据一个分类模型。训练模型后。进行測试

def benchmark(clf):

    print('_' * 80)

    print("Training: ")

    print(clf)

    t0 = time()

    clf.fit(train_X, train_y)

    train_time = time() - t0

    print("train time: %0.3fs" % train_time)

    t0 = time()

    pred = clf.predict(test_X)

    test_time = time() - t0

    print("test time:  %0.3fs" % test_time)

    score = metrics.accuracy_score(test_y, pred)

    print("accuracy:   %0.3f" % score)

    clf_descr = str(clf).split('(')[0]

    return clf_descr, score, train_time, test_time

clf = RandomForestClassifier(n_estimators=100)

#clf = RidgeClassifier(tol=1e-2, solver="lsqr")

#clf = Perceptron(n_iter=50)

#clf = LinearSVC()

#clf = GradientBoostingClassifier() 

#clf = SGDClassifier(alpha=.0001, n_iter=50,penalty="l1")

#clf = SGDClassifier(alpha=.0001, n_iter=50,penalty="elasticnet")

#clf = NearestCentroid()

#clf = MultinomialNB(alpha=.01)

#clf = BernoulliNB(alpha=.01)

#pipeline模型特征选择和分类模型结合在一起

#clf = Pipeline([ ('feature_selection', LinearSVC(penalty="l1", dual=False, tol=1e-3)), ('classification', LinearSVC())])

benchmark(clf)

值得注意的是，上面的程序训练和预測阶段都是在同一份程序运行。而实际应用中。训练和预測是分开的。因此，要使用python的对象序列化特征。每次训练完之后。序列化模型对象。保存模型的状态，预測时反序列化模型对象。还原模型的状态。

參考资料：

http://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_svmlight_file.html

http://scikit-learn.org/stable/modules/generated/sklearn.datasets.dump_svmlight_file.html

http://scikit-learn.org/stable/modules/feature_selection.html#feature-selection

http://scikit-learn.org/stable/auto_examples/text/document_classification_20newsgroups.html#example-text-document-classification-20newsgroups-py

本文作者：linger

本文链接：http://blog.csdn.net/lingerlanlan/article/details/47960127

sklearn特征选择和分类模型的更多相关文章

[转载]sklearn多分类模型
[转载]sklearn多分类模型这篇文章很好地说明了利用sklearn解决多分类问题时的implement层面的内容:https://www.jianshu.com/p/b2c95f13a9ae.我 ...
sklearn CART决策树分类
sklearn CART决策树分类决策树是一种常用的机器学习方法,可以用于分类和回归.同时,决策树的训练结果非常容易理解,而且对于数据预处理的要求也不是很高. 理论部分比较经典的决策树是ID3.C ...
NLP学习（2）----文本分类模型
实战:https://github.com/jiangxinyang227/NLP-Project 一.简介: 1.传统的文本分类方法:[人工特征工程+浅层分类模型] (1)文本预处理: ①(中文) ...
吴裕雄 python 机器学习——集成学习随机森林RandomForestClassifier分类模型
import numpy as np import matplotlib.pyplot as plt from sklearn import datasets,ensemble from sklear ...
吴裕雄 python 机器学习——集成学习AdaBoost算法分类模型
import numpy as np import matplotlib.pyplot as plt from sklearn import datasets,ensemble from sklear ...
sklearn实现多分类逻辑回归
sklearn实现多分类逻辑回归 #二分类逻辑回归算法改造适用于多分类问题1.对于逻辑回归算法主要是用回归的算法解决分类的问题,它只能解决二分类的问题,不过经过一定的改造便可以进行多分类问题,主要的改 ...
分类模型的F1-score、Precision和Recall 计算过程
分类模型的F1分值.Precision和Recall 计算过程引入通常,我们在评价classifier的性能时使用的是accuracy 考虑在多类分类的背景下 accuracy = (分类正确的样 ...
笔记︱风控分类模型种类（决策、排序）比较与模型评估体系（ROC/gini/KS/lift）
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 本笔记源于CDA-DSC课程,由常国珍老师主讲 ...
MXNET：分类模型
线性回归模型适用于输出为连续值的情景,例如输出为房价.在其他情景中,模型输出还可以是一个离散值,例如图片类别.对于这样的分类问题,我们可以使用分类模型,例如softmax回归. 为了便于讨论,让我们假 ...

随机推荐

C#通过http post方式调用需要证书的webservice
前一段时间做花旗银行的项目,用到花旗的接口是websevice,由于很多原因直接在项目中引用webservice不成功,于是就用了http post方式请求,把请求信息(xml格式)组装之后发送到服务 ...
java作业 4
public class dog { /** * @param args */ public static void main(String[] args) { // TODO Auto-gen ...
Linux问题故障定位
CPU 针对应用程序,通常关注的是内核CPU调度器功能和性能. 线程的状态分析主要是分析线程的时间用在什么地方,而线程状态的分类一般分为: a. on-CPU:执行中,执行中的时间通常又分为用户态时间 ...
java.lang.RuntimeException: Can't create handler inside thread that has not called Looper.prepare()解决办法
代码改变世界 java.lang.RuntimeException: Can't create handler inside thread that has not called Looper.pre ...
JDBC 学习笔记（六）—— PreparedStatement
1. 引入 PreparedStatement PreparedStatement 通过 Connection.createPreparedStatement(String sql) 方法创建,主要用 ...
POJ——3264Balanced Lineup（RMQ模版水题）
Balanced Lineup Time Limit: 5000MS Memory Limit: 65536K Total Submissions: 44112 Accepted: 20713 ...
洛谷 [P2480] 古代猪文
卢卡斯定理注意特判底数和模数相等的情况 http://www.cnblogs.com/poorpool/p/8532809.html #include <iostream> #inclu ...
【POJ1144】Network（割点）（模板）
题意:给定一张无向图,求割点个数思路:感谢CC大神http://ccenjoyyourlife.blog.163.com/的讲解割点的定义就是某个联通块中删去此点连通性发生变化的的点有两种割点: ...
hdu 4311 & 4312 Meeting point 曼哈顿距离之和最小
hdu 4311 题意平面上\(n(n\leq 1e5)\)个点,找一个点到其它所有点的曼哈顿距离之和最小. 思路如果是找一个坐标使得所有点到其曼哈顿距离之和最小,那么将\(n\)个横坐标排个序, ...
fuelgauge
void fg_init(void *queue, void (*bs_fuel_gauge_status)(void)) { fg_init_ready = bs_fuel_gauge_status ...

sklearn特征选择和分类模型

sklearn特征选择和分类模型的更多相关文章

随机推荐

热门专题