零、全部项目通用的:

http://blog.csdn.net/mmc2015/article/details/46851245数据集格式和预測器

http://blog.csdn.net/mmc2015/article/details/46852755(载入自己的原始数据

适合文本分类问题的 整个语料库载入)

http://blog.csdn.net/mmc2015/article/details/46906409(5. 载入内置公用的数据

(常见的非常多公共数据集的载入5.
Dataset loading utilities

http://blog.csdn.net/mmc2015/article/details/46705983(Choosing the right estimator(你的问题适合什么estimator来建模呢)

一张图告诉你,你的问题选什么estimator好。再也不用试了)

http://blog.csdn.net/mmc2015/article/details/46857949(训练分类器、预測新数据、评价分类器

http://blog.csdn.net/mmc2015/article/details/46858009(使用“Pipeline”统一vectorizer => transformer => classifier、网格搜索调參

一、文本分类用到的:

http://blog.csdn.net/mmc2015/article/details/46857887(从文本文件里提取特征(tf、idf)

CountVectorizerTfidfTransformer

http://blog.csdn.net/mmc2015/article/details/46866537(CountVectorizer提取tf都做了什么

深入解读CountVectorizer都做了哪些处理。指导我们做个性化预处理

http://blog.csdn.net/mmc2015/article/details/46867773(2.5.2. 通过TruncatedSVD实现LSA(隐含语义分析)

(LSA、LDA分析)

(非scikit-learn)http://blog.csdn.net/mmc2015/article/details/46940373(《textanalytics》课程简单总结(1):两种word relations——Paradigmatic vs. Syntagmatic

(非scikit-learn)http://blog.csdn.net/mmc2015/article/details/46941367(《textanalytics》课程简单总结(1):两种word relations——Paradigmatic vs. Syntagmatic(续)

(词粒度关系:Paradigmatic(聚合关系:同性质可相互替代、用基于tfidf的相似度挖掘) vs. Syntagmatic(组合关系:协同出现、用互信息挖掘))

(非scikit-learn)http://blog.csdn.net/mmc2015/article/details/46771791(特征选择方法(TF-IDF、CHI和IG)

(介绍了TF-IDF在特征选择时的误区、CHI Square和Information Gain在特征选择时的应用

二、数据预处理用到的4.
Dataset transformations

http://blog.csdn.net/mmc2015/article/details/46991465(4.1. Pipeline and FeatureUnion: combining estimators(特征与预測器结合;特征与特征结合)

特征与预測器结合、特征与特征结合

http://blog.csdn.net/mmc2015/article/details/46992105(4.2. Feature extraction(特征提取,不是特征选择)

loading features form dicts、feature hashing、text feature extraction、image feature extraction

http://blog.csdn.net/mmc2015/article/details/46997379(4.2.3. Text feature extraction

text feature extraction

http://blog.csdn.net/mmc2015/article/details/47016313(4.3. Preprocessing data(standardi/normali/binari..zation、encoding、missing value)

Standardization, or mean removal and variance scaling(标准化:去均值、除方差)、Normalization(正规化)、Feature Binarization(二值化)、Encoding
categorical features
(编码类别特征)、imputation of missing values(归责缺失值))

http://blog.csdn.net/mmc2015/article/details/47066239(4.4. Unsupervised dimensionality reduction(降维)

PCA、Random projections、Feature agglomeration(特征集聚))

http://blog.csdn.net/mmc2015/article/details/47069869(4.8. Transforming the prediction target (y)

Label binarizationLable encoding(transform non-numerical labels to numerical labels)

三、其它重要知识点:

http://blog.csdn.net/mmc2015/article/details/47099275(3.1. Cross-validation: evaluating estimator performance

交叉验证

http://blog.csdn.net/mmc2015/article/details/47100091(3.2. Grid Search: Searching for estimator parameters

搜索最佳參数组合

http://blog.csdn.net/mmc2015/article/details/47121611(3.3. Model evaluation: quantifying the quality of predictions
模型效果评估:score函数、confusion matrix、classification report等


http://blog.csdn.net/mmc2015/article/details/47143539(3.4. Model persistence

保存训练好的模型到本地joblib.dump & joblib.load pickle .dump & pickle .load

None、经常使用的监督非监督模型:

http://blog.csdn.net/mmc2015/article/details/46867597(2.5.  矩阵因子分解问题

http://blog.csdn.net/mmc2015/article/details/47271039(scikit-learn(project中用的相对较多的模型介绍):1.4. Support Vector Machines

SVM(SVC、SVR

http://blog.csdn.net/mmc2015/article/details/47271195(scikit-learn(project中用的相对较多的模型介绍):1.11. Ensemble methods

Bagging meta-estimator、Forests of ranomized trees、AdaBoost、Gradient Tree Boosting(Gradient Boosted Regression Trees (GBRT) )

http://blog.csdn.net/mmc2015/article/details/47333499(scikit-learn(project中用的相对较多的模型介绍):1.12. Multiclass
and multilabel algorithms

Multiclass classification、Multilabel classification、Multioutput-multiclass classification and multi-task classification

http://blog.csdn.net/mmc2015/article/details/47333579(scikit-learn(project中用的相对较多的模型介绍):1.13. Feature selection

Univariate feature selection(单变量特征选择)、recursive feature elimination(递归特征消除)、L1-based / ree-based features selection(这个也用的比价多)、Feature selection as part of a pipeline

http://blog.csdn.net/mmc2015/article/details/47333839(

scikit-learn(project中用的相对较多的模型介绍):1.14. Semi-Supervised

http://blog.csdn.net/mmc2015/article/details/47414271(scikit-learn(project中用的相对较多的模型介绍):2.3. Clustering(可用于特征的无监督降维)

scikit-learn:在实际项目中用到过的知识点(总结)的更多相关文章

  1. 项目中用到RouteTable,发布到IIS7中无法访问

    项目中用到RouteTable,发布到IIS7中,访问之后没有任何反应,google半天终于找到了解决方法,就是要把iis的“HTTP重定向”功能打开

  2. iOS 项目中用到的一些开源库和第三方组件

    iOS 项目中用到的一些 iOS 开源库和第三方组件 分享一下我目前所在公司 iOS 项目中用到的一些 iOS 开源库和第三方组件, 感谢开源, 减少了我们的劳动力, 节约了我们大量的时间, 让我们有 ...

  3. iOS:项目中用到的Cookie

    1.介绍: 做了这么长时间开发,Cookie真是用的不多,可是现在不一样了,这次的项目我用到了Cookie.其实,Cookie的使用在项目中愈加的频繁,一般情况下,提供的接口是用Cookie来识别用户 ...

  4. 项目中用到的SQL-总结

    基本sql总结: Group by的理解:having子句,分组函数 Group by使用的限定: 1.出现在Select列表中的字段或者出现在order by后面的字段,如果不是包含在分组函数中,那 ...

  5. LinkedHashMap和HashMap的比较使用 由于现在项目中用到了LinkedHashMap,并不是太熟悉就到网上搜了一下。 ? import java.util.HashMap; impo

    LinkedHashMap和HashMap的比较使用 由于现在项目中用到了LinkedHashMap,并不是太熟悉就到网上搜了一下. import java.util.HashMap; import ...

  6. scikit learn 模块 调参 pipeline+girdsearch 数据举例:文档分类 (python代码)

    scikit learn 模块 调参 pipeline+girdsearch 数据举例:文档分类数据集 fetch_20newsgroups #-*- coding: UTF-8 -*- import ...

  7. 项目中用到的input 遇到的问题的归类

    input 前几天 为了这个词 用在搜索框被我们总监喷,为了加强印象,我把它记录下来 最原始的造型 <input type="text" value="搜索&quo ...

  8. (原创)(三)机器学习笔记之Scikit Learn的线性回归模型初探

    一.Scikit Learn中使用estimator三部曲 1. 构造estimator 2. 训练模型:fit 3. 利用模型进行预测:predict 二.模型评价 模型训练好后,度量模型拟合效果的 ...

  9. (原创)(四)机器学习笔记之Scikit Learn的Logistic回归初探

    目录 5.3 使用LogisticRegressionCV进行正则化的 Logistic Regression 参数调优 一.Scikit Learn中有关logistics回归函数的介绍 1. 交叉 ...

随机推荐

  1. 为什么要用&lt;!DOCTYPE&gt;声明

    实例: 我们常常会看到类似这种代码: <!DOCTYPE html> <html> <head> <title>文档的标题</title> ...

  2. 百度地图js小结

    1.获取javascript API 服务方法,首先申请密钥(ak),才可成功载入APIJS文件. 用法例如以下: <script type="text/javascript" ...

  3. MS Sql Server 中主从库的配置和使用介绍

    网站规模到了一定程度之后,该分的也分了,该优化的也做了优化,但是还是不能满足业务上对性能的要求:这时候我们可以考虑使用主从库. 主从库是两台服务器上的两个数据库,主库以最快的速度做增删改操作+最新数据 ...

  4. RxJava 中文文档

    https://mcxiaoke.gitbooks.io/rxdocs/content/Subject.html

  5. mysql中函数greatest 与MAX区别

    greatest (a,b,c,d,d)max(a) 这样就能看明白了,greatest 求的是某几列的最大值,横向求最大(一行记录)max(a) 一看就明白了,是给纵向求最大(多行记录).

  6. [Android Pro] Android 手机root 并 安装 BusyBox pro 和 Android Terminal Emulator

    Android root 工具:http://www.z4root.cn/yijianrootshouji/ 推荐的是:root精灵手机版 BusyBox 称为 Linux 工具里的瑞士军刀.简单的说 ...

  7. 11.线程通信CountDownLatch

    package demo2; import java.util.concurrent.CountDownLatch; /** * Created by liudan on 2017/7/27. */ ...

  8. trident介绍

    (一)理论基础 很多其它理论以后再补充,或者參考书籍 1.trident是什么? Trident is a high-level abstraction for doing realtime comp ...

  9. 【干货合集】Docker快速入门与进阶

    收录待用,修改转载已取得腾讯云授权 Docker 在众多技术中,绝对是当红炸子鸡.这年头,如果你不懂一点容器,不学一些Docker,还怎么出去跟人炫耀技术? Docker 也是云计算技术中较为热门的一 ...

  10. 修改ubuntu下网卡名不是eth0的问题

    sudo nano /etc/default/grub 找到GRUB_CMDLINE_LINUX=""改为GRUB_CMDLINE_LINUX="net.ifnames= ...