机器学习sklearn

sklearn相关模块导入

 from sklearn.feature_extraction import DictVectorizer

 from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer

 from sklearn.preprocessing import MinMaxScaler,StandardScaler,Imputer

 from sklearn.feature_selection import VarianceThreshold

 from sklearn.decomposition import PCA

 import jieba

 import numpy as np

一、字典数据抽取

 def dictvec():

     """

     字典数据抽取

     :return: None

     """

     dict = DictVectorizer(sparse=False)

     # 调用ift_transform

     data = dict.fit_transform([{"city": "北京", "temperature": 100}])

     print(dict.get_feature_names())

     print(dict.inverse_transform(data))

     print(data)

     return None

二、对文本进行特征值化

　　1、英文

 def countvec():

     """

     对文本进行特征值化

     :return:None

     """

     cv = CountVectorizer()

     data = cv.fit_transform(["life is short i like python", "life is too long, i dislike python"])

     print(cv.get_feature_names())

     print(data.toarray())

     return None

　　2、中文

 def cutword():

     """

     中文特征值化分词

     :return:None

     """

     con1 = jieba.cut("这是一个什么样的时代，这是一个以互联网时代为代表的时代\n")

     con2 = jieba.cut("看到这些我们都想到了什么，什么才能让我们想起不该想起的东西")

     # 转换成列表

     # content1 = list(con1)

     # content2 = list(con2)

     # 转换成字符串

     c1 = " ".join(con1)

     c2 = " ".join(con2)

     print(c1,c2)

     return c1, c2

 def hanzivec():

     """

     中文特征值化

     :return:None

     """

     c1, c2 = cutword()

     # print(c1, c2)

     cv = CountVectorizer()

     data = cv.fit_transform([c1, c2])

     print(cv.get_feature_names())

     print(data.toarray())

     return None

 def tfidfvec():

     """

     中文特征值化

     :return:None

     """

     c1, c2 = cutword()

     # print(c1, c2)

     tf = TfidfVectorizer()

     data = tf.fit_transform([c1, c2])

     # print(data)

     print(tf.get_feature_names())

     print(data.toarray())

     return None

三、归一化计算

 def mm():

     """

     归一化计算

     :return: None

     """

     mm=MinMaxScaler(feature_range=(4,5))

     data=mm.fit_transform([[60,2,40],[90,4,30],[75,6,50]])

     print(data)

四、标准化计算

 def ss():

     """

     标准化计算

     :return: None

     """

     ss=StandardScaler()

     data=ss.fit_transform([[1,-1,4],[2,1,0],[9,2,3]])

     print(data)

五、缺失值处理

 def im():

     """

     缺失值处理

     :return:

     """

     im=Imputer(missing_values="NaN",strategy="mean",axis=0)

     data=im.fit_transform([[1,2],[np.nan,3],[7,6]])

     print(data)

六、特征选择-删除低方差的特征

 def var():

     """

     特征选择-删除低方差的特征

     :return:

     """

     var=VarianceThreshold(threshold=0.0)

     data=var.fit_transform([[0,3,5,4],[0,2,9,4],[0,8,3,4],[0,8,1,4]])

     print(data)

七、数据降维处理

 def pca():

     """

     数据降维处理

     :return:

     """

     pca=PCA(n_components=0.9)

     data=pca.fit_transform([[1,2,3],[4,5,6],[7,8,9],[10,11,12],[7,8,9]])

     print(data)

机器学习sklearn的更多相关文章

python机器学习-sklearn挖掘乳腺癌细胞（五）
python机器学习-sklearn挖掘乳腺癌细胞( 博主亲自录制) 网易云观看地址 https://study.163.com/course/introduction.htm?courseId=10 ...
python机器学习-sklearn挖掘乳腺癌细胞（四）
python机器学习-sklearn挖掘乳腺癌细胞( 博主亲自录制) 网易云观看地址 https://study.163.com/course/introduction.htm?courseId=10 ...
python机器学习-sklearn挖掘乳腺癌细胞（三）
python机器学习-sklearn挖掘乳腺癌细胞( 博主亲自录制) 网易云观看地址 https://study.163.com/course/introduction.htm?courseId=10 ...
python机器学习-sklearn挖掘乳腺癌细胞（二）
python机器学习-sklearn挖掘乳腺癌细胞( 博主亲自录制) 网易云观看地址 https://study.163.com/course/introduction.htm?courseId=10 ...
python机器学习-sklearn挖掘乳腺癌细胞（一）
python机器学习-sklearn挖掘乳腺癌细胞( 博主亲自录制) 网易云观看地址 https://study.163.com/course/introduction.htm?courseId=10 ...
机器学习-Sklearn
Scikit learn 也简称 sklearn, 是机器学习领域当中最知名的 python 模块之一. Sklearn 包含了很多种机器学习的方式: Classification 分类 Regres ...
机器学习sklearn的快速使用--周振洋
ML神器:sklearn的快速使用传统的机器学习任务从开始到建模的一般流程是:获取数据 -> 数据预处理 -> 训练建模 -> 模型评估 -> 预测,分类.本文我们将依据传统 ...
机器学习——sklearn中的API
import matplotlib.pyplot as pltfrom sklearn.svm import SVCfrom sklearn.model_selection import Strati ...
python机器学习sklearn 岭回归（Ridge、RidgeCV）
1.介绍 Ridge 回归通过对系数的大小施加惩罚来解决普通最小二乘法的一些问题. 岭系数最小化的是带罚项的残差平方和, 其中,α≥0α≥0 是控制系数收缩量的复杂性参数: αα 的值越大,收缩量 ...

随机推荐

Polly 重试策略
工作原理 Retry 基本重试: public static void Retry() { var random = new Random(); // Policy<> 泛型定义返回值类型 ...
调用Bytom Chrome插件钱包开发Dapp
安装使用插件钱包 1. 打开Google浏览器的应用商店,搜索Bystore 下载链接:http://t.cn/E6cFFwb 2. 然后点击添加到Chrome,就可以添加到我们的: 3. 使用goo ...
牛客OI周赛9-提高组题目记录
牛客OI周赛9-提高组题目记录昨天晚上做了这一套比赛,觉得题目质量挺高,而且有一些非常有趣而且非常清奇的脑回路在里边,于是记录在此. T1: 扫雷题目链接设 \(f_i\) 表示扫到第 \(i\ ...
Mysql推荐使用规范
一.基础规范使用InnoDB存储引擎支持事务.行级锁.并发性能更好.CPU及内存缓存页优化使得资源利用率更高推荐使用utf8mb4字符集无需转码,无乱码风险, 支持emoji表情以及部分不常见汉字 ...
Collectors类中的静态工厂方法
工厂方法返回类型用于 toList List<T> 把流中的所有数据元素收集到List集合中. stream.collect(toList()); toSet Set<T> ...
WebForm服务器验证控件与前端js自定义验证共同使用
问题: 前端aspx页面中需要在button中添加OnClientClick事件后,这个OnClientClick所执行的自定义的客户端js验证:这个时候,所有的服务器验证控件都会失效! ...
EOJ Monthly 2019.2
题解 A 回收卫星 #pragma GCC optimize(2) #pragma GCC optimize(3) #pragma GCC optimize(4) #include<bits/s ...
获取的输入内容，没有被P标签包裹的文本和元素进行处理
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
[转]pycharm 2016.2注册码
在网上找了好多都不行,最后还是这个好使.在网上搜索了半天挨个试过来最终找到了License server的方法,由此分享给大家.这个也完全没有使用时间的限制~ 直接打开pycharm,选License ...
Kubernetes介绍及基本概念
kubernetes介绍 Kubernetes是Google在2014年6月开源的一个容器集群管理系统,使用Go语言开发,Kubernetes也叫K8S.K8S是Google内部一个叫Borg的容器集 ...

机器学习sklearn

机器学习sklearn的更多相关文章

随机推荐

热门专题