机器学习sklearn
sklearn相关模块导入
from sklearn.feature_extraction import DictVectorizer
from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer
from sklearn.preprocessing import MinMaxScaler,StandardScaler,Imputer
from sklearn.feature_selection import VarianceThreshold
from sklearn.decomposition import PCA
import jieba
import numpy as np
一、字典数据抽取
def dictvec():
"""
字典数据抽取
:return: None
"""
dict = DictVectorizer(sparse=False)
# 调用ift_transform
data = dict.fit_transform([{"city": "北京", "temperature": 100}])
print(dict.get_feature_names())
print(dict.inverse_transform(data))
print(data) return None
二、对文本进行特征值化
1、英文
def countvec():
"""
对文本进行特征值化
:return:None
"""
cv = CountVectorizer()
data = cv.fit_transform(["life is short i like python", "life is too long, i dislike python"])
print(cv.get_feature_names())
print(data.toarray())
return None
2、中文
def cutword():
"""
中文特征值化分词
:return:None
"""
con1 = jieba.cut("这是一个什么样的时代,这是一个以互联网时代为代表的时代\n")
con2 = jieba.cut("看到这些我们都想到了什么,什么才能让我们想起不该想起的东西")
# 转换成列表
# content1 = list(con1)
# content2 = list(con2)
# 转换成字符串
c1 = " ".join(con1)
c2 = " ".join(con2)
print(c1,c2)
return c1, c2 def hanzivec():
"""
中文特征值化
:return:None
"""
c1, c2 = cutword()
# print(c1, c2)
cv = CountVectorizer()
data = cv.fit_transform([c1, c2])
print(cv.get_feature_names())
print(data.toarray()) return None def tfidfvec():
"""
中文特征值化
:return:None
"""
c1, c2 = cutword()
# print(c1, c2)
tf = TfidfVectorizer()
data = tf.fit_transform([c1, c2])
# print(data)
print(tf.get_feature_names())
print(data.toarray()) return None
三、归一化计算
def mm():
"""
归一化计算
:return: None
"""
mm=MinMaxScaler(feature_range=(4,5))
data=mm.fit_transform([[60,2,40],[90,4,30],[75,6,50]])
print(data)
四、标准化计算
def ss():
"""
标准化计算
:return: None
"""
ss=StandardScaler()
data=ss.fit_transform([[1,-1,4],[2,1,0],[9,2,3]])
print(data)
五、缺失值处理
def im():
"""
缺失值处理
:return:
"""
im=Imputer(missing_values="NaN",strategy="mean",axis=0)
data=im.fit_transform([[1,2],[np.nan,3],[7,6]])
print(data)
六、特征选择-删除低方差的特征
def var():
"""
特征选择-删除低方差的特征
:return:
"""
var=VarianceThreshold(threshold=0.0)
data=var.fit_transform([[0,3,5,4],[0,2,9,4],[0,8,3,4],[0,8,1,4]])
print(data)
七、数据降维处理
def pca():
"""
数据降维处理
:return:
"""
pca=PCA(n_components=0.9)
data=pca.fit_transform([[1,2,3],[4,5,6],[7,8,9],[10,11,12],[7,8,9]])
print(data)
机器学习sklearn的更多相关文章
- python机器学习-sklearn挖掘乳腺癌细胞(五)
python机器学习-sklearn挖掘乳腺癌细胞( 博主亲自录制) 网易云观看地址 https://study.163.com/course/introduction.htm?courseId=10 ...
- python机器学习-sklearn挖掘乳腺癌细胞(四)
python机器学习-sklearn挖掘乳腺癌细胞( 博主亲自录制) 网易云观看地址 https://study.163.com/course/introduction.htm?courseId=10 ...
- python机器学习-sklearn挖掘乳腺癌细胞(三)
python机器学习-sklearn挖掘乳腺癌细胞( 博主亲自录制) 网易云观看地址 https://study.163.com/course/introduction.htm?courseId=10 ...
- python机器学习-sklearn挖掘乳腺癌细胞(二)
python机器学习-sklearn挖掘乳腺癌细胞( 博主亲自录制) 网易云观看地址 https://study.163.com/course/introduction.htm?courseId=10 ...
- python机器学习-sklearn挖掘乳腺癌细胞(一)
python机器学习-sklearn挖掘乳腺癌细胞( 博主亲自录制) 网易云观看地址 https://study.163.com/course/introduction.htm?courseId=10 ...
- 机器学习-Sklearn
Scikit learn 也简称 sklearn, 是机器学习领域当中最知名的 python 模块之一. Sklearn 包含了很多种机器学习的方式: Classification 分类 Regres ...
- 机器学习sklearn的快速使用--周振洋
ML神器:sklearn的快速使用 传统的机器学习任务从开始到建模的一般流程是:获取数据 -> 数据预处理 -> 训练建模 -> 模型评估 -> 预测,分类.本文我们将依据传统 ...
- 机器学习——sklearn中的API
import matplotlib.pyplot as pltfrom sklearn.svm import SVCfrom sklearn.model_selection import Strati ...
- python机器学习sklearn 岭回归(Ridge、RidgeCV)
1.介绍 Ridge 回归通过对系数的大小施加惩罚来解决 普通最小二乘法 的一些问题. 岭系数最小化的是带罚项的残差平方和, 其中,α≥0α≥0 是控制系数收缩量的复杂性参数: αα 的值越大,收缩量 ...
随机推荐
- SpringBoot和druid数据源集成Jpa
1.pom文件 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="htt ...
- PostgreSQL 空间数据类型point、 line等
PostgreSQL中提供了空间类型字段 几何类型 几何数据类型表示二维空间的对象.表6-18 显示了PostgreSQL 里面所有的几何类型.最基本的类型是“点”,它是其它数据类型的基础. 6. ...
- Hibernate实例——Customer表的展示
Hibernate.cfg.xml <?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE hibe ...
- vjson.hpp
//vov #ifndef VJSON_HPP #define VJSON_HPP #include <iostream> #include <string> #include ...
- xls到xml
protected void btn_ok_Click(object sender, EventArgs e) { string x = txtpath.Text; ...
- crop image 需要的基础知识
refer : https://www.youtube.com/watch?v=R7dObDtw1aA https://www.shuxuele.com/algebra/trig-finding-an ...
- 使用vue实现自定义搜索功能
实现效果如:http://www.ligerui.com/demos/filter/filter.htm 代码: <%@ Page Language="C#" AutoEve ...
- python 学习笔记 4 ----> dive into python 3
解析 列表解析.字典解析.集合解析 浏览本地文件系统的模块: 1 os 2 os.path 3 glob os模块:获取(和修改)本地目录.文件进程.环境变量等信息 os.path模块:包含了操作路径 ...
- 手撸代码实现equals方法
重点都在注释里面写了,这里就不再重复叙述,贴上代码到博客主要是备用. package equals; class Book extends Object { private String title; ...
- 20190412wdVBA 排版
Sub LayoutForExamPaper() Dim StartTime As Variant Dim UsedTime As Variant StartTime = VBA.Timer Appl ...