一、机器学习概述

1.1、什么是机器学习?

机器学习是从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测

1.2、为什么需要机器学习?
  • 解放生产力,智能客服,可以不知疲倦的24小时作业
  • 解决专业问题,ET医疗,帮助看病
  • 提供社会便利,例如杭州的城市大脑
1.3、机器学习应用场景
  • 自然语言处理
  • 无人驾驶
  • 计算机视觉
  • 推荐系统

二、数据来源与类型

2.1、数据的来源
  • 企业日益积累的大量数据(互联网公司更为显著)
  • 政府掌握的各种数据
  • 科研机构的实验数据
2.2、数据的类型

数据的类型将是机器学习模型不同问题不同处理的依据。数据的类型包括:

离散型数据:由记录不同类别个体的数目所得到的数据,又称计数数据,所有这些数据全部都是整数,而且不能再细分,也不能进一步提高他们的精确度。

连续型数据:变量可以在某个范围内取任一数,即变量的取值可以是连续的,如,长度、时间、质量值等,这类整数通常是非整数,含有小数部分。

注意:

  • 只要记住一点,离散型是区间内不可分,连续型是区间内可分
2.3、可用的数据集

scikit-learn:数据量较小 ,方便学习。
UCI:收录了360个数据集,覆盖科学、生活、经济等领域 ,数据量几十万。
Kaggle:大数据竞赛平台,80万科学家,真实数据,数据量巨大。

常用数据集数据的结构组成:特征值+目标值,如下图:

 
常用数据集结构

三、数据的特征工程

3.1、特征工程是什么?

特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,从而提高了对未知数据的模型准确性。

3.2、特征工程的意义

意义:直接影响模型的预测结果。

3.3、scikit-learn
  • Python语言的机器学习工具
  • Scikit-learn包括许多知名的机器学习算法的实现
  • Scikit-learn文档完善,容易上手,丰富的API,使其在学术界颇受欢迎。
  • 目前稳定版本0.18
  • 安装:pip3 install Scikit-learn
  • 引用:import sklearn
3.4、数据的特征抽取
3.4.1、特点:
  • 特征抽取针对非连续型数据
  • 特征抽取对文本等进行特征值化
3.4.2、sklearn特征抽取API :

sklearn.feature_extraction

3.4.3、字典特征抽取 :

作用:对字典数据进行特征值化
类:sklearn.feature_extraction.DictVectorizer
DictVectorizer语法:

DictVectorizer(sparse=True,…)

DictVectorizer.fit_transform(X)
X:字典或者包含字典的迭代器
返回值:返回sparse矩阵 DictVectorizer.inverse_transform(X)
X:array数组或者sparse矩阵
返回值:转换之前数据格式 DictVectorizer.get_feature_names()
返回类别名称 DictVectorizer.transform(X)
按照原先的标准转换

流程:
1、实例化类DictVectorizer
2、调用fit_transform方法输入数据并转换

举一个栗子:

from sklearn.feature_extraction import DictVectorizer
dict = DictVectorizer(sparse=False)
data = dict.fit_transform([{'name': '张飞','score': 70}, {'name': '赵云','score':100}, {'name': '刘备','score': 98}])
print(dict.get_feature_names())
print(data)

运行结果:

['name=刘备', 'name=张飞', 'name=赵云', 'score']
[[ 0. 1. 0. 70.]
[ 0. 0. 1. 100.]
[ 1. 0. 0. 98.]]

从中,我们可以看出:对于字典 [{'name': '张飞','score': 70}, {'name': '赵云','score':100}, {'name': '刘备','score': 98}] ,DictVectorizer类将汉字(张飞,赵云,刘备)转成了one-hot编码(0,1,0),而数值类型的数据(70,100,98)是不做处理的。

什么是one-hot编码?
One-Hot编码,又称为一位有效编码,主要是采用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效。

3.4.4、文本特征抽取

作用:对文本数据进行特征值化
类:sklearn.feature_extraction.text.CountVectorizer
CountVectorizer语法:

CountVectorizer(max_df=1.0,min_df=1,…)
返回词频矩阵 CountVectorizer.fit_transform(X,y)
X:文本或者包含文本字符串的可迭代对象
返回值:返回sparse矩阵 CountVectorizer.inverse_transform(X)
X:array数组或者sparse矩阵
返回值:转换之前数据格式 CountVectorizer.get_feature_names()
返回值:单词列表

流程:
1、实例化类CountVectorizer
2、调用fit_transform方法输入数据并转换

举一个栗子:

from sklearn.feature_extraction.text import CountVectorizer
cv = CountVectorizer()
data = cv.fit_transform(["我爱学习,学习使我进步", "我爱work,work 使我快乐"])
print(cv.get_feature_names())
print(data.toarray())

运行结果:

['work', '使我快乐', '学习使我进步', '我爱work', '我爱学习']
[[0 0 1 0 1]
[1 1 0 1 0]]

可以看到,API中的CountVectorizer类将中文转换成了单个词语,并给每个词语的出现个数进行了统计。有一点要注意的是,程序并不会给中文分词,所以,例子中,‘学习使我进步’程序认为是一个词语,这种情况下,可以用空格,或者逗号,将中文进行分割。还有一点要注意的是,如果是英文的话,是不会统计单个字母的,因为字母的统计是没有意义的,同理,CountVectorizer也不支持单个中文字。

我们可以验证一下栗子:
英文栗子:

from sklearn.feature_extraction.text import CountVectorizer
cv = CountVectorizer()
data = cv.fit_transform(["I like study , study makes me happy", "I am a good student"])
print(cv.get_feature_names())
print(data.toarray())

运行结果:

['am', 'good', 'happy', 'like', 'makes', 'me', 'student', 'study']
[[0 0 1 1 1 1 0 2]
[1 1 0 0 0 0 1 0]]

中文栗子:

from sklearn.feature_extraction.text import CountVectorizer
cv = CountVectorizer()
data = cv.fit_transform(["我 热爱 学习, 学习 使我 进步", "我 是 一个 好学生"])
print(cv.get_feature_names())
print(data.toarray())

运行结果:

['一个', '使我', '好学生', '学习', '热爱', '进步']
[[0 1 0 2 1 1]
[1 0 1 0 0 0]]

从中文栗子和英文栗子中,我们可以看到单个英文和单个中文是不会统计数量的,因为统计单个中文或者英文是没有意义的。

手动加空格,或者加逗号分隔始终是指标不治本,如果给我们一篇文章,让我们去处理的话,那要累到手瘫了。那么,有没有好的办法呢?是有的,那就是用 python 里提供的 jieba 分词类库。
我们再来举一个栗子:

import jieba
from sklearn.feature_extraction.text import CountVectorizer con1 = jieba.cut("我热爱学习,学习使我感到进步。")
con2 = jieba.cut("我热爱工作,工作可以让我感到快乐。")
con3 = jieba.cut("如果不让我学习,也不让我工作,我会觉得浑身不舒服。") # 转换成列表
content1 = list(con1)
content2 = list(con2)
content3 = list(con3) # 把列表转换成字符串
c1 = ' '.join(content1)
c2 = ' '.join(content2)
c3 = ' '.join(content3) print(c1, c2, c3)
cv = CountVectorizer()
data = cv.fit_transform([c1, c2, c3])
print(cv.get_feature_names())
print(data.toarray())

运行结果:

我 热爱 学习 , 学习 使 我 感到 进步 。 我 热爱工作 , 工作 可以 让 我 感到 快乐 。 如果 不让 我 学习 , 也 不让 我 工作 , 我会 觉得 浑身 不 舒服 。
['不让', '可以', '如果', '学习', '工作', '快乐', '感到', '我会', '浑身', '热爱', '热爱工作', '舒服', '觉得', '进步']
[[0 0 0 2 0 0 1 0 0 1 0 0 0 1]
[0 1 0 0 1 1 1 0 0 0 1 0 0 0]
[2 0 1 1 1 0 0 1 1 0 0 1 1 0]]

从栗子中可以看到,jieba分词包把句子进行了分词,然后对每个词语的个数进行了统计,但是对于 ‘我’、 ‘也’ 这样的单个中文,并没有统计个数,因为这样的单个中文统计没有意义。

至此,我们学会了统计文章中英文和中文的词语的个数,那么,单纯统计一个词语出现的个数越多就表示这个词语在文章中越重要吗?那比如,“我们”,“你们”,“他们”,“你的”,这样的指示代词出现的频率应该是最高的,能说明代词是文章的重点吗?显然不是。怎么过滤掉这种出现很多,但是并不是重点的词语呢?我们就要开始学习一种 TF-IDF 的处理方法了。

3.4.5、TF-IDF

主要思想:如果某个词或短语在一篇文章中出现的概率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
作用:用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
类:sklearn.feature_extraction.text.TfidfVectorizer
TfidfVectorizer语法:

TfidfVectorizer(stop_words=None,…)
返回词的权重矩阵 TfidfVectorizer.fit_transform(X,y)
X:文本或者包含文本字符串的可迭代对象
返回值:返回sparse矩阵 TfidfVectorizer.inverse_transform(X)
X:array数组或者sparse矩阵
返回值:转换之前数据格式 TfidfVectorizer.get_feature_names()
返回值:单词列表

我们开始举个栗子:

import jieba
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer con1 = jieba.cut("我们热爱学习,学习使我们感到进步。")
con2 = jieba.cut("我们热爱工作,工作可以让我们感到快乐。")
con3 = jieba.cut("如果不让我们学习,不让我们工作,就会感到浑身不舒服。") # 转换成列表
content1 = list(con1)
content2 = list(con2)
content3 = list(con3) # 把列表转换成字符串
c1 = ' '.join(content1)
c2 = ' '.join(content2)
c3 = ' '.join(content3) print(c1, c2, c3)
tf = TfidfVectorizer()
data = tf.fit_transform([c1, c2, c3])
print(tf.get_feature_names())
print(data.toarray())

运行结果:

我们 热爱 学习 , 学习 使 我们 感到 进步 。 我们 热爱工作 , 工作 可以 让 我们 感到 快乐 。 如果 不让 我们 学习 , 不让 我们 工作 , 就 会 感到 浑身 不 舒服 。
['不让', '可以', '如果', '学习', '工作', '快乐', '感到', '我们', '浑身', '热爱', '热爱工作', '舒服', '进步']
[[0. 0. 0. 0.61800047 0. 0.
0.23996625 0.4799325 0. 0.40629818 0. 0.
0.40629818]
[0. 0.43345167 0. 0. 0.32965117 0.43345167
0.25600354 0.51200708 0. 0. 0.43345167 0.
0. ]
[0.63561168 0. 0.31780584 0.24169953 0.24169953 0.
0.18770125 0.3754025 0.31780584 0. 0. 0.31780584
0. ]]

我们可以看到,通过 TF-IDF 的处理,把每句话的重点单词找出来了,第一句话 “我们” 和 “学习” 都出现了2次 ,但 “学习”是0.61800047,“我们” 是0.4799325, 重点是 “学习” , 第三句话“我们” 和 “ 不让 ” 都出现了2次 ,但 “不让”是0.63561168 ,“我们” 是0.3754025 , 第三句话重点强调 “不让” ,因为 “我们” 在三句话中都频繁出现,并不是每一句话的 “专属” , 也就不是一句话的重点了。

3.5、数据的特征处理
3.5.1、特征处理是什么?

通过特定的统计方法(数学方法)将数据转换成算法要求的数据。

3.5.2、为什么需要特征处理?

每个特征的单位不一样,比如相亲的时候,有乘坐飞机的里程数,人的身高,玩游戏的时间,里程数的数值很大,身高相对里程数值很小,那么在做分析的时候,里程数的数值就会起决定性作用。事实在,在统计分析的时候,分析人员认为每个特征同样重要。所以我们需要把不同单位的数值进行特征处理,不因为数值的相差巨大而造成特征的差别。

3.5.3、特征处理的方法

数值型数据:(标准缩放)
1、归一化
2、标准化
3、缺失值
类别型数据:one-hot编码
时间类型:时间的切分

3.5.4、归一化:

特点:通过对原始数据进行变换把数据映射到(默认为[0,1])之间。
公式:   

python 机器学习(一)机器学习概述与特征工程的更多相关文章

  1. 谷歌大规模机器学习:模型训练、特征工程和算法选择 (32PPT下载)

    本文转自:http://mp.weixin.qq.com/s/Xe3g2OSkE3BpIC2wdt5J-A 谷歌大规模机器学习:模型训练.特征工程和算法选择 (32PPT下载) 2017-01-26  ...

  2. Python机器学习笔记 使用sklearn做特征工程和数据挖掘

    特征处理是特征工程的核心部分,特征工程是数据分析中最耗时间和精力的一部分工作,它不像算法和模型那样式确定的步骤,更多的是工程上的经验和权衡,因此没有统一的方法,但是sklearn提供了较为完整的特征处 ...

  3. python 机器学习库 —— featuretools(自动特征工程)

    文档:https://docs.featuretools.com/#minute-quick-start 所谓自动特征工程,即是将人工特征工程的过程自动化.以 featuretools 为代表的自动特 ...

  4. 【Python数据挖掘】第六篇--特征工程

    一.Standardization 方法一:StandardScaler from sklearn.preprocessing import StandardScaler sds = Standard ...

  5. 如何用Python做自动化特征工程

    机器学习的模型训练越来越自动化,但特征工程还是一个漫长的手动过程,依赖于专业的领域知识,直觉和数据处理.而特征选取恰恰是机器学习重要的先期步骤,虽然不如模型训练那样能产生直接可用的结果.本文作者将使用 ...

  6. 2022年Python顶级自动化特征工程框架⛵

    作者:韩信子@ShowMeAI 机器学习实战系列:https://www.showmeai.tech/tutorials/41 本文地址:https://www.showmeai.tech/artic ...

  7. AI学习笔记:特征工程

    一.概述 Andrew Ng:Coming up with features is difficult, time-consuming, requires expert knowledge. &quo ...

  8. Python数据科学手册-机器学习之特征工程

    特征工程常见示例: 分类数据.文本.图像. 还有提高模型复杂度的 衍生特征 和 处理 缺失数据的填充 方法.这个过程被叫做向量化.把任意格式的数据 转换成具有良好特性的向量形式. 分类特征 比如房屋数 ...

  9. 机器学习-特征工程-Missing value和Category encoding

    好了,大家现在进入到机器学习中的一块核心部分了,那就是特征工程,洋文叫做Feature Engineering.实际在机器学习的应用中,真正用于算法的结构分析和部署的工作只占很少的一部分,相反,用于特 ...

随机推荐

  1. Apache Hudi集成Apache Zeppelin实战

    1. 简介 Apache Zeppelin 是一个提供交互数据分析且基于Web的笔记本.方便你做出可数据驱动的.可交互且可协作的精美文档,并且支持多种语言,包括 Scala(使用 Apache Spa ...

  2. vscode--常用插件&同步

    1.setting.json文件 { "files.autoSave": "off", "extensions.ignoreRecommendatio ...

  3. 5、flink常见函数使用及自定义转换函数

    代码地址:https://gitee.com/nltxwz_xxd/abc_bigdata 一.flink编程方法 获取执行环境(execution environment) 加载/创建初始数据集 对 ...

  4. SVN部署(Centos7,Ubuntu)

    SVN 简介 SVN是Subversion的简称,是一个开放源代码的版本控制系统,相较于RCS.CVS,它采用了分支管理系统,它的设计目标就是取代CVS.互联网上很多版本控制服务已从CVS迁移到Sub ...

  5. MySQL 入门(1):查询和更新的内部实现

    摘要 在MySQL中,简单的CURD是很容易上手的. 但是,理解CURD的背后发生了什么,却是一件特别困难的事情. 在这一篇的内容中,我将简单介绍一下MySQL的架构是什么样的,分别有什么样的功能.然 ...

  6. SpringBoot @ConfigurationProperties详解

    文章目录 简介 添加依赖关系 一个简单的例子 属性嵌套 @ConfigurationProperties和@Bean 属性验证 属性转换 自定义Converter SpringBoot @Config ...

  7. 【集群实战】NFS网络文件共享服务3-相关知识补充(showmount,exports,rpc)

    1. showmount命令说明 showmount命令一般用于从NFS客户端检查NFS服务器端共享目录的情况. 参数说明: -e,--exports 显示NFS服务器输出的目录列表 [root@we ...

  8. CSS样式2

    1.css重用 <style> .cl{ ... } .c2{ ... } .c{ ... } </style> <div class='c c2'></di ...

  9. matlab混合编程向导(vc,vb,.net...)

    一.matlab与vc混编  1.通过mcc将matlab的m文件转化为cpp,c文件或dll供vc调用:     这方面的实现推荐精华区Zosco和ljw总结的方法(x-6-1-4-3-1和2)  ...

  10. Norwegian Wood

    0 前言 <挪威的森林>是村上春树很有名的一部小说,但我想大多数人阅读的时候都只是把书名当作一个符号,而不是作为故事去追究. 我国台湾知名文学评论家杨照先生说过:村上的书里有太多太多典故, ...