@(Python机器学习及实践-----从零开始通往Kaggle竞赛之路)

第二章 2.3章末小结

1

机器学习模型按照使用的数据类型,可分为监督学习和无监督学习两大类。

  1. 监督学习主要包括分类和回归的模型。
  • 分类:线性分类,支持向量机(SVM),朴素贝叶斯,k近邻,决策树,集成模型(随机森林(多个决策树)等)。
  • 回归:线性回归,支持向量机(SVM),k近邻,回归树,集成模型(随机森林(多个决策树)等)。
  1. 无监督学习主要包括:数据聚类(k-means)和数据降维(主成分分析)等等。

分类模型

线性:假设特征与分类结果存在线性关系,使用sigmoid函数映射到0~1,适合处理具有线性关系的数据。
在科学研究与工程实践中可把线性分类器的表现作为基准。lr使用精确解析,SGD使用随机梯度上升估计模型参数,耗时短,准确率略低

  • 评价指标:准确性,召回率,精准率,和后二者混合的F1指标

支持向量机:精妙的模型假设,线性假设,只用考虑两个空间间隔最小的两个不同类别的数据点。可以在高维数据中选择最为有效的少数训练样本。这样不仅节省了模型学习所需要的内存,而且也提高了模型的预测性能,但付出了计算资源和时间的代价。

  • 评价指标:同上,在回归中有R^2^,MS(平方)E,MA(绝对)E。

朴素贝叶斯 (naive bayes )基于贝叶斯理论。前提:各个维度上的特征被分类的条件概率之间互相独立。

  • 缺点:由于模型的强假设,需要估计的参数规模从幂指数量级到线性数量级减少,极大节约了内存消耗和计算时间。但是对特征关联性较强的任务上表现不佳。
  • 评价指标:同线性

k近邻:不需要参数训练,其属于无参数模型。非常高的计算复杂度(平方级)和内存消耗。

决策树:推断逻辑直观,有清晰的可解释性,也方便模型的可视化,易描述非线性关系。模型在学习的时候,需要考虑特征节点的选取顺序。
常用的度量方式包括信息熵和基尼不纯性。并不懂。。

集成模型: 有代表性的随机森林,同时搭建多个决策树模型,开始投票。
决策树可以随机选取特征构建节点(随机森林),或者按次序搭建分类模型(梯度提升决策树GTB)
特点:训练耗费时间,但是往往有更好的表现性能和稳定性。

我看分类这边都在用线性的度量指标。

回归模型

只是评估指标变了,在回归中有R^2^,MS(平方)E 均方误差,MA(绝对)E平方绝对误差。
R^2^用来衡量模型回归结果的波动可被真实值验证的百分比,也暗示了模型在数值回归方面的能力。

无监督学习

数据聚类

主流的k-means采用的迭代算法,直观易懂并非常实用。

  • 容易收敛到局部最优解
  • 需要预先设定簇的数量
    可使用“肘部”观察法粗略地预估相对合理的类簇个数。

    数据降维

    主成分分析(PCA principal component analysis)
    相较于损失的少部分模型性能。维度压缩能够节省大量模型训练时间。

明天开始进阶篇

隐隐约约感觉不太对,这个没啥 基础啊 全是调用

Python机器学习及实践 课后小题的更多相关文章

  1. 《Python机器学习及实践:从零开始通往Kaggle竞赛之路》

    <Python 机器学习及实践–从零开始通往kaggle竞赛之路>很基础 主要介绍了Scikit-learn,顺带介绍了pandas.numpy.matplotlib.scipy. 本书代 ...

  2. Python机器学习及实践_从零开始通往KAGGLE竞赛之路PDF高清完整版免费下载|百度云盘|Python基础教程免费电子书

    点击获取提取码:i5nw Python机器学习及实践面向所有对机器学习与数据挖掘的实践及竞赛感兴趣的读者,从零开始,以Python编程语言为基础,在不涉及大量数学模型与复杂编程知识的前提下,逐步带领读 ...

  3. 《PYTHON机器学习及实践-从零开始通往KAGGLE竞赛之路》 分享下载

    转: <PYTHON机器学习及实践-从零开始通往KAGGLE竞赛之路> 分享下载 书籍信息 书名: PYTHON机器学习及实践-从零开始通往KAGGLE竞赛之路 标签: PYTHON机器学 ...

  4. Python机器学习及实践+从零开始通往Kaggle竞赛之路

    内容简介 本书面向所有对机器学习与数据挖掘的实践及竞赛感兴趣的读者,从零开始,以Python编程语言为基础,在不涉及大量数学模型与复杂编程知识的前提下,逐步带领读者熟悉并且掌握当下最流行的机器学习.数 ...

  5. 华南理工大学 Python第2章课后小测-2

    1.(单选)下列符号中,有()个是Python的关键字.(1)if    (2)lambda  (3)not   (4) For   (5)None(6)from  (7)True   (8)fina ...

  6. 华南理工大学 Python第2章课后小测-1

    1.(单选)"abc"的长度是3,"老师好"的长度是多少?(本题分数:4)A) 1B) 3C) 6D) 9您的答案:B  正确率:100%2.(单选)下面代码的 ...

  7. 华南理工大学 Python第1章课后小测

    1.(单选)计算机有两个基本特性:功能性和()性.(本题分数:5)A) 可存储B) 可计算C) 可通信D) 可编程您的答案:D  正确率:100%2.(单选)计算机硬件可以直接识别和执行的程序设计语言 ...

  8. 华南理工大学 Python第7章课后小测-2

    1.(单选)以下选项中使Python脚本程序转变为可执行程序的第三方库的是(本题分数:3)A) NetworkxB) pyinstallC) RequestsD) PyPDF2您的答案:B  正确率: ...

  9. 华南理工大学 Python第7章课后小测-1

    1.(单选)以下程序对字典进行排序,按字典键值从小到大排序,空白处的代码是(  ): dt={'b':6, 'c':2, 'a':4} s=sorted(dt.items(),key=_____) p ...

随机推荐

  1. 【UEFI】--- 探究BIOS NvRam空间的的位置以及大小

    按照国际惯例--先上问题:1. 什么是NvRam空间,里面存储了什么数据 2. 如何找到NvRam空间在BIOS-bin文件中的位置 NvRam空间的学名为: Non-Volatile Ram即非易失 ...

  2. 手写-- K-means++

    1. K-means++原理 K均值聚类属于启发式方法,不能保证收敛到全局最优,初始中心的选择会直接影响聚类结果.K-means是随机选择样本点作为聚类中心,容易造成算法局部收敛或者需要较多迭代次数, ...

  3. 使用 H5 和 webGL 的智慧城市 3D 监控

    前言 中共中央.国务院在今年12月印发了<长江三角洲区域一体化发展规划纲要>(下文简称<纲要>),并发出通知,要求各地区各部门结合实际认真贯彻落实. <纲要>强调, ...

  4. 自定义内建模块 - Python Build Your Own Built-In Module

    在 python 中, 用户可以通过 py 文件创建自定义的 module, 也可以通过 C 创建 dll, 扩展 python module. 当用户在一个正在编辑的模块 module 中, 引入( ...

  5. 研发协同平台持续集成之Jenkins实践

    导读 研发协同平台有两个核心目标,一是提高研发效率 ,二是提高研发质量,要实现这两个核心目标,实现持续集成是关键之一. 什么是持续集成 在<持续集成>一书中,对持续集成的定义如下:持续集成 ...

  6. webpack之打包分析以及prefetching和preloading

    打包分析: https://webpack.js.org/guides/code-splitting/#bundle-analysis        性能优化使用缓存是很有限的,现在更多的应该是再编写 ...

  7. POJ 1753 Flip Game 暴力 深搜

    Flip Game Time Limit: 1000MS   Memory Limit: 65536K Total Submissions: 59468   Accepted: 24750 Descr ...

  8. [红日安全]Web安全Day1 - SQL注入实战攻防

    本文由红日安全成员: Aixic 编写,如有不当,还望斧正. 大家好,我们是红日安全-Web安全攻防小组.此项目是关于Web安全的系列文章分享,还包含一个HTB靶场供大家练习,我们给这个项目起了一个名 ...

  9. 虚拟机VMware官网最新版附密钥,kali,ubuntu,centos,deepin迅雷下载地址。

    以下全部都是官网的迅雷复制链接 版本都是当前时间可下载的最新版本 VMware官网迅雷下载链接: https://download3.vmware.com/software/wkst/file/VMw ...

  10. Mac下appium-doctor提示错误汇总

    一.            提示 [Error: Could not detect Mac OS X Version from sw_vers output: '10.12'] 解决方法: 1.终端执 ...