HCIE数据挖掘笔记-005数据挖掘专业名词
数据对象和属性类别:
数据一般有噪声,数量庞大,且来自不同的数据源
数据集由数据对象组成,一个数据对象代表一个实体
数据对象:样本、实例、数据点、对象
数据对象以数据元组的形式存放在数据库中,数据库的行对应于数据对象,列对应于属性
属性是一个数据字段,与维、特征、变量对应
维 用于数据仓库中
特征 用于机器学习中
变量 用于统计学中
属性的类型 值域
属性有四大类:
标称属性:只代表某种类别,不具有意义的序(无排序)例如第一食堂、第二食堂这种也是不具有意义的序
二元属性:标称属性的一种特殊情况 ,只有0/1
序数属性:顺序有意义,相继值之间的差是未知的,各值之间可以相互比较,但不一定是数字(比如白金会员、超级会员等)
数值属性:定量的可度量的量,用整数或者实数表示。
区间标度属性:以相等的单位尺度度量
比例标度属性:具有固定零点的数值属性
数值属性和序数属性之间在某些情况下可以相互转换
额外两种类型:
离散型:有限个/无限个可数个数
连续性:数据具有连续性
离散型数据与连续型数据在一些情况下也可以相互转换(区间分割/加值等,一般把连续转换为离散)
数据集类型:数据对象有时叫做点
训练集:用于训练模型
测试集:用于测试模型,对比预测值与真实值。
验证集:用于调参,与测试集的区别为:验证集可以反复用,测试集仅用于一次测试
一般训练:测试:验证为6:2:2
当数据量很大,需使用GPU加速时:训练、测试、验证的比值为:8:1:1
在不适用验证集时训练集测试集比:
总数据在1w以下:7:3
总数据在1w以下:8:2
数据量大到需使用GPU加速训练:9:1
数据集的维度:一维数据、二维数据、多维数据、高维数据
数据集的稀疏性:在矩阵中,如果数值为0的元素远大于非0元素的个数,非0元素排列无规律十,称为稀疏矩阵;若非零元素占大多数时,称为稠密矩阵。(IE考试中记住概念即可)稀疏矩阵可以用于提升性能
数据集的分辨率:灰度计算、图片压缩等(使用K-means)
数据汇总统计:量化,用单个数或数的小集合捕获可能很大的值集的各种特征
中心趋势度量:均值、中位数和众数

度量数据散步:极差、四分位数(四等分位:第25个百分位数、第50个百分位数、第75个百分位数、第100个百分位数)、方差、标准差、四分位数极差

HCIE数据挖掘笔记-005数据挖掘专业名词的更多相关文章
- 机器学习&数据挖掘笔记_14(GMM-HMM语音识别简单理解)
为了对GMM-HMM在语音识别上的应用有个宏观认识,花了些时间读了下HTK(用htk完成简单的孤立词识别)的部分源码,对该算法总算有了点大概认识,达到了预期我想要的.不得不说,网络上关于语音识别的通俗 ...
- 机器学习&数据挖掘笔记(常见面试之机器学习算法思想简单梳理)
机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理) 作者:tornadomeet 出处:http://www.cnblogs.com/tornadomeet 前言: 找工作时( ...
- [转]机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理)
机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理) 转自http://www.cnblogs.com/tornadomeet/p/3395593.html 前言: 找工作时(I ...
- javascript各种专业名词
刚开始学javascript经常看到各种专业名词,在此整理一下个人的学习笔记: 直接量 直接量——就是程序中直接使用的数据值,如:88 //数字(String)"hello world ...
- Android开发专业名词及工具概述
前言: 系统的学习下Android开发中涉及到的一些专业名词 和Android开发工具 名词: 一.SDK(Software Development Kit) 软件开发工具包:一般都是一些软件工程师为 ...
- 机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理)
前言: 找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可以考虑考 ...
- 机器学习&数据挖掘笔记_25(PGM练习九:HMM用于分类)
前言: 本次实验是用EM来学习HMM中的参数,并用学好了的HMM对一些kinect数据进行动作分类.实验内容请参考coursera课程:Probabilistic Graphical Models 中 ...
- 机器学习&数据挖掘笔记_24(PGM练习八:结构学习)
前言: 本次实验包含了2部分:贝叶斯模型参数的学习以及贝叶斯模型结构的学习,在前面的博文PGM练习七:CRF中参数的学习 中我们已经知道怎样学习马尔科夫模型(CRF)的参数,那个实验采用的是优化方法, ...
- 机器学习&数据挖掘笔记_22(PGM练习六:制定决策)
前言: 本次实验是将一些简单的决策理论和PGM推理结合,实验内容相对前面的图模型推理要简单些.决策理论采用的是influence diagrams,和常见图模型本质一样, 其中的决策节点也可以用CPD ...
随机推荐
- transition过渡2D、3D效果
过渡(transition)是CSS3中具有颠覆性的特征之一,我们可以在不使用 Flash 动画或 JavaScript 的情况下,当元素从一种样式变换为另一种样式时为元素添加效果. 帧动画:通过一帧 ...
- Redis sentinel.conf配置文件详解
redis-sentinel.conf配置项说明如下: 1.port 26379 sentinel监听端口,默认是26379,可以修改. 2.sentinel monitor <master-n ...
- Pandas中Series与Dataframe的初始化
(一)Series初始化 1.通过列表,index自动生成 se = pd.Series(['Tom', 'Nancy', 'Jack', 'Tony']) print(se) 2.通过列表,指定in ...
- 《手把手教你》系列技巧篇(六十五)-java+ selenium自动化测试 - cookie -下篇(详细教程)
1.简介 今天这一篇,宏哥主要讲解:利用WebDriver 提供可以读取.添加和删除cookie 信息的相关操作方法.验证浏览器中是否存在某个cookie.原因是:因为基于真实的cookie 的测试是 ...
- PHP面试常考之会话控制
你好,是我琉忆,欢迎您来到PHP面试专栏.本周(2019.2-25至3-1)的一三五更新的文章如下: 周一:PHP面试常考之会话控制周三:PHP面试常考之网络协议周五:PHP面试常考题之会话控制和网络 ...
- 《PHP程序员面试笔试真题解析》——新书上线
你好,是我--琉忆.很高兴可以跟你分享我的新书. 很高兴,在出版了PHP程序员面试笔试宝典后迎来了我的第二本书出版--<PHP程序员面试笔试真题解析>. 如果你是一个热爱PHP的程序员,刚 ...
- Dubbo基础之四管理控制台 dubbo-admin
Dubbo提供一个重要功能就是服务治理(SOA governance),什么是服务治理呢?企业为了确保项目顺利完成而实施的过程,需要进行各方面的管理.服务治理就是用来管理SOA的采用和实现的过程. 服 ...
- 关于 Xcode 更新 appleID 更换
可能不少人会遇到 前一位同事走之后,他的 appID帐号下载的东西更新不了 下面给予大家一个解决办法 例如 Xcode 1.打开引用程序目录 2.找到Xcode,右键"显示包内容&quo ...
- 实测Tengine开源的Dubbo功能
本文已收录 https://github.com/lkxiaolou/lkxiaolou 欢迎star. 搜索关注微信公众号"捉虫大师",后端技术分享,架构设计.性能优化.源码阅读 ...
- Dapr 助力应用架构的可持续性
在文章亚马逊可持续软件工程实践[1] 有这么一段我们为什么要关注"可持续发展": 联合国于 2015 年制定了一个全球框架<巴黎协定>[2],随后各缔约国纷纷制定了&q ...