数据挖掘学习指引<一>
对于当前热门的大数据、云计算等技术,被百度、阿里等国内互联网巨头炒的非常火,数据挖掘作为一门非常有用的技术,在商业管理、市场分析、科学计算等大数据方面发挥着大作用。
数据挖掘技术也变得非常火,why?
1、数据挖掘作为市场营销的一个手段,能够将潜在的商业信息捕获。指商业公司依据客户曾经的消费记录,预測消费者的喜好、兴趣,能够开展定向营销。以促进两方赢利。典型的尿片+beer组合就不说了;比如,银行系统能够依据客户突然的大范围消费,能够预測该客户可能买房、结婚等,进而向楼盘、婚庆所介绍生意等。
2、数据挖掘能够为决策者提供知识。数据非常大,知识非常少;在数据库中保存的巨大数据,怎样利用这些数据,寻找客户消费、分类等潜在的规律。这个优势在电信、银行、超市等行业有非常多体现。
比如,某国电信公司将10年的国民打电话数据发给研究机构。以制定出合适的电话收费方案和管理政策。
随着电子商务、股票系统、信用卡交易等商业范畴内的大数据兴起。数据挖掘在发现新知识以提供定制的客户关系管理(CRM)。
简介了数据挖掘的几个实际应用案例后,什么是数据挖掘?
data mining。是指从巨大的数据集中发掘实用的、新鲜的、可理解的模型。data mining通过数据库、机器学习(贝叶斯分类器、决策树等)、数理统计、神经网络等多学科的理论、规则来实现的。
掌握数据挖掘。须要了解数据挖掘的几种模型和数据库类型。
1、关联规则:从数据库中找到高频出现的属性组或项目组。比如,beer和尿布。badminton 和 battledore等。
2、分类器:从数据训练建立分类器,输入新数据进行分类。比如。决策树等。在信用卡评估中银行依据记录的客户信用卡交易、借贷偿还等数据评估信用等级。
3、聚类(clustering):将数据集分组。使得组内元素间有非常高的相似性,组间无相似性。比如,电商通过客户浏览相似商品推断客户的分类,通过推断生物特征进行物种分类。
4、顺序挖掘:依据非常多个序列,找到高频发生的子序列。比如。商家卖给你一台电脑,可能9个月后会推荐给你一台打印机或者路由器。
5、异常检測:给出n个点,发现某个点k的值超过范围。k点具有异常性。
数据挖掘,前提是大数据。从海量数据中发现模型和知识,所以模型建立的基础必须基于数据。而各种各样的数据类型,即为数据挖掘带来了发展空间又带来了挑战。如今介绍数据挖掘中常见的几种数据类型:
1、关系型数据库中的链表。题外话,关系型数据管理系统能简单提供数据查询,可是并不能带来很多其它的知识。
2、数据仓库。
数据仓库是将数据库中的数据进行清理、集成,为数据挖掘建立模型提供源数据。
3、空间数据。比如遥感卫星採集的地图信息、集成电路的pcb设计与检測等
4、图。多媒体。文本数据库等。
数据挖掘尽管发展非常成熟,可是了解这门技术最新的发展方向和遇到的挑战、改进的地方也非常有必要。
1、数据挖掘高性能、高移植性的算法发现。
经典算法的使用难道几十年都不变?
2、与用户的交互性改进。数据库技术有专门的数据查询语言SQL。数据挖掘能发展出一门语言吗?
3、数据挖掘结果的可视化。
很多其它的专业技术的探讨和研究能够參考数据挖掘的国际会议与期刊,比如 IEEE ICDM,PKDD,ACM data mining and knowledge discovery。
数据仓库和OLAP技术
数据仓库是数据挖掘的处理对象,在做数据分析时,须要从海量的数据库中汇合数据,集成后变成数据仓库。然后利用数学分析和建立模型来分析数据,然后得到知识应用于决策分析。所以数据仓库具有集成、面向主题的特征。差别于面向事务的数据库。数据库考虑的是事务流处理,建立一个表,每一个属性代表着解决事物的详细意义,数据仓库是集成不同源的数据库。通过模型分析。找到具有某种内在联系的规律或者分类。
OLTP和OLAP是分别针对DBMS和DM提出来的在线处理,OLTP实时处理事务。比如顾客注冊、图书登记、商品上架等。OLAP则是利用模型处理过去某段时间里的数据集。
前面讲了这么多数据仓库和数据库的差别与联系,怎么建立数据仓库呢?以下要介绍的是从表和电子表格中建立数据立方块(data cube)。
data cube。是数据仓库中的多维数据模型,方便做统计与分析。不同的维代表着不同的item,能够roll up 和drill down来累加某个维度上的数据。
数据仓库的概念模型(conceptual modeling),主要有三种:star schema、snowflake schema、fact constellation,也就是星型模型、雪花模型、星座模型,这些模型的建立就像各自的外在表现一样,星型模型呈中心发散状,雪花模型呈末端发散状,星座模型呈多个雪花状相互联系的状态。
重要的是数据仓库不仅包括schema中每一个维度的item。还包括对这些维的操作(measures)。
数据预处理,是构建数据仓库的重要环节。包括数据清理、数据变换、数据降维等。
数据清理。主要是指某些数据无意义、数据缺失、挑选某些属性关联的工作;数据变换,主要指标准化数据,归一化等。数据降维。指某些维数相关的数据能够消去等。
数据挖掘学习指引<一>的更多相关文章
- Swift 学习指引
以下指引是基于最新的 Swift 4.0 为基础为而言. 如你在参考3.0以下版本, 那你就不要说你会 Swift, 3.0 之前是 Objective-C 的搬迁(80%),是不成熟的语言, 看着很 ...
- erlang工作前新手学习指引路线
Erlang学习总结,新手指引 要具体的写erlang入门技术网上有非常多,我写的肯定没有那些大牛写的好,自己也实习了快一个月,也做一个总结,给后erlang初学兴趣者提供些拙见吧 第一步搭建学习环境 ...
- MySQL学习指引
mysql指引 1,mysql基本安装 2,mysql多实例安装与维护 3,备份恢复 备份数据库 分备数据库 分备表 恢复数据库
- 数据挖掘学习笔记--AdaBoost算法(一)
声明: 这篇笔记是自己对AdaBoost原理的一些理解,如果有错,还望指正,俯谢- 背景: AdaBoost算法,这个算法思路简单,但是论文真是各种晦涩啊-,以下是自己看了A Short Introd ...
- acm学习指引
acm学习心得及书籍推荐 一般要做到50行以内的程序不用调试.100行以内的二分钟内调试成功.acm主要是考算法的,主要时间是花在思考算法上,不是花在写程序与debug上. 下面给个计划练练: 第 ...
- Python基本数据类型与数据结构(数据挖掘学习)
前言 最近工作和研究涉及到数据挖掘和机器学习,出于归纳和总结知识的目的写下这一系列的文章,这一系列文章将会包括Python的基本数据类型和数据结构,函数和面向对象相关的知识,然后会介绍数据挖掘和机器学 ...
- JUnit5注解学习指引
注解(Annotations)是JUnit的标志性技术,本文就来对它的20个注解,以及元注解和组合注解进行学习. 20个注解 在org.junit.jupiter.api包中定义了这些注解,它们分别是 ...
- oracle 职业学习指引
风哥 它是阿里巴巴造出的概念.其本意是,在阿里巴巴的IT架构中,去掉IBM的小型机.Oracle数据库.EMC存储设备,代之以自己在开源软件基础上开发的系统. 思科.IBM.谷歌.高通.英特尔.苹果. ...
- 数据挖掘学习笔记:挖掘频繁模式、关联和相关[ZZ]
所 谓挖掘频繁模式,关联和相关,即指在出现的数据集中找到一个经常出现的序列模式或者是一个经常出现的数据结构.就像搞CPU设计的人知道,Cache的预 取机制有流预取和指针预取,前者就是发现流模式,即发 ...
随机推荐
- 51nod1821 最优集合 贪心
首先考虑一个集合的最大优美值怎么求出 考虑新增一个数,假设我们现在的优美值已经达到了$V$,那么只需要一个$[1, V + 1]$的数就可以使$V$达到更大 为了保证能添加尽可能多的数进来,我们这么构 ...
- Codeforces Round #348 (VK Cup 2016 Round 2, Div. 2 Edition) B. Little Artem and Grasshopper 模拟题
B. Little Artem and Grasshopper 题目连接: http://www.codeforces.com/contest/669/problem/B Description Li ...
- URAL 1993 This cheeseburger you don't need 模拟题
This cheeseburger you don't need 题目连接: http://acm.timus.ru/problem.aspx?space=1&num=1993 Descrip ...
- CROC 2016 - Elimination Round (Rated Unofficial Edition) C. Enduring Exodus 二分
C. Enduring Exodus 题目连接: http://www.codeforces.com/contest/655/problem/C Description In an attempt t ...
- react-native-image-zoom-viewer学习
github原地址 react-native-image-zoom-viewer实现了类似微信朋友圈浏览图片的效果,点击小图片实现浏览原图效果. 安装: npm i react-native-imag ...
- mysql表前缀
之前一直没明白,mysql有些规范里面,建议建表的时候添加前缀,它的意义究竟是为何.直到最近,我想学习一下Swift的网络请求,于是打算在新浪云新建个项目却发现新浪云免费用户最多只能建立5个项目.于是 ...
- HDU 4681 String(2013多校8 1006题 DP)
String Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65535/32768 K (Java/Others)Total Subm ...
- Mac OS上的远程桌面
最近在做Mac上面的开发,经常在win7和Mac两台电脑上操作,两个键盘,两个鼠标,搞得头都大了,所以干脆把Mac机器远程到win7上面,统一来做,方便些..哈哈!说实话,Mac键盘那些按键真还有点特 ...
- MySQL 一个库中表数量是否有限制?
在网上找了一下,有说几乎没有限制的,也有说表多了肯定会影响性能的,综合起来应该讲: 1)一个库中表数是有限制的, 按照 UNSIGNED 类型,最多42亿多一点,正常应用根本达不到. 2)文件系统 ...
- eclipse安装Run-Jetty-Run插件,修改实时生效
http://marketplace.eclipse.org/content/run-jetty-run 1.直接拖拽到eclipse安装(7/8/9版本都安装) 2.以调试的方式启动jetty( ...