关于DM的一点总结[ZZ]
用IBM的IM做过一段时间的电信客户挖掘
由于时间不是很长,做的挖掘模型效果还有待提高
应朋友要求简单总结几点(水平有限,也希望经验丰富的朋友给些建议):
1、挖掘工具主要分商业数据产品和集成数据挖掘产品两类:商业数据挖掘产品具有代表性的SPSS Clementine,SAS Enterprise Miner,IBM Intelligent Miner;SQL Server2005属于集成了挖掘模型类的,挖掘算法与SQL数据库产品密不可分,你甚至可以把自己实现的数据挖掘算法跟SQL进行集成,Oracle也类似,DB2的BI功能没怎么用,不是很清楚。
2、数据挖掘过程的重点绝对是数据预处理,一般认为预处理工作会占60%-80%时间不等,为什么预处理会如此重要,大家都知道garbage in garbage out的道理,这在整个BI领域都是成立的。商业智能-既然提到智能层面,那就不只是展现,还要做分析和预测(不过现阶段很多BI项目确实只是在做展现,最多加点多维分析)。BI概念提出之初就是辅助战略决策的产物,当然向操作型BI发展的趋势这里不做过多介绍,经验告诉我们战略决策是基于历史和别人现成经验的,怎样从历史数据的展现和分析过程中得到有用知识,不管你是通过报表或多维分析得到企业各领域指标相关性,还是通过挖掘模型的实施来根据历史数据预测企业未来发展,这一切都是基于企业历史数据的。没有数据质量基础的保证,展现得多华丽的走势图表都是垃圾。
(1)如果是基于数据仓库或者数据集市的挖掘,那么可直接在仓库或者数据集市中建立挖掘模型源输入(也可叫临时宽表,这个表是根据挖掘业务需求对其他维度表属性的一个综合提取,合适的时间窗口在这里是个要考虑的关键因素);如果是没有仓库或集市这一数据基础,那么就需要一个针对挖掘业务需求字段属性的简单ETL过程了。
(2)上面只是挖掘源数据的建立,接下来才进入数据预处理的核心阶段,由于源数据(临时宽表)里面很多数据是有偏差的,比如空值,错误值,异常值等...这就需要根据每个业务字段属性的规范标准来进行处理,这步是一个繁杂的工程,数据预处理技术各式各样,比较有代表性的有数据清理、数据集成、数据变换、数据归约、离散化和概念分层等等;而且针对不同字段数据特征,不同的数据处理技术往往会导致挖掘的结果差异。虽然商业数据挖掘产品都提供了常用的数据预处理技术,但要用好,除了需要一些统计学,数据分布等知识外,对该字段对应的业务理解和挖掘过程的数据预处理方法差异的经验积累才是关键因素。就拿属性归约来将,很多挖掘产品有因子分析工具,貌似可以自动对所有属性字段做一个挖掘相关重要性因素从大大小的排序,但这也不能全信,毕竟工具是死的,它只能从数据本身的数理特征去理解和自动分析,例如有些业务字段可能数据分布的特征不符合因子分析的重要性条件,但对该数据挖掘模型贡献确是很大的。这样的情况虽说不多,却是值得注意的地方。
3、经过上面两步,挖掘模型数据输入算是初步建立起来了。接下来需要对所应用的挖掘模型有个初步理解,有朋友赞成挖掘模型是“黑匣子”的观点,有朋友赞成需要对挖掘模型的专业理解。我保持中庸的观点:如果不是做算法研究的朋友,只是做挖掘模型应用,却需要对挖掘模型算法有专业理解是不现实的,毕竟公司讲的效益和效率,不像是在实验室,有的是时间让你查资料,折腾进而对模型有个深入全面的理解;但完全黑匣子也是不妥的,一个对该挖掘模型完全不理解的人,指望能利用该模型挖掘出有用知识是不可能的。一是他不可能对挖掘结果有很好的理解;二是参数的调整是最大障碍,挖掘过程本来就是迭代过程,对算法完全不了解的参数设置乱设一通就指望得出较优模型更是天方夜潭。个人认为对挖掘模型大致原理是有必要了解的,再就是每个参数的范围及所代表的意义和对模型所起作用也是需要了解的。
4、数据规模也是个关键因素,训练数据,测试数据,验证数据?训练数据是选连续五个月加起来10万条记录,还是选连续三个月加起来6万条记录;测试数据是选两个月加起来2万条记录还是只选一个月?如果一个月数据就有几十万条记录,那么采取那种方式抽取几万条记录,是随机取还是写个简单选择算法?10万条记录挖掘模型跑了一晚上才出来结果,用5万条记录跑出来效果跟用10万条记录的差异大不大?抽取几千条记录完全可以用统计模型实现,为什么还要抽取上万记录用复杂的挖掘模型呢?这些因素很难说有个统一标准,相信很多人还是相信自己的经验多一点,像我等菜鸟们也只能指望经验丰富的老鸟们多出几本数据挖掘指南了。
5、不管是需求分析还是挖掘模型的评估及应用,和业务人员和决策者们的充分沟通交流是完全必要的。闭们造车的数据挖掘模型是脆弱的...
关于DM的一点总结[ZZ]的更多相关文章
- 对数据预处理的一点理解[ZZ]
数据预处理没有统一的标准,只能说是根据不同类型的分析数据和业务需求,在对数据特性做了充分的理解之后,再选择相关的数据预处理技术,一般会用到多种预处理技术,而且对每种处理之后的效果做些分析对比,这里面经 ...
- VC++动态链接库(DLL)编程深入浅出(zz)
VC++动态链接库(DLL)编程深入浅出(zz) 1.概论 先来阐述一下DLL(Dynamic Linkable Library)的概念,你可以简单的把DLL看成一种仓库,它提供给你一些可以直接拿来用 ...
- 那些证书相关的玩意儿(SSL,X.509,PEM,DER,CRT,CER,KEY,CSR,P12等)[zz]
openssl dgst –sign privatekey.pem –sha1 –keyform PEM –c c:\server.pem 将文件用sha1摘要,并用privatekey.pem中的私 ...
- Android2.2快速入门 zz
http://www.cnblogs.com/over140/archive/2010/09/27/1836567.html 前言 这是前段时间用于公司Android入门培训的资料,学习Android ...
- Python 正则表达式指南 zz
zz http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html 1. 正则表达式基础 1.1. 简单介绍 正则表达式并不是Python的一 ...
- 財哥面京东dm的经历【帮財哥发的】
关于面京东,感触仅仅有一个,虐的快吐血了.首先说京东分四个板块,有京东商城.京东金融.京东刚收购的拍拍和海外事业部.我这个职位主要是在金融部数据组做数据挖掘和机器学习,还有推荐系统.面试是在周 ...
- DM二维码识别库DMDECODER的使用--MFC例程
DM码和QR码是当今比较主流的二维码,其中QR码容量大,容量密度为16kb,DM码容量要小一点,可在仅仅25mm²的面积上编码30个数字,但是DM码的容错率更高,所以实际的工业生产中经常使用DM码作为 ...
- OSGI引入Spring DM实现对服务对象的管理
一.异同 熟悉Spring的应该也都了解它的IOC的功能,那么对于在OSGI开发环境下,在使用IOC功能时有什么不同呢?最重要的一点就是Spring上下文对象,每个Spring-Powered Bun ...
- UVALive - 6837 Kruskal+一点性质(暴力枚举)
ICPC (Isles of Coral Park City) consist of several beautiful islands. The citizens requested constru ...
随机推荐
- Drools引擎学习
首先上一段话: 为提高效率,管理流程必须自动化,即使现代商业规则异常复杂.市场要求业务规则经常变化,系统必须依据业务规则的变化快速.低成本的更新.为了快速.低成本的更新,业务人员应能直接管系统中的规则 ...
- Spark SQL利器:cacheTable/uncacheTable
Spark相对于Hadoop MapReduce有一个很显著的特性就是“迭代计算”(作为一个MapReduce的忠实粉丝,能这样说,大家都懂了吧),这在我们的业务场景里真的是非常有用. 假设我们有 ...
- 网络流(最大流)CodeForces 512C:Fox And Dinner
Fox Ciel is participating in a party in Prime Kingdom. There are n foxes there (include Fox Ciel). T ...
- ORA-00313错误 及其 解决方法
ORA-00313: open failed for members of log group 1 of thread 1 ORA-00312: online log 1 thread 1: 'D:\ ...
- Linux学习笔记12——Unix中的进程
通过调用fork和exec函数都能创建新的进程,但两者有着本质的区别:fork函数拷贝了父进程的内存映像,而exec函数用用新的映像来覆盖调用进程的进程映像的功能. 一 fork函数 #includ ...
- Qt 与 JavaScript 通信
使用QWebView加载网页后,解决Qt与JavaScript通信的问题: The QtWebKit Bridge :http://qt-project.org/doc/qt-4.8/qtwebkit ...
- vimium快捷键列表
最近越来越懒了,不想拿手去碰鼠标,就想这样放在键盘上,在MacOSX下基本的操作也都能实现了,Xcode也没什么问题,现在就是有个地方十分不方便,就是浏览网页的问题,不管怎么样都是需要鼠标来浏览网页, ...
- lightoj 1032 二进制的dp
题目链接:http://lightoj.com/volume_showproblem.php?problem=1032 #include <cstdio> #include <cst ...
- Using QEMU for Embedded Systems Development
http://www.opensourceforu.com/2011/06/qemu-for-embedded-systems-development-part-1/ http://www.opens ...
- Installing scikit-learn
Installing scikit-learn http://scikit-learn.org/stable/install.html Installing scikit-learn There ar ...