首页
Python
Java
IOS
Andorid
NodeJS
JavaScript
HTML5
数据挖掘导论 处理概念分层 笔记
2024-11-04
<数据挖掘导论>读书笔记6关联分析的高级概念
处理联系属性: 基于离散化的方法 基于统计学的方法 非离散化方法 处理概念分层 定义在一个特定领域的各种实体或者概念的多层组织.概念分层可以用有向无环图DAG来标示. 序列模式 可选计数方案 COBJ CWIN CMINWIN CDIST_O CDIST 子图模式
《SAS编程和数据挖掘商业案例》学习笔记# 19
继续<SAS编程与数据挖掘商业案例>学习笔记,本文側重数据处理实践.包含:HASH对象.自己定义format.以及功能强大的正則表達式 一:HASH对象 Hash对象又称散列表,是依据关键码值而直接进行訪问的数据结构.是依据关键码值而直接进行訪问的数据结构. sas提供了两个类来处理哈希表.用于存储数据的hash和用于遍历的hiter,hash类提供了查找.加入.改动.删除等方法,hiter提供了用于定位和遍历的first.next等方法. 长处:键值的查找是在内存中进行的,有利于提高性能:
《SAS编程与数据挖掘商业案例》学习笔记之十五
继续<SAS编程与数据挖掘商业案例>读书笔记,本次重点:输出控制 主要内容包含:log窗体输出控制.output窗体输出控制.ods输出控制 1.log窗体输出控制 将日志输出到外部文件 proc printto log= "f:\data_model\book_data\chapt9\newlog.txt"; new; proc print data=sashelp.class; proc printto;run; 2.output窗体输出控制 输出sas数据集到外部文件
《SAS编程与数据挖掘商业案例》学习笔记之十六
<SAS编程与数据挖掘商业案例>学习笔记,本次重点:sas宏变量 内容包含:宏变量.宏函数.宏參数.通配函数.字符函数.计算函数.引用函数.宏语句.宏应用 1.宏触发器: %name-token:是一个宏语句或宏函数 &name-token:是一个宏变量引用 宏变量不依赖于sas数据集,能够在不论什么一个除数据行以外的地方定义和引用宏变量,一般定义的宏变量为局部变量,除非使用%global,定义宏变量用%let,显示宏变量用%put,调用宏变量用&. eg: %let a=xx
<数据挖掘导论>读书笔记5关联分析的基本概念和算法
关联规则的强度可以用support度和confidence(置信)度来度量 关联规则发现 给定事务的集合T,关联规则发现是指找出支持度大于等于minsup并且置信度大于等于minconf的所有规则,其中minsup和minconf是对应的支持度和置信度阈值. 关联规则挖据 频繁项集产生:其目标是发现满足最小支持度阈值的所有项集,这些项集称作频繁项集 规则的产生:其目标是从上一步发现的频繁项集中提取所有高置信度的规则,这些规则称之为强规则. 算法与数据结构 Apriori DIC 树投影 FP树
<数据挖掘导论>读书笔记10聚类分析续
基于原型的聚类 模糊c均值使用模糊逻辑和模糊集合论的概念,提出一种聚类方案,它很像K均值,但是不需要硬性地将对象分派到一个簇中.模糊c均值算法有时也称为FCM 混合模型聚类采取这样的访谈,簇集合可以用一个混合分布建模,每个分布对应一个簇.EM(Expectation-Maximization)期望最大化算法 基于自组织映射SOM的聚类方法在一个框架内进行聚类,该框架要求簇具有预先指定的相互联系.SOFM/SOM 基于密度的聚类 基于网格的聚类,其基本思想是将每个属性的可能值分割成许多相邻的区间,
<数据挖掘导论>读书笔记3--分类
1.分类的基本概念 分类任务就是通过学习得到一个目标函数f,把每个属性集x映射到一个预先定义的类标号y 目标函数也称为分类模型. 2. 解决分类问题的一般方法: 决策树分类法 基于规则的分类法 神经网络 支持向量机 朴素贝叶斯分类法 3.决策树归纳 通常采用贪心策略,在选择划分数据的属性时,采用一系列局部最优决策来构造决策树,hunt算法就是一种这样的算法. Hunt算法是许多决策树算法的基础,包括ID3,C4.5,CART等 决策树归纳的设计问题 如何分裂训练记录?选择最佳划分的度量,增益是一
<数据挖掘导论>读书笔记11异常检测
异常检测的目标是发现与大部分其他对象不同的对象.通常,异常对象被称作离群点(Outlier). 异常检测也称偏差检测(Deviation detection),因为异常对象的属性值明显偏离期望的或者常见的属性值. 异常检测也称为例外挖掘,因为异常在某种意义上是例外的. 应用场景: 欺诈检测 入侵检测 生态系统失调 公共卫生 医疗 异常检测方法 基于模型的技术 基于邻近度的技术 基于密度的技术 统计方法: 检测一元正态分布中的离群点,常用方法是高斯正态分布 多元正态分布的离群点,Mahalanob
<数据挖掘导论>读书笔记9聚类分析
1. 聚类分析仅根据在数据中发现的描述对象及其关系的信息,将数据对象分组. 其目标是组内的对象相互之间是相似的或者相关的,而不同组中的对象是不同的或者不相关的. 2.聚类分析的重要技术 K均值:K均值是基于原型的.划分的聚类技术.它试图发现用户指定个数k的簇(由质心代表) 邻近度函数 质心 目标函数 曼哈顿距离L1 中位数 最小化对象到其簇质心的L1距离和 平方欧几里得距离L2平方 均值 最小化对象到其簇质心的L2距离的平方和 余弦 均值 最大化对象与其簇质心的余弦相似度和 Bregman散度
<数据挖掘导论>读书笔记8FP树
1FP树
<数据挖掘导论>读书笔记7 Apriori算法
Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法.其核心是基于两阶段频集思想的递推算法.该关联规则在分类上属于单维.单层.布尔关联规则.在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集 该算法的基本思想 是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样.然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度.然后使用第1步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定义.一
<数据挖掘导论>读书笔记4--其他分类技术
1.基于规则的分类器 2.最近邻分类器 3.贝叶斯分类器 4.人工神经网络 5.支持向量机 6.组合方法 7.不平衡类问题 8.多类问题
<数据挖掘导论>读书笔记2
1.频率和众数 frequency(vi)=具有属性值vi的对象数/m 分类属性的众数mode是具有最高频率的值. 2.百分位数 3.位置度量:均值和中位数 4.散布度量:极差和方差 绝对平均偏差 AAD:absolute average deviation 中位数绝对偏差MAD:median absolute deviation 四分位数极差IQR:interquartile range 5.多元汇总统计 6.汇总数据的其他方法:倾斜度
<数据挖掘导论>读书笔记1
数据预处理: 1.聚集:将两个或者多个对象合并成单个对象. 2.抽样:一种选择数据对象子集进行分析的常用方法.抽象方法:简单随机抽样 和渐进抽样 3.维度约:我觉得翻译的不好,英文明细是降维.降维技术:1.PCA(Principal components Analysis)是一种用于连续属性的线性代数技术,它找出新的属性,这些属性是原属性的线性组合,是相互正交的,并且捕获了数据的最大变差.2.SVD(Singular Value Decomposition) 4.特征子集选择 a:嵌入方法 b:
《SAS编程与数据挖掘商业案例》学习笔记之十八
接着曾经的<SAS编程与数据挖掘商业案例>,之前全是sas的基础知识,如今開始进入数据挖掘方面笔记,本文主要介绍数据挖掘基本流程以及应用方向,并以logistic回归为例说明. 一:数据挖掘综述 衡量一个数据挖掘模型价值的唯一标准就是商业目标,为达到一个商业目标.有非常多种方法.仅仅有高效解决商业目标的方法才是最牛的方法.即使是看似简单的方法,仅仅要能高效解决商业目标,我们就觉得是牛的方法: 面对海量的数据,即使是使用了最先进的工具,最复杂的算法.可是假设挖掘出来的知识是没用的,或者挖掘的结果
入坑-DM导论-第一章绪论笔记
//本学习笔记只是记录,并未有深入思考. 1.什么是数据挖掘? 数据挖掘是数据库中发现必不可少的一部分. 数据预处理主要包括(可能是最耗时的步骤): 1.融合来自多个数据源的数据 2.清洗数据以消除噪声和重复的观测值 3.选择与当前数据挖掘任务相关的记录和特征. 2.数据挖掘要解决的问题 1.可伸缩性:面对海量数据,算法必须是可伸缩的.例如:当药不能处理的数据放入内存的时候,需要非内存算法:使用抽样技术或者开发并行和分布算法也可提高伸缩性. 2.高维性:具有成百上千的属性的数据集也很常见,比如基
《SAS编程与数据挖掘商业案例》学习笔记之十七
继续读书笔记,本次重点sas sql语句,因为sql内容多且复杂,本文仅仅介绍商业应用中经常使用的而且easy出错的地方,内容包含:单表操作.多表关联.子查询以及merge和join的差别 1.单表操作 eg1: Proc sql outobs=10. *可选项,功能类似于data步中的obs数据集选项 create table class as Select name, case when sex eq 'M' then "1" when sex eq 'F' then &quo
Elasticsearch介绍,一些概念的笔记
Elasticsearch,分布式,高性能,高可用,可伸缩的搜索和分析系统 什么是搜索? 如果用数据库做搜索会怎么样? 什么是全文检索和Lucene? 什么是Elasticsearch? Elasticsearch的功能 什么是搜索 提供一种数据提取的服务 垂直搜索(站内搜索) 互联网的搜索:电商网站,招聘网站,新闻网站,各种app IP系统的搜索:OA软件,会议管理,日程管理,项目管理,员工管理,搜索"张三", 如果用数据库做搜索会怎么样? 当如果你用电商系统搜索的时候 select
《数据挖掘导论》实验课——实验七、数据挖掘之K-means聚类算法
实验七.数据挖掘之K-means聚类算法 一.实验目的 1. 理解K-means聚类算法的基本原理 2. 学会用python实现K-means算法 二.实验工具 1. Anaconda 2. sklearn 3. matplotlib 三.实验简介 1 K-means算法简介 k-means算法是一种聚类算法,所谓聚类,即根据相似性原则,将具有较高相似度的数据对象划分至同一类簇,将具有较高相异度的数据对象划分至不同类簇.聚类与分类最大的区别在于,聚类过程为无监督过程,即待处理数据对象没有任何先验
《数据挖掘导论》实验课——实验四、数据挖掘之KNN,Naive Bayes
实验四.数据挖掘之KNN,Naive Bayes 一.实验目的 1. 掌握KNN的原理 2. 掌握Naive Bayes的原理 3. 学会利用KNN与Navie Bayes解决分类问题 二.实验工具 1. Anaconda 2. sklearn 三.实验简介 1. KNN KNN(K-Nearest Neighbor)工作原理:存在一个样本数据集合,也称为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类对应的关系.输入没有标签的数据后,将新数据中的每个特征与样本集
热门专题
eclipse properties换成yml
分布式环境如何保存session和cookie
Linux ip与主机名之间的映射 hostname
postsql分组获取最新时间的数据
jenkins api 触发任务 任务id
surfaceView实现视频播放全屏
javafx 依赖库okhttp
uniapp开发小程序使窗口高度填满整个屏幕
openfoam热物性
DisplayPath算法
zabbix for windows下载
配置apache url重写不是跳转
unity magnitude翻译
js请求传参为什么要用formData
node 版本太高 之前项目起不来
sql关联查询的字段值为null是什么问题
wpf openfiledialog打开指定路径文件
.c文件和.sh文件区别
excel编辑栏字体放大
修改sh脚本执行权限