之前看了认识数据以及数据的预处理,那么,处理之后的数据放在哪儿呢?就放在一个叫“数据仓库”的地方. 数据仓库的基本概念: 数据仓库的定义——面向主题的.集成的.时变的.非易失的 操作数据库系统VS数据仓库——为什么需要使用数据仓库分析数据(OLAP  VS  OLTP) 数据仓库体系结构——三层体系结构:底层(数据仓库服务器)——中间层(OLAP服务器)——顶层(前段工具) 三种数据仓库模型 企业模型 数据集市(只针对某一部门) 虚拟仓库 元数据库——关于数据的数据 理解OLAP,数据仓库,数据…
从<数据挖掘概念与技术>到<Web数据挖掘> 认真读过<数据挖掘概念与技术>的第一章后,对数据挖掘有了更加深刻的了解.数据挖掘是知识发展过程的一个步骤.知识发展的过程可以分为:数据清洗(去噪和去除不一致数据).数据集成(多个数据源组合在一起).数据选择(从数据库中提取和分析与任务相关的数据).数据变换(汇总.聚集,变成统一形式).数据挖掘(智能方法提取数据模式).模式评估(根据兴趣度度量.识别代表知识的真正有趣的模式).知识表示(使用可视化和知识表示技术,向用户提供挖掘…
该系列文章: 深入探索Android热修复技术原理读书笔记 -- 热修复技术介绍 深入探索Android热修复技术原理读书笔记 -- 代码热修复技术 1 普遍的实现方式 Android资源的热修复,就是在app不重新安装的情况下,利用下发的补丁包 直接更新本app中的资源. 目前市面上的很多资源热修复方案基本上都是参考了 Instant Run的实现. 简要说来,Instant Run中的资源热修复分为两步: 构造一个新的 AssetManager,并通过反射调用 addAssetPath,把这…
在前一篇文章 深入探索Android热修复技术原理读书笔记 -- 热修复技术介绍中,对热修复技术进行了介绍,下面将详细介绍其中的代码修复技术. 1 底层热替换原理 在各种 Android 热修复方案中,Andfix 的即时生效令人印象深刻,它稍显另类, 并不需要重新启动,而是在加载补丁后直接对方法进行替换就可以完成修复,然而它的使用限制也遭遇到更多的质疑. 1.1 Andfix 回顾 我们先来看一下,为何唯独 Andfix 能够做到即时生效呢? 原因是这样的,在 app 运行到一半的时候,所有需…
本文转载自:http://www.cnblogs.com/hbsygfz/p/4762085.html 1. 引言 本篇主要介绍数据仓库中的一项重要分析技术——联系分析处理(OLAP). 在第一篇笔者介绍到数据处理主要有两种,操作型数据处理和分析型数据处理,前者可以称为OLTP,后者可以称为OLAP.本篇将具体介绍什么是OLAP?它与OLTP的区别是什么?多维数据模型和多维分析操作是OLAP中的两种核心技术,也会予以说明. 2. OLAP定义 联机分析处理(Online Analysis Pro…
1.基于规则的分类器 2.最近邻分类器 3.贝叶斯分类器 4.人工神经网络 5.支持向量机 6.组合方法 7.不平衡类问题 8.多类问题…
在大型商场,医院或是大楼里,你是否曾经有过找不到想去的地方的经历呢?这种情况下采用传统的定位方法就有些力不从心了.首先这些地方不能采用GPS定们,而Wifi和蜂窝式移动电话基站定位误差比较大.这种情况下的定位就叫”微定位“技术 . 微定位技术中一个比较重要的概念-地理围栏.地理围栏是LBS的一种新应用,就是用一个虚拟的栅栏围出一个虚拟地理边界.当手机 进入,离开某个特定地理区域,或在该区域内活动时,手机可以接收自动通知和警告.有了地理围栏技术,位置社交网站主可以帮助用户进入某一地区时自动登记.…
 ECMAScript 中的基本数据类型包括Undefined.Null.Boolean.Number 和String. 与其他语言不同,ECMScript 没有为整数和浮点数值分别定义不同的数据类型,Number 类型可用于表示所有数值. ECMAScript 中也有一种复杂的数据类型,即Object 类型,该类型是这门语言中所有对象的基础类型. 严格模式为这门语言中容易出错的地方施加了限制. ECMAScript 提供了很多与C 及其他类C 语言中相同的基本操作符,包括算术操作符.…
1.数据采集 对于数据采集主要分为三类,即结构化数据库采集,日志和文件采集,网页采集. 对于结构化数据库,采用Sqoop是合适的,可以实现结构化数据库中数据并行批量入库到hdfs存储.对于网页采集,前端可以采用Nutch,全文检索采用lucense,而实际数据存储最好是入库到Hbase数据库.对于日志文件的采集,现在最常用的仍然是flume或chukwa,但是我们要看到如果对于日志文件数据需要进行各种计算处理再入库的时候,往往flume并不容易处理,这也是为何可以采用Pig来做进一步复杂的dat…
1. 论数据立方体预计算的多种策略的优弊 (1)计算完全立方体:需要耗费大量的存储空间和不切实际的计算时间. (2)计算冰山立方体:优于计算完全立方体,但在某种情况下,依然需要大量的存储空间和计算时间. 因为冰山立方体的确定在于最小支持度的确定,所以例如:如果基本立方体单元(a1,.....a60)则,他将至少产生2的60次方个冰山立方体单元:另外最小支持度这个值是难于确定的,小的话将导致巨大的立方体,大的话可能无法用于许多有意义的运用.在实际运用的过程中,应用数据随时间的变化不断增加,之前剪枝…