一、简单介绍大数据技术产物

“大数据”一词首先出现在2008年9月《Nature》杂志发表的一篇名为“Big Data: Wikiomics”的文章上(Mitch,2008)。“大数据科学”尚未有统一定义,但是科学家普遍认为它是以海量的多元异构数据为主要研究对象,以大数据的存储、处理和理解方法为主要研究内容,以新兴的计算技术为主要研究工具,以扩展人类对数据的利用能力为主要目标的一门新兴的综合性学科。它主要针对当前海量(volume)、多元(variety)和高速更新(velocity)数据的处理问题,重点研究如何将当前高速发展的计算技术用于数据处理/挖掘、有效地利用数据、从海量多元的数据本身去发现新的知识。

  在存储上,hdfs的分布式存储可以任意水平扩展,可以解决数据存储的难题。

  在计算上,从最初的MapReduce,把任务水平拆分,多台机器并行计算,再汇总结果;

  到基于Spark的内存计算,改造Mapreduce每次数据落盘以及编程方式的痛点。

有了存储和计算框架,周边就衍生出了很多管理、缓存相关的技术,比如:

  • yarn解决多租户资源调度的难题,
  • flume解决数据传输的难题,
  • sqoop解决分布式存储数据与传统DB数据之间的转换,
  • oozie解决了大数据计算任务的调度,
  • kafka提供了发布订阅机制的消息队列,
  • zookeeper可以帮助用户完成主备的选举,
  • hive在hdfs的基础上提供了数仓的功能,
  • hbase则基于hdfs实现列式数据库....

处于大数据时代下的产物:

二、介绍时空大数据

  时空大数据定义:越来越多的数据使世界进入真正的大数据(Big Data)时代,其中大量的与时空位置有关的数据称为时空大数据。比如Uber网约车实时车辆位置,外卖配送等等。

  时空大数据由于其所在空间的空间实体和空间现象在时间、空间和属性三个方面的固有特征,呈现出多维、语义、时空动态关联的复杂性,因此,需要研究时空大数据多维关联描述的形式化表达、关联关系动态建模与多尺度关联分析方法,时空大数据协同计算与重构提供快速、准确的面向任务的关联约束。具体特点包括:

  1)时空大数据包含对象、过程、事件空间、时间、语义等方面的关联关系

  2)时空大数据具有时变、空变、动态、多维演化特点,这些基于对象、过程、事件的时空变化是可度量的,其变化过程可作为事件来描述,通过对象、过程与事件的关联映射,建立时空大数据的动态关联模型

  3)时空大数据具有尺度特性,可建立时空大数据时空演化关联关系的尺度选择机制;针对不同尺度的时空大数据的时空演化特点,可实现对象、过程、事件关联关系的尺度转换与重建,进而实现时空大数据的多尺度关联分析。

  4)时空大数据时空变化具有多类型、多尺度、多维、动态关联特点,对关联约束可进行面向任务的分类分级,建立面向任务的关联约束选择、重构与更新机制,根据关联约束之间的相关性,可建立面向任务的关联约束启发式生成方法。

  5)时空大数据具有时间和空间维度上的特点,实时地抽取阶段行为特征,以及参考时空关联约束建立态势模型,实时地觉察,理解和预测导致某特定阶段行为发生的态势。可针对时空大数据事件理解与预测问题,研究空间大数据事件行为的本体建模和规则库构建,为异常事件的模式挖掘和主动预警提供知识保障,可针对相似的行为特征,时空约束和事件级别来挖掘事件模式并构建大尺度事件及其应对方案的规则库。

  时空大数据一方面具有一般大数据的大规模、多样性、快变性和价值性的特点,另一方面还具有与对象行为对应的多源异构和复杂性、与事件对应的时/空/尺度/对象动态演化、对事件的感知和预测特性。

  目前来看,国际上的时空大数据科学的研究仍处于起步阶段,需要面向具体应用开展深入研究。例如在国防领域,整体态势感知是现代化国防的关键,具有整体获取特性的遥感大数据在国防上意义重大;在气象领域,空间信息是气象预测的基础,能融合时空大数据的气象大数据将为大气环境监测、农业灾害监测提供强有力的支撑;在交通领域,融合了地理位置信息、空间信息的时空大数据将是应急处置的重要决策依据,可以提高应急交通指挥决策的科学性。因此,进一步研究时空大数据表示、度量和理解的基本理论和方法,揭示时空大数据与现实世界对象、行为、事件间的对应规律,将大有可为。

  

三、介绍时空大数据中的基础操作

   1.最近邻查询 (离我最近的人是谁?)

  2.反向最近邻查询 (谁的最近邻查询是我?结果为一个集合)

  3.范围查询(距离我10m范围内都有谁?)

  4.空间集成查询(聚合查询,距离我10m范围内有几个人?

  5.最短路径查询(从沙河到学院路的最短路径)

  6.最优选址查询(麦当劳选址问题)

四、介绍索引结构 

  索引结构R-tree。R-tree结构类似于B树,R-tree是B树在高维空间的扩展,是一棵平衡树。每个R树的叶子结点包含了多个指向不同数据的指针,这些数据可以是存放在硬盘中的,也可以是存在内存中。根据R-tree的这种数据结构,当我们需要进行一个高维空间查询时,我们只需要遍历少数几个叶子结点所包含的指针,查看这些指针指向的数据是否满足要求即可。这种方式使我们不必遍历所有数据即可获得答案,效率显著提高。

  举例说明:

  

其中的矩形是按照Minimum Bounding Rectangle(MBR)进行划分的。其中每个结点最大的子节点数量d可以自定义,并且在上面的例子里设为d=3。

R-tree的一些特性:

  基于磁盘的: 存储在磁盘上,加载需要的部分到内存。
  分页的: 每个节点是一个固定大小的磁盘页 (e.g. 8KB)。
  平衡的: 所有节点距离根节点的距离相等。
  动态的更新: 动态插入/删除。
  叶节点存储: 所有的记录都存在叶子节点中。
  最小容量: 每个节点(除根节点)数据至少占一半空间。

利用R-tree实现范围查询的过程如下:

从根节点开始:

1.若当前节点是非叶子结点,对该节点的每个子节点<E, ptr>进行如下判断:如果E的MBR和Q有重叠,搜索ptr指向的子树。

2.如果当前节点是叶子节点,则返回叶子节点中位于Q内的点。

下图给出阴影部分为查询范围!很直观可以得到在阴影内的点有b和d,下图解释如何利用R-tree完成这一范围查询操作。

    

利用R-tree实现聚合查询的过程如下:

求解算法:

直接想法:先转换成范围查询,然后计数。

更好的想法:对每个index实体都保存对应其子树的聚合的值。

保存每个Index实体子树聚合的数量值,如果当前查询完整包括某个MBR,则将求解的ans加上该部分的Index中保存的数量值。实现剪枝操作,注意这里的剪枝是有前提条件以及相应的操作的!!!(前提条件:MBR属于查询范围Q;相应操作 ans+=MBR‘s Index num)

下面简单介绍R-tree的构建:插入对象

从根节点开始向下查找“最适合”的叶子节点L。
  1,找到插入该节点需要扩大面积最小的子节点。如果有两个这样的节点,则选择MBR面积较小的节点。

如果该叶子节点L有剩余位置,插入o完成操作。否则,将L分裂为L1和L2。
  1,调整L内的对象的范围使L恰覆盖L1。
  2,向L的父节点添加一个子节点覆盖L2(可能会引起父节点的递归分裂)。

 

因此操作可以简化为:

1. 无分裂、无扩大区域

2. 无分裂、需扩大区域

3. 需要分裂

  

L中原有的对象和新插入的实体必须位于L1或L2中。目标是减少L1和L2覆盖区域在随后查询中的重叠程度。思路:以最小化面积为目标重新分配L1和L2的区域。

1. 穷举算法速度慢;
2.可以在平方或者线性时间下获得近似结果。

最近邻查询操作:

  

 反向最近邻查询(RNN)

Skyline点 那些点不能被其他的点dominate( 找skyline点集) 

 参考文献:

 

Big Spatio temporal Data(R-tree Index and NN & RNN & Skyline)的更多相关文章

  1. SQLite R*Tree 模块测试

    目录 SQLite R*Tree 模块测试 1.SQLite R*Tree 模块特性简介 2.SQLite R*Tree 模块简单测试代码 SQLite R*Tree 模块测试 相关参考: MySQL ...

  2. 理解 B*tree index内部结构

    转载请注明出处:http://write.blog.csdn.net/postedit/40589651 Oracle数据库里的B树索引就好象一棵倒长的树.它包括两种类型的数据块:一种是索引分支块,还 ...

  3. [Data Structure] Tree - relative

    Segment Tree First, try to build the segment tree. lintcode suggest code: Currently recursion recomm ...

  4. File /data/binlog/mysql-bin.index' not found (Errcode: 13)

    [问题] 需要开启bin-log备份/恢复数据库,但是因为本身bin-log保存的位置存储太小,并且归类性也不好,所以自己新创建了/data/binlog来保存二进制日志 在/etc/my.cnf增加 ...

  5. git中working tree, index, commit

    这三个名字可以简单理解为文件在本地仓库存在的三种不同的位置. 如下,是做commit提交两段提交过程,工作区(working tree),暂存区(index)和 branch(commit). wor ...

  6. DevExpress WPF v19.1:Data Grid/Tree List等控件功能增强

    行业领先的.NET界面控件DevExpress 日前正式发布v19.1版本,本站将以连载的形式介绍各版本新增内容.在本系列文章中将为大家介绍DevExpress WPF v19.1中新增的一些控件及部 ...

  7. A1102. Invert a Binary Tree

    The following is from Max Howell @twitter: Google: 90% of our engineers use the software you wrote ( ...

  8. HDU 6356 (线段树-l,r 之间小于val 的变val+单点求值)

    题目描述: 给你一个长度为n的最开始为0的数以及m个更新操作以及数据生成器参数X,Y,Z.每次操作,将由数据生成器生成出li,ri,vi.让你从区间[li,ri]中,将所有小于vi的数变为vi.最后让 ...

  9. [Codeforces Education Round 6E] New Year Tree

    [题目链接] https://codeforces.com/contest/620/problem/E [算法] 显然 , 一棵子树的DFS序必然为连续的一段 用线段树维护颜色数即可 [代码] #in ...

随机推荐

  1. asp.net 截屏

    public class HomeController : Controller { // // GET: /Home/ static System.Windows.Forms.WebBrowser ...

  2. Lucas-Kanade算法总结

    Lucas-Kanade算法广泛用于图像对齐.光流法.目标追踪.图像拼接和人脸检测等课题中. 一.核心思想 给定一个模板和一个输入,以及一个或多个变换,求一个参数最佳的变换,使得下式最小化 在求最优解 ...

  3. Thinkphp5 iis环境下安装报错400 500

    要求一:服务器需要开启伪静态功能 要求二:新建文件夹web.config 放到入口目录下(如public/web.config  或者/web.config),内容如: <?xml versio ...

  4. Java集合之LinkedList源码解析

    LinkedList简介 LinkedList基于双向链表,即FIFO(先进先出)和FILO(先进后出)都是支持的,这样它可以作为堆栈,队列使用 继承AbstractSequentialList,该类 ...

  5. 土办法 填充NAS空间

    最近需要把一个1.8TB的NAS 塞满,网上东拼西凑,找了个办法 写脚本,然后保存为tt40.sh, 并上传到NAS中. #!/bin/sh echo "space2->space11 ...

  6. Array常用函数收藏

    1.isArray 语法:Array.isArray(obj) 说明:判断一个对象是否是数组. 例如: Array.isArray([]); Array.isArray([1]); Array.isA ...

  7. QT3D场景快速绘制入门学习

    在QT中实现3D绘制的方式: 1)   使用QT OpenGL模块(QOpenGLWidget等) 2)   使用QT 3D C++类(QEntity等) 3)   使用QT 3D QML类(Enti ...

  8. 源码分析二(ArrayList与LinkedList的区别)

    一:首先看一下ArrayList类的结构体系: public class ArrayList<E> extends AbstractList<E> implements Lis ...

  9. 多个Tomcat之间实现Session共享

    对于高访问量.高并发量的网站或web应用来说,目前最常见的解决方案应该就是利用负载均衡进行server集群,例如比较流行的nginx+memcache+tomcat.集群之后比如我们有N个Tomcat ...

  10. PMP用语集

    AC actual cost 实际成本 ACWP actual cost of work performed 已完工作实际成本 BAC budget at completion 完工预算 BCWP b ...