Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构. Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中. Hadoop的核心是分布式文件系统(Hadoop Distributed File System,HDFS)和MapReduce. Hadoop被公认为行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力. Hadoop的特性 Hadoop是一个能够对大量数据进…
1 大数据概述 大数据特性:4v volume velocity variety value 即大量化.快速化.多样化.价值密度低 数据量大:大数据摩尔定律 快速化:从数据的生成到消耗,时间窗口小,可用于生成决策的时间非常少:1秒定律,这和传统的数据挖掘技术有着本质区别(谷歌的dremel可以在1秒内调动上千台服务器处理PB级数据) 价值密度低,商业价值高 大数据影响: 对科学研究影响:出现科学研究第四方式数据(前三个分别是实验.理论.计算) 对思维方式影响:全样而非抽样.效率而非准确.相关而非…
2.1 Hadoop概论 创始人:Doug Cutting 1.简介: 开源免费; 操作简单,极大降低使用的复杂性; Hadoop是Java开发的; 在Hadoop上开发应用支持多种编程语言.不限于Java: Hadoop两大核心:HDFS+MapReduce HDFS:海量数据存储 MapReduce:海量数据的处理 2.起源: 原本是文本搜索库,模仿谷歌的搜索引擎: 融入了谷歌相关技术:分布式文件系统GFS:分布式并行编程框架MapReduce: 3.成名史:数据排序 的傲人成绩 4.特性:…
5.1 NoSQL概论 最初:反SQL 概念演变,现在:Not only SQL 特点: 1.灵活的可扩展性 所以支持海量数据存储 2.灵活的数据模型 例如:HBase 3.和云计算的紧密结合 (一)nosql兴起原因: 1.关系性数据库无法满足web2.0的需求; 传统的关系数据库优点: 1.非常完备的关系理论基础 2.具有事务机制的支持 3.高效的查询优化机制 传统的关系数据库性能上的缺陷: 1.无法满足海量数据的管理需求: 互联网时代,数据产生速度非常快,那么庞大的数据如果还是按照传统的关…
分布式文件系统概述 相对于传统的本地文件系统而言,分布式文件系统(Distribute File System)是一种通过网络实现文件在多台主机上进行分布式存储的文件系统.分布式文件系统的设计一般采用“客户/服务机”模式,客户端以特定的通信协议通过网络与服务器建立连接,提出文件访问请求,客户端和服务器可以通过设置访问权限来限制请求方对底层数据存储块的访问. 目前,已经得到广泛应用的分布式文件系统主要包括GFS和HDFS等,后者是针对前者的开源实现. 计算机集群结构 普通的文件系统只需要单个计算机…
文档数据库介于关系数据库和NoSql之间: 是最像关系数据库的一款产品,也是当前最热门的一款产品. 1.MongoDB简介:   1)     2)文档类型BSON(Binary JSON),结构类似JSON 3)特点:操作比较简单容易可以针对任何属性的索引实现更快的排序水平可扩展性丰富的查询表达式,替换已完成文档指定的字段批量处理,聚合 4)术语: 每一行记录对应一个文档文档集合对应就是表 (实例:两行记录对应两个文档) 5) 关系数据库需要多表连接查询:文档数据库散布在多个表的数据用一个文档…
NoSQL的三大基石:cap,Base,最终一致性   5.4.1 cap理论(帽子理论):   consistency:一致性availability:可用性partition tolerance:分区容忍性 理想的目标是设计一个分布式文件系统,同时实现CAP三个性质,但证明不可能,只能三者取二. 1)牺牲一致性换取可用性的实例: 无法传播的情况发生时,若p2要求马上读副本v2(保证可用性),数据不一致(牺牲一致性): 若p2等到p1把数据传过来再读副本v2(保证一致性),已经过了一段时间(牺…
5.3 NoSQL的四大类型   5.3.1 键值数据库和列族数据库 可以分为四大类产品:键值数据库,列族数据库,文档数据库,图数据库 (代表)   1.键值数据库:   用的多:redis云数据库:SimpleDB典型应用:要求的数据模型非常简单,不涉及到存储结构化信息:要求非常好的写性能:涉及非常频繁的读写操作.内容缓存,如:会话,配置文件,参数,购物车等存储配置,用户数据信息等移动应用. 优点: (扩展性好)数据规模扩大时,往里面增加结点,理论上有无上限的扩展空间: (灵活性好)任何类型的…
http://study.163.com/course/courseMain.htm?courseId=1002887002 里面的HDFS这一部分.…
应用场景: OldSql数据库:希望一种架构就能支持多种应用场景,但证明不可能.   NewSql数据库:同时具备OldSql和NoSQL各自的优点:水平可扩展性,强一致性,事务一致性,支持查询,支持海量数据存储 产品分类图:…