说在前面 之前一段时间想着把 LeetCode 每个专题完结之后,就开始着手大数据和算法的内容. 想来想去,还是应该穿插着一起做起来. 毕竟,如果只写一类的话,如果遇到其他方面,一定会遗漏一些重要的点. LeetCode 专题复盘,已经进行了一大半了. 大数据计划 正式开始有更新大数据想法的时候,想着把平常要注意的问题以及重要的知识点写出来. 可是之后想着咱们读者大部分是毕业前后的学生,还是从基础的开始分享. 很多人已经在 hive.HBASE.Spark.Flink 这几个方面使用的很熟练了,…
[IT168 技术]12月25日消息,2010互联网行业技术研讨峰会今日在上海华东理工大学召开.本次峰会以“互联网行业应用最佳实践”为主题,定位于互联网架构设计.应用开发.应用运维管理,同时,峰会邀请了来自盛大.阿里巴巴.五分钟等互联网企业的多位嘉宾演讲,他们将同大家一起探讨数据库技术在互联网领域的深入应用. ▲2010互联网行业技术研讨峰会专题报道 以下是上海五分钟网络科技有限公司金官丁主题为“浅谈伪分布式数据库架构”的演讲全文: ▲上海五分钟网络科技有限公司金官丁 大家好!所谓分布式数据库架…
1.配置环境变量JDK配置 1.JDK安装 个人喜欢在 vi ~/.bash profile   下配置 export JAVA_HOME=/home/hadoop/app/jdk1.8.0_91export PATH=$JAVA_HOME/bin:$PATH 当然要让环境变量生效source ~/.bash_profile echo $JAVA_HOME 在输入 java -verision,生效就装好了jdk 2.安装ssh 生成秘钥 ssh-keygen -t rsa 在将公钥复制到aut…
大数据第一天 1.Hadoop生态系统 1.1 Hadoop v1.0 架构 MapReduce(用于数据计算) HDFS(用于存储数据) 1.2 Hadoop v2.0 架构 MapReduce(用于数据计算,Hadoop提供计算框架) 其他非Hadoop计算框架 YARN(用户管理和分配集群资源,包括软硬件资源) HDFS(用于存储数据) 1.3 Hive(基于MR的数据仓库) 类似SQL,通常用于离线数据处理(采用MapReduce) 可以理解为HQL->MR的语言翻译器 用途:用于日志.…
Spark支持多种的编程语言 对比scala和Java编程上节课的计数程序.相比之下,scala简洁明了. Hadoop的IO开销大导致了延迟高,也就是说任务和任务之间涉及到I/O操作.前一个任务完成之前没有写入硬盘,下一个任务无法从硬盘当中获取数据,从而导致了这个高延迟. Spark与Hadoop的对比:Spark也是MapReduce,但是它的编程模式比Hadoop的MapReduce更灵活,而且会支持多种数据集的操作.其次呢,它不是从磁盘中读取数据,它是从内存中读取数据.我把结果中间结果写…
大规模的数据计算对于数据挖掘领域当中的作用.两大主要挑战:第一.如何实现分布式的计算 第二.分布式并行编程.Hadoop平台以及Map-reduce的编程方式解决了上面的几个问题.这是谷歌的一个最基本的计算模式,并且对于大规模数据的分析和处理是一种非常有效的方法.以下四个方面了解大数据处理平台Hadoop. 谷歌的解决方案 第一.我们需要计算节点去组成集群.这些点组成集群之后我们是通过网络将这些点连接到一起,从而完成计算和数据的分发. 在这样一种集群式的架构当中,我们是通过switch(交换机)…
为什么是Scala 虽然在大数据领域Java的使用更普及,Python也有后来居上的势头,但Scala一直有着不可动摇的地位.我们熟悉的Spark,Kafka,Flink都是由Scala完成了其核心代码的开发. 所以掌握Scala不仅可以学习大数据组件的源码,而且会极大的提升大数据开发的效率. 这也是Scala的薪资水平一直遥遥领先的原因. 根据2019年全球编程语言薪资统计,排名前几名的Scala无疑是岗位需求与收入同样优秀的语言.当然收入与地域之间也是有区别的,比如在美国,Scala 的收入…
HDFS分布式文件系统 文件系统的基本概述 文件系统定义:文件系统是一种存储和组织计算机数据的方法,它使得对其访问和查找变得容易. 文件名:在文件系统中,文件名是用于定位存储位置. 元数据(Metadata):保存文件属性的数据,如文件名,文件长度,文件所属用户组,文件存储位置等. 数据块(Block):存储文件的最小单元.对存储介质划分了固定的区域,使用时按这些区域分配使用. HDFS的概述 HDFS(Hadoop Distributed File System)基于Google发布的GFS论…
NoSQL不是不用SQL,是Not only SQL,不仅仅是结构化的查询. NoSQL兴起的原因 在Web2.0时代新浪一分钟可以发送两万条微博,苹果可以下载4.7万次应用. 数据的高并发性,同时有90万次的查询向百度的服务器提出了搜索要求.还有高扩展性,Web应用千变万化,可能对字段的需求在不断地增加.传统的数据库无法对字段进行简单的扩展. 关系型数据库作为一个统一的数据模型,既被用于数据分析,也被用于在线业务.数据分析强调的是高吞吐量,我要产生大量的计算结果.而在线业务需要低延时,意思是需…
在大规模的数据当中,需要分发任务,需要进行分布式的并行编程.Hadoop这样一种开源的大数据分析平台. Map阶段 Reduce阶段:相同的键把它聚集到一起之后,然后通过Reduce方式把相同的键聚集的元素进行某种运算.比如说累加运算,比如说累乘运算. 两个步骤:一.输入数据,一行一行:二.产生键值对.三.对键值对进行运算. 实际例子当中键值对是什么样子呢? 假设有一个非常大的文件,这个文件无法存到内存,用户想知道这个文件当中每个单词出现的次数. 像这种运算非常适合用Map-reduce方式来完…