本节主要内容 怎样获取帮助文档 Linux文件系统简单介绍 文件夹操作 訪问权限 1. 怎样获取帮助文档 在实际工作过程其中,常常会忘记命令的使用方式.比如ls命令后面能够跟哪些參数,此时能够使用man命令来查看其使用方式.比如 //man命令获取命令帮助手冊 xtwy@ubuntu:~$ man ls 能够使用键盘上的 来显示下一行或上一行命令,也能够使用 进行上一页或下一页(屏)命令的查看,另外 空格鍵也能够用来显示下一屏的命令.想退出命令查看,直接按q鍵退出就可以.也能够h鍵显示less命…
本节主要内容 理解用户和组的概念 用户管理 组管理 权限分配 1. 理解用户和组的概念 在第一讲中我们提到.linux是一种多任务.多用户的操作系统,在讲ls -l命令行我们看到例如以下文件具体信息: root@ubuntu:/home/xtwy# ls -l total 48 drwxr-xr-x 2 xtwy xtwy 4096 2015-08-20 23:31 Desktop drwxr-xr-x 2 xtwy xtwy 4096 2015-08-20 23:31 Documents dr…
课程内容 Spark修炼之道(基础篇)--Linux基础(15讲).Akka分布式编程(8讲) Spark修炼之道(进阶篇)--Spark入门到精通(30讲) Spark修炼之道(实战篇)--Spark应用开发实战篇(20讲) Spark修炼之道(高级篇)--Spark源代码解析(50讲) 部分内容会在实际编写时动态调整.或补充.或删除. Spark修炼之道(基础篇)--Linux大数据开发基础(15讲). Linux大数据开发基础--第一节:Ubuntu Linux安装与介绍 Linux大数据…
1.Spark计算依赖内存,如果目前只有10g内存,但是需要将500G的文件排序并输出,需要如何操作? ①.把磁盘上的500G数据分割为100块(chunks),每份5GB.(注意,要留一些系统空间!) ②.顺序将每份5GB数据读入内存,使用quick sort算法排序. ③.把排序好的数据(也是5GB)存放回磁盘. ④.循环100次,现在,所有的100个块都已经各自排序了.(剩下的工作就是如何把它们合并排序!) ⑤.从100个块中分别读取5G/100=0.05 G入内存(100input bu…
一.桥接的概念 简单来说,桥接就是把一台机器上的若干个网络接口"连接"起来.其结果是,其中一个网口收到的报文会被复制给其他网口并发送出去.以使得网口之间的报文能够互相转发. 交换机就是这样一个设备,它有若干个网口,并且这些网口是桥接起来的.于是,与交换机相连的若干主机就能够通过交换机的报文转发而互相通信. 如下图:主机A发送的报文被送到交换机S1的eth0口,由于eth0与eth1.eth2桥接在一起,故而报文被复制到eth1和eth2,并且发送出 去,然后被主机B和交换机S2接收到.…
一篇了解大数据架构及Hadoop生态圈 阅读建议,有一定基础的阅读顺序为1,2,3,4节,没有基础的阅读顺序为2,3,4,1节. 第一节 集群规划 大数据集群规划(以CDH集群为例),参考链接: https://www.cloudera.com/documentation/enterprise/latest/topics/cm_ig_host_allocations.html https://blog.csdn.net/xuefenxi/article/details/81563033 Clou…
引言 如果你是学习大数据的童靴,可能经常在网上看到一些公众号或博客告诉你,学习大数据基础部分只需要掌握 JavaSE 和 Linux 就够了,至于 JavaWeb 和 JavaEE 简单了解一下就可以了,因为它们和大数据关系并不大,没啥交集,不用浪费时间去学习和掌握啦. 那学习大数据是否有必要学习 JavaWeb&JavaEE 呢? 还记得之前讲前后端分离的文章,我把 Web 前端(html.css.js.jquery.bootstrap等)比作演员,把 Web 后端(JavaWeb&Ja…
不多说,直接上干货! 在前面的博文里,我已经介绍了 大数据入门基础系列之Linux操作系统简介与选择 大数据入门基础系列之虚拟机的下载.安装详解 大数据入门基础系列之Linux的安装详解 大数据入门基础系列之远程连接工具下载和安装详解 大数据入门基础系列之Apache版本的hadoop集群详细部署搭建(包括HA和非HA)(包括单节点.3节点.5节点) 大数据入门基础系列之CDH版本的hadoop集群详细部署搭建(3节点) 大数据入门基础系列之ClouderManager版本的hadoop集群详细…
1.背景介绍 Storm以及离线数据平台的MapReduce和Hive构成了Hadoop生态对实时和离线数据处理的一套完整处理解决方案.除了此套解决方案之外,还有一种非常流行的而且完整的离线和 实时数据处理方案.这种方案就是Spark.Spark本质上是对Hadoop特别是MapReduce的补充.优化和完善,尤其是数据处理速度.易用性.迭代计算和复杂数据分析等方面. Spark Streaming 作为Spark整体解决方案中实时数据处理部分,本质上仍然是基于Spark的弹性分布式数据集(Re…
Spark 介绍(基于内存计算的大数据并行计算框架)  Hadoop与Spark 行业广泛使用Hadoop来分析他们的数据集.原因是Hadoop框架基于一个简单的编程模型(MapReduce),它支持可扩展,灵活,容错和成本有效的计算解决方案.这里,主要关注的是在处理大型数据集时在查询之间的等待时间和运行程序的等待时间方面保持速度.Spark由Apache Software Foundation引入,用于加速Hadoop计算软件过程.对于一个普遍的信念,Spark不是Hadoop的修改版本,并不…