背景:从软通出来,告别华为外包,离开H区,进入了一家搞大数据的创业公司,感觉周围都好陌生,记录下自己大数据的career!

2019-03-4新的征程-入职第一天:

一、办理入职手续

公司人比较少,没有入职培训等操作;用了企业微信和企业邮箱,填下个人信息,然后开搞;

二、搭建Java开发环境和虚拟机、Linux、Xshell等

Windows下使用Xshell时出现丢失msvcr110.dll等dll,可以使用该链接解决https://blog.csdn.net/franck_lou/article/details/78438268

三、学习编译Ranger工程,熟悉相关部署和使用

刚开始接触公司自己搭建的Ranger工程,感觉好难受;Ranger是开源的,公司下载了源码并在原有结构上在增加新功能;Ranger里面好多组件都没用过,感觉很陌生,难受马非,于是感觉今天先弄明白这些东西时什么,之后再仔细研究它们时怎么存储数据、读/写文件和使用等。

1、Ranger 简介

Apache Ranger提供一个集中式安全管理框架,它可以对Hadoop生态的组件如Hive、Hbase进行细粒度的数据访问控制;通过操作Ranger控制台,管理员可以轻松的通过配置策略来控制用户访问HDFS文件夹、HDFS文件、数据库、表和字段权限,这些策略可以为不同的用户和组来设置,同时权限可与hadoop无缝对接;并且提供了Web UI方便管理员进行操作。

2、什么是Hbase

HBase是一种Hadoop数据库,经常被描述为一种稀疏的、分布式的、可持续化的、多维有序映射,它是基于行键、列键和时间戳建立索引的,是一个可以随机访问的存储和检索数据的平台;HBase不限制存储的数据种类,允许动态的、灵活的数据模型,不用SQL语言,也不强调数据之间的关系;HBase被设计成在一个服务器集群上运行,可以相应地横向扩展。

3、什么是Hive

a. Hive由Facebook实现并开源;
b. 是基于Hadoop的一个数据仓库工具;
c. 可以将结构化的数据映射为一张数据库表,并提供HQL(Hive SQL)查询功能;
d. 底层数据是存储在HDFS上的;
e. Hive的本质是将SQL 语句转换为MapReduce 任务执行,使不熟悉MapReduce的用户很方便的利用HQL处理和计算HDFS上的结构化的数据,适用于离线的批量数据计算;
f. MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。

4、什么是YARN

Apache Hadoop YARN(Yet Another Resource Negotiator,另一种资源协调者)是一种新的Hadoop资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度;它将资源管理和处理组件分开,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大的好处。

5、什么是Hadoop

Hadoop是一个开源框架,它允许在整个集群使用简单编程模型计算机的分布式环境存储并处理大数据;它的目的是从单一的服务器到上千台机器的扩展,每一个台机都可以提供本地计算和存储。

6、什么是KNOX

Knox是Apache Hadoop生态中REST API和应用的网关,Apache Knox是一个通过REST API和UI与Apache Hadoop部署交互的应用网关;Knox网关为所有与Hadoop集群的REST和HTTP交互提供
了一个单独的访问点。(REST描述的是在网络中client和server的一种交互形式)

7、什么是HDFS

HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上;它所具有的高容错性、高可靠性、高扩展性、高获得性和高吞吐率特征为海量数据提供了不怕故障的存储,为超大数据集(Large Data Set)的应用处理带来了很多便利。

四、吐槽

1、今天上班用的是win10系统,win10需要以管理员身份打开dos窗口,才可以修改执行某些特殊命令;

2、上班第一天没有把Ranger工程自己编译出来,难受;

3、第一天晚上就加班了,还被嫌弃了,要讲究工作效率,在上班时间完成任务,该加班的时候再加班,难受;

4、建议大家有事没事都下个虚拟机玩玩,Linux和Xshell等操作熟悉下吧,又被嫌弃了,难受马非。

大数据---Ranger-1的更多相关文章

  1. 大数据权限管理工具 Apache Ranger 初识

    资料参考: Apache Ranger – Introduction http://ranger.apache.org/ 阿里云 Ranger简介 Apache Ranger初识 - 阿里云 大数据权 ...

  2. 大数据技术Hadoop入门理论系列之一----hadoop生态圈介绍

    Technorati 标记: hadoop,生态圈,ecosystem,yarn,spark,入门 1. hadoop 生态概况 Hadoop是一个由Apache基金会所开发的分布式系统基础架构. 用 ...

  3. Hadoop! | 大数据百科 | 数据观 | 中国大数据产业观察_大数据门户

        你正在使用过时的浏览器,Amaze UI 暂不支持. 请 升级浏览器 以获得更好的体验! 深度好文丨读完此文,就知道Hadoop了! 来源:BiThink 时间:2016-04-12 15:1 ...

  4. Ambari——大数据平台的搭建利器之进阶篇

    前言 本文适合已经初步了解 Ambari 的读者.对 Ambari 的基础知识,以及 Ambari 的安装步骤还不清楚的读者,可以先阅读基础篇文章<Ambari——大数据平台的搭建利器>. ...

  5. 初识大数据(二. Hadoop是什么)

    hadoop是一个由Apache基金会所发布的用于大规模集群上的分布式系统并行编程基础框架.目前已经是大数据领域最流行的开发架构.并且已经从HDFS.MapReduce.Hbase三大核心组件成长为一 ...

  6. 【原创】Thinking in BigData (1)大数据简介

    提到大数据,就不得不提到Hadoop,提到Hadoop,就不得不提到Google公布的3篇研究论文:GFS.MapReduce.BigTable,Google确实是一家伟大的公司,开启了全球的大数据时 ...

  7. 细说Mammut大数据系统测试环境Docker迁移之路

    欢迎访问网易云社区,了解更多网易技术产品运营经验. 前言 最近几个月花了比较多精力在项目的测试环境Docker迁移上,从最初的docker"门外汉"到现在组里的同学(大部分测试及少 ...

  8. 大数据学习之路------借助HDP SANDBOX开始学习

    一开始... 一开始知道大数据这个概念的时候,只是感觉很高大上,引起了我的兴趣.当时也不知道,这个东西是做什么的,有什么用,当然现在看来也是很模糊的样子,但是的确比一开始强了不少. 所以学习的过程可能 ...

  9. hadoop大数据平台安全基础知识入门

    概述 以 Hortonworks Data Platform (HDP) 平台为例 ,hadoop大数据平台的安全机制包括以下两个方面: 身份认证 即核实一个使用者的真实身份,一个使用者来使用大数据引 ...

随机推荐

  1. vue2.0 axios封装、vuex介绍

    一.前言 博主也是vue道路上的行者,道行不深,希望自己的东西能对大家有所帮助.这篇博客针对 了解过vue基础,但是没有做过vue项目的童鞋.如果想看基础指令,可以看我之前的一篇博客,请点击  跳转, ...

  2. Unix中的I/O模型

    本文所指的I/O均是网络I/O. 一. POSIX对同步.异步I/O的定义 我们先大致看看POSIX对同步.异步的定义,不用细究,重点看我标红的部分就行. 同步I/O会导致请求进程阻塞,直到I/O操作 ...

  3. Python练习:哥德巴赫猜想

    哥德巴赫猜想 哥德巴赫 1742 年给欧拉的信中哥德巴赫提出了以下猜想:任一大于 2 的偶数都可写成两个质数之和.但是哥德巴赫自己无法证明它,于是就写信请教赫赫有名的大数学家欧拉帮忙证明,但是一直到死 ...

  4. MySQL 复制 - 性能与扩展性的基石 2:部署及其配置

    正所谓理论造航母,现实小帆船.单有理论,不动手实践,学到的知识犹如空中楼阁.接下来,我们一起来看下如何一步步进行 MySQL Replication 的配置. 为 MySQL 服务器配置复制非常简单. ...

  5. 强化学习(十五) A3C

    在强化学习(十四) Actor-Critic中,我们讨论了Actor-Critic的算法流程,但是由于普通的Actor-Critic算法难以收敛,需要一些其他的优化.而Asynchronous Adv ...

  6. 为什么需要Docker?

    前言 只有光头才能变强. 文本已收录至我的GitHub仓库,欢迎Star:https://github.com/ZhongFuCheng3y/3y 估计大家也可能听过Docker这项技术(在论坛上.招 ...

  7. 解决 Vue 动态生成 el-checkbox 点击无法赋值问题

    博客地址:https://ainyi.com/68 最近遇到一个问题,在一个页面需要动态渲染页面内的表单,其中包括 checkbox 表单类型,并且使用 Element 组件 UI 时,此时 v-mo ...

  8. MPP-使用说明

    1.介绍 MPP是瑞芯微提供的媒体处理软件平台,适用于瑞芯微芯片系列.它屏蔽了有关芯片的复杂底层处理,屏蔽了不同芯片的差异,为使用者提供了统一的视频媒体统一接口. 具体提供的功能: 视频编码:H264 ...

  9. 原生的 django 分页

    原始的 django 分页 # 基本 写法 class Paginator(object): def __init__(self, object_list, per_page, orphans=0, ...

  10. Pandas学习笔记

    本学习笔记来自于莫烦Python,原视频链接 一.Pandas基本介绍和使用 Series数据结构:索引在左,值在右 import pandas as pd import numpy as np s ...