[摘要] CarbonData将存储和计算逻辑分离,通过索引技术让存储和计算物理上更接近,提升CPU和IO效率,实现超高性能的大数据分析.以CarbonData为融合数仓的大数据解决方案,为金融转型打造新一代数仓引擎. 金融领域随着数据与日俱增(如国内某大行,平均3亿笔业务/天,峰值6亿/天):业务驱动下的数据分析灵活性要求越来越高,不同业务的数据分系统构建,导致冗余严重,缺乏高效.统一的融合数仓,阻碍企业快速转型.如何对浪涌式的数据进行整合分析,发挥最大价值,金融机构对数据的处理提出了相应诉求…
公众号(五分钟学大数据)已推出大数据面试系列文章-五分钟小面试,此系列文章将会深入研究各大厂笔面试真题,并根据笔面试题扩展相关的知识点,助力大家都能够成功入职大厂! 大数据笔面试系列文章分为两种类型:混合型(即一篇文章中会有多个框架的知识点-融会贯通):专项型(一篇文章针对某个框架进行深入解析-专项演练). 此篇文章为系列文章的第二篇(JVM专项) 第一题:JVM内存相关(百度) 问:JVM内存模型了解吗,简单说下 答: 因为这块内容太多了,许多小伙伴可能记不住这么多,所以下面的答案分为简答和精…
1.Linux系统常规设置 1)设置ip地址 使用界面修改ip比较方便,如果Linux没有安装操作界面,需要使用命令:vi /etc/sysconfig/network-scripts/ifcfg-eth0 来修改ip地址,然后重启网络服务service network restart即可. 2)创建用户 大数据项目开发中,一般不直接使用root用户,需要我们创建新的用户来操作,比如kfk. a)创建用户命令:adduser kfk b)设置用户密码命令:passwd kfk 3)文件中设置主机…
1.Spark SQL概述 1)Spark SQL是Spark核心功能的一部分,是在2014年4月份Spark1.0版本时发布的. 2)Spark SQL可以直接运行SQL或者HiveQL语句 3)BI工具通过JDBC连接SparkSQL查询数据 4)Spark SQL支持Python.Scala.Java和R语言 5)Spark SQL不仅仅是SQL 6)Spark SQL远远比SQL要强大 7)Spark SQL处理数据架构 8)Spark SQL简介 Spark SQL is a Spar…
一.项目简介 这是一个车辆监控项目.主要实现了三个功能: 1.计算每一个区域车流量最多的前3条道路. 2.计算道路转换率 3.实时统计道路拥堵情况(当前时间,卡口编号,车辆总数,速度总数,平均速度) 二.项目结构 ├─TrafficBySparkAndKafka ├─data └─src ├─main │ ├─java │ │ └─vip │ │ ├─producedate2hive(模拟数据到文件和Hive) │ │ ├─shuai7boy │ │ │ └─trafficTemp │ │ │…
前言 GooseFS是由腾讯云推出的一款分布式缓存方案,主要针对包括需要缓存加速的数据湖业务场景,提供基于对象存储COS服务的近计算端数据加速层. GooseFS 基于开源大数据缓存方案 Alluxio 进行设计和研发.相较于开源方案,GooseFS 提供了更多关键特性,稳定性和性能优化:同时深度融合了腾讯云生态,对接了腾讯云TKE.EMR等计算服务,为用户提供开箱即用的能力. 缓存加速和数据本地化GooseFS提供的重要能力之一. GooseFS 可以与计算节点混合部署提高数据本地性,利用高速…
1.数据仓库DW 1.1简介 Data warehouse(可简写为DW或者DWH)数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源.为了决策需要而产生的,它是一整套包括了etl.调度.建模在内的完整的理论体系.数据仓库的方案建设的目的,是为前端查询和分析作为基础,主要应用于OLAP(on-line Analytical Processing),支持复杂的分析操作,侧重决策支持,听且提供直观易懂的查询结果.比较流行的有:AWS Redshift,Greenplum,Hive等.…
给定一个数组,求和为定值的所有组合, 这道算法题在leetcode应该算是中等偏下难度, 对三到五年工作经验主要做业务开发的同学来说, 一般较难的也就是这种程度了. 简述经过: 不算hr面,总计四面,第一天前三面, 然后过了一个多星期第四面(领导一般都比较忙~) 平均每一面都是一小时,面完前三面已经很辛苦了. 我之前去美团面试从一面到hr面,总计四面 面了一下午将近四个小时...还不包括来回路程,所以面试是项体力+脑力的活,准备的充分了,面试成功率高少跑几次了~就会轻松不少~大部分同学面试面上几…
本篇大部分内容參考网上,当中性能部分參考:http://blog.cloudera.com/blog/2009/12/7-tips-for-improving-mapreduce-performance/.http://www.idryman.org/blog/2014/03/05/hadoop-performance-tuning-best-practices/ 原理篇: 1. Hadoop2.X的各个模块一句话简单介绍 1)Hadoop Common:为Hadoop其它模块提供支持的公共工具…
1什么是HA集群? 所谓HA,即高可用(7*24小时不中断服务) HA集群是hadoop高可用集群,即有两个namenode,一个active,一个stanby,active的name挂掉之后,stanby的namenode就会切换成active, 最关键的是消除单节点故障 双namenode协调工作的要点: A.元数据管理方式需要改变: 内存中各自保存一份元数据 Edits日志只能有一份,只有Active状态的namenode节点可以做写操作 两个namenode都可以读取edits 共享的e…