摘要:什么是数据湖?它有什么作用?今天将由华为云技术专家从理论出发,将问题抽丝剥茧,从技术维度娓娓道来. 什么是数据湖 如果需要给数据湖下一个定义,可以定义为这样:数据湖是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取.处理.分析及传输. 数据湖从企业的多个数据源获取原始数据,并且针对不同的目的,同一份原始数据还可能有多种满足特定内部模型格式的数据副本.因此,数据湖中被处理的数据可能是任意类型的信息,从结构化数据到完全非结构化数据. 企业对数据湖寄予厚望,希望它能帮助用户快速获取有…
文:姚冬(华为云DevCloud首席技术布道师,资深DevOps与精益/敏捷专家,金融解决方案技术Leader,中国DevOpsDays社区核心组织者) 前言 敏捷是什么?DevOps是什么?两者有什么区别? 持续集成不是XP里面的么,怎么DevOps也有持续集成? 我们之前在做敏捷转型,现在又开始DevOps转型,到底啥情况? 总觉得与其去纠缠一个定义,不如踏踏实实做点儿事情. 没必要太纠结,因为两者都在演进,两者也越来越像,否则不会有这些疑问. 原本没想写这个话题,客户问起也只是简单说明.…
傻傻分不清之 Cookie.Session.Token.JWT 什么是认证(Authentication) 通俗地讲就是验证当前用户的身份,证明“你是你自己”(比如:你每天上下班打卡,都需要通过指纹打卡,当你的指纹和系统里录入的指纹相匹配时,就打卡成功) 互联网中的认证: 用户名密码登录 邮箱发送登录链接 手机号接收验证码 只要你能收到邮箱/验证码,就默认你是账号的主人 什么是授权(Authorization) 用户授予第三方应用访问该用户某些资源的权限 你在安装手机应用的时候,APP 会询问是…
[jvm]08-垃圾回收器那么多傻傻分不清? 欢迎关注b站账号/公众号[六边形战士夏宁],一个要把各项指标拉满的男人.该文章已在github目录收录. 屏幕前的大帅比和大漂亮如果有帮助到你的话请顺手点个赞.加个收藏这对我真的很重要.别下次一定了,都不关注上哪下次一定. gitee目录 博客园目录 视频讲解 上一篇 下一篇 1.垃圾收集算法 1.1.标记-复制算法 该算法将内存分为2块均等的,当该区域使用完毕后就一次性复制到另一块区域.在Hotspot中实现即为s0与s1,只不过做了优化吧伊甸园分…
序言 Spring Data JPA作为Spring Data中对于关系型数据库支持的一种框架技术,属于ORM的一种,通过得当的使用,可以大大简化开发过程中对于数据操作的复杂度. 本文档隶属于<Spring Data JPA用法与技能探究>系列的第一篇.本系列文档规划对Spring Data JPA进行全方位的使用介绍,一共分为5篇文档,如果感兴趣,欢迎关注交流. <Spring Data JPA用法与技能探究>系列涵盖内容: 开篇介绍 -- <JDBC.ORM.JPA.Sp…
一.前言 或许你和我一样都曾经被下面的代码所困扰 var el = document.getElementById('dummy'); el.hello = "test"; console.log(el.getAttribute('hello')); // IE67下输出test,其他浏览器输出null “搞毛啊?”,苦逼的Jser对着浏览器大呼一声.然后就用下面蹩脚的方式草草处理掉了. function getAttr(el, prop){ return el[prop] || el…
最近MVC (Model-View-Controller) 和MVVM (Model-View-ViewModel) 在微软圈成为显学,ASP.NET MVC 和WPF 的Prism (MVVM Framework) 功不可没,MVC 和MVVM 在概念上都是基于分层的,将呈现(presentation) 与资料(data) 分开的设计架构,M 和V 基本上不是问题,但将这两个整合的中间这层可就有很多的学问,另外,除了MVC 和MVVM 外,还有一个叫做MVP (Model-View-Prese…
01. 来看网络上对接口的一番解释: 接口(英文:Interface),在 Java 编程语言中是一个抽象类型,是抽象方法的集合.一个类通过继承接口的方式,从而来继承接口的抽象方法. 兄弟们,你们怎么看,这段解释把我绕得晕乎乎的,好像喝过一斤二锅头.到底是解释抽象类呢还是接口呢?傻傻分不清楚. 搞不清楚要用抽象类还是接口,就先来看看两者之间的区别.来,抽象类和接口,你俩过来比比身高. 抽象类中的方法可以有方法体,能实现方法具体要实现的功能,但是接口中的方法不行,没有方法体. 抽象类中的成员变量可…
十分钟快速理解DPI和PPI,不再傻傻分不清! https://baijiahao.baidu.com/s?id=1605834796518990333&wfr=spider&for=pc关于UX测试相关的: 之前一直搞的不是很清楚 这个百家号的解释挺好的 简单转帖一下 以后仔细研究,  设计师充电站 18-07-1308:58 72DPI的图片拿去打印会糊吗?手机拍出来的照片是多少DPI?PS里显示72PPI为什么另存为JPG就变成96DPI了? 类似的问题层出不穷.本站很多篇文章都讲到…
可能大家知道OCA.OCP.OCM的关系是一个比一个难考,一个比一个含金量高,但是你知道具体的考试科目.考试方式.就业形势区别吗?不知道的话这篇通俗易懂的文章会让你一目了然. 区别一:含金量 ■OCA:数据库专业人员踏上Oracle数据库认证之途的第一步 表示具备Oracle数据库管理的基础知识. ■OCP:数据库专业人员掌握Oracle专项技术的行业认可证明,证明持证者能够以最高效的方式建立和管理关键的Oracle数据库功能. ■OCM:针对在Oracle技术领域拥有多年实践经验,并且经过高级…
来源:http://t.10jqka.com.cn/pid_97006727.shtml 学点经济学:M0.M1.M2.M3,傻傻分不清? 25,508人浏览 2018-08-03 11:06 常听人聊起宏观经济,总是M2长M2短,感觉好有逼格:一些财经媒体上也动辄M1.M2的,一听就很专业.那么,这些M几M几究竟是什么呢? 先来看严谨的学术定义: M0=流通中的现金=通货发行额-金融机构库存现金: M1(狭义货币)=M0+企业活期存款: M2(广义货币)=M1+准货币(定期存款+居民储蓄存款+…
前言 总所周知,缓存是解决Http1.1协议传输性能的问题中最主要的手段. 缓存既可以存在于浏览器上,也可以存在于服务器中. 而影响缓存的Http头部有很多,其中Cache-Control是比较重要的一个,也是取值比较复杂的一个. 下面先聊一聊缓存的工作原理,再说说Cache-Control的详细取值. 缓存的工作原理 HTTP缓存是一个以时间为维度的缓存. 浏览器在第一次请求中缓存了响应,而后续的请求可以从缓存提取第一次请求的响应.从而达到:减少时延而且还能降低带宽消耗,因为可能压根就没有发出…
做了这么多年测试,还是分不清什么是cookie,什么是session?很正常,很多初级开发工程师可能到现在都搞不清什么是session,cookie相对来说会简单很多. 下面这篇文章希望能够帮助大家分清楚这两个技术的区别和他们对应的使用场景. 一).cookie的特点: cookie是一门客户端缓存技术 cookie数据由服务器生成,发送给浏览器保存 cookie数据的格式:键值对 cookie数据过期机制:设置expire值 cookie是一门客户端技术,一般是由服务器生成返回给浏览器客户端来…
做了这么多年测试,还是分不清什么是cookie,什么是session?很正常,很多初级开发工程师可能到现在都搞不清什么是session,cookie相对来说会简单很多. 下面这篇文章希望能够帮助大家分清楚这两个技术的区别和他们对应的使用场景. 一).cookie的特点: cookie是一门客户端缓存技术 cookie数据由服务器生成,发送给浏览器保存 cookie数据的格式:键值对 cookie数据过期机制:设置expire值 cookie是一门客户端技术,一般是由服务器生成返回给浏览器客户端来…
Shell中傻傻分不清楚的TOP3 发布文章 近来小姐姐又犯憨憨错误,问组内小伙伴export命令不会持久化环境变量吗?反正我是问出口了..然后小伙伴就甩给了我一个<The Linux Command Line>PDF链接.感谢老大不杀之恩- Shell是命令解释器,它会接受用户输入的各种命令,并传递给操作系统执行.它的作用类似于Windows系统的命令行.在UNIX或Linux系统中,Shell即是用户交互的界面,也是控制系统的脚本语言.当然现在用户也可以选择图形化界面做一些和操作系统的交互…
ASCII.Unicode.UTF-8.UTF-8(without BOM).UTF-16.UTF-32傻傻分不清 目录 ASCII.Unicode.UTF-8.UTF-8(without BOM).UTF-16.UTF-32傻傻分不清 前言 ASCII Unicode UTF UTF-8 UTF-8(without BOM) 怎样区分UTF-8.UTF-16和UTF-32 前言 Github上下载了一份代码打算学习,源工程是在linux上开发的,我在Windows上编译通过不了,很多莫名奇妙的…
IEnumerator.IEnumerable这两个接口单词相近.含义相关,傻傻分不清楚. 入行多年,一直没有系统性梳理这对李逵李鬼. 最近本人在怼着why神的<其实吧,LRU也就那么回事>,方案1使用数组实现LUR,手写算法涉及这一对接口,借此机会本次覆盖这一对难缠的冤家. IEnumerator IEnumerator.IEnumerable接口有相似的名称,这两个接口通常也在一起使用,它们有不同的用途. IEnumerator接口为类内部的集合提供了迭代功能, IEnumerator 要…
这篇我想分享一个之前在用TimeQuest约束双边沿模块的input delay时犯得一个错误,有人看了可能会觉得傻傻的,什么眼神,falling delay和 falling clk怎么会分不清呢,字面意思好区分,可要深究在约束里的具体含义,还得花点功夫,下面以ddio接收模块为例说明它们的含义以及碰到的一些问题. ddio接收模块为双边沿工作模式,如图一所示,ddio_in接入DFFH和DFFL,时钟下降沿DFFL锁存DL,但不立刻输出,直到时钟上升沿高电平使能latch时输出,同时DFFH…
T3出行的杨华和张永旭描述了他们数据湖架构的发展.该架构使用了众多开源技术,包括Apache Hudi和Alluxio.在本文中,您将看到我们如何使用Hudi和Alluxio将数据摄取时间缩短一半.此外,数据分析人员如何使用Presto.Hudi和Alluxio让查询速度提高了10倍.我们基于数据编排为数据管道的多个阶段(包括提取和分析)构建了数据湖. 1.T3出行数据湖总览 T3出行当前还处于业务扩张期,在构建数据湖之前不同的业务线,会选择不同的存储系统.传输工具以及处理框架,从而出现了严重的…
大家好,我是来自 Juicedata 的高昌健,今天想跟大家分享的主题是<JuiceFS 在数据湖存储架构上的探索>,以下是今天分享的提纲: 首先我会简单的介绍一下大数据存储架构变迁以及它们的优缺点,然后介绍什么是 JuiceFS,其次的话会再重点介绍一下关于 JuiceFS 和数据湖的一些结合和关联,最后会介绍一下 JuiceFS 和数据湖生态的集成. 大数据存储架构变迁 纵观整个大数据存储架构的变迁,可以看到有非常明显的三个阶段:第一个阶段就是从最早的 Hadoop.Hive 等项目诞生之…
背景 相较传统的重量级OLAP数据仓库,“数据湖”以其数据体量大.综合成本低.支持非结构化数据.查询灵活多变等特点,受到越来越多企业的青睐,逐渐成为了现代数据平台的核心和架构范式. 数据湖的核心功能,简单地可以分为数据存储与数据查询计算两个部分,在云端可以有多种的实现选择.在之前的文章中,我们曾介绍Azure上Azure Data Lake Storage (ADLS Gen1)和Azure Data Lake Analytics (ADLA)这一对可配合使用的服务.这对黄金搭档正是为数据湖而生…
1. 起源 作为印度最大的在线杂货公司的数据工程师,我们面临的主要挑战之一是让数据在整个组织中的更易用.但当评估这一目标时,我们意识到数据管道频繁出现错误已经导致业务团队对数据失去信心,结果导致他们永远无法确定哪个数据源是正确的并且可用于分析,因此每个步骤都会咨询数据平台团队,数据平台团队原本应该提供尽可能独立地做出基于数据的正确决策而又不减慢速度的工具. 现代数据平台会从许多不同的.不互连的,不同系统中收集数据,并且很容易出现数据收集问题,例如重复记录,错过更新等.为解决这些问题,我们对数据平…
背景 大数据发展至今,按照 Google 2003年发布的<The Google File System>第一篇论文算起,已走过17个年头.可惜的是 Google 当时并没有开源其技术,"仅仅"是发表了三篇技术论文.所以回头看,只能算是揭开了大数据时代的帷幕.随着 Hadoop 的诞生,大数据进入了高速发展的时代,大数据的红利及商业价值也不断被释放.现今大数据存储和处理需求越来越多样化,在后 Hadoop 时代,如何构建一个统一的数据湖存储,并在其上进行多种形式的数据分析,…
Apache Hudi是一个开源数据湖管理平台,用于简化增量数据处理和数据管道开发,该平台可以有效地管理业务需求,例如数据生命周期,并提高数据质量.Hudi的一些常见用例是记录级的插入.更新和删除.简化文件管理和近乎实时的数据访问以及简化的CDC数据管道开发. 本期SOFTWARE DAILY我们有幸采访到了Apache Hudi项目VP Vinoth Chandar.Vinoth是Uber Hudi项目的创建者,他继续在Apache Software Foundation领导Hudi的发展.在…
1. 传统数据湖存在的问题与挑战 传统数据湖解决方案中,常用Hive来构建T+1级别的数据仓库,通过HDFS存储实现海量数据的存储与水平扩容,通过Hive实现元数据的管理以及数据操作的SQL化.虽然能够在海量批处理场景中取得不错的效果,但依然存在如下现状问题: 问题一:不支持事务 由于传统大数据方案不支持事务,有可能会读到未写完成的数据,造成数据统计错误.为了规避该问题,通常控制读写任务顺序调用,在保证写任务完成后才能启动读任务.但并不是所有读任务都能够被调度系统约束住,在读取时仍存在该问题.…
本系列目录 CRL快速开发框架系列教程一(Code First数据表不需再关心) CRL快速开发框架系列教程二(基于Lambda表达式查询) CRL快速开发框架系列教程三(更新数据) CRL快速开发框架系列教程四(删除数据) CRL快速开发框架系列教程五(使用缓存) CRL快速开发框架系列教程六(分布式缓存解决方案) CRL快速开发框架系列教程七(使用事务) CRL快速开发框架系列教程八(使用CRL.Package) CRL快速开发框架系列教程九(导入/导出数据) CRL快速开发框架系列教程十(…
面试大数据项目,面试过程中发现面试官提到的两个概念没有搞清楚: 1. lamba数据架构:这个概念的提出是由storm的作者提出来的,其实主旨就是想要说明,数据的处理分成三层,一类是批处理程序(batch laryer,非实时),比如午夜跑出来的报表,可以供第二天进行消费:第二类是实时增量处理数据(speed layer),比如通过kafka等流计算工具进行的实时增量处理:第三层就是service layer,是对外提供服务的层,既可以访问batch layer或者realtime layer,…
本篇将向大家介绍如何快捷的安装部署GreenPlum测试集群,大家可以跟着我一块儿实践一把^_^ 1.主机资源 申请2台网易云主机,操作系统必须是RedHat或者CentOS,配置尽量高一点.如果是sa统一初始化的物理机,这里不再描述,因为中间有很多操作(比如关闭puppet服务等等) 2.下载安装包 下载链接: https://network.pivotal.io/products/pivotal-gpdb,需要先注册才能下载,建议用非163邮箱注册:(下载困难可以泡泡找我) 3.开始安装 以…
引言 相较传统的重量级OLAP数据仓库,“数据湖”以其数据体量大.综合成本低.支持非结构化数据.查询灵活多变等特点,受到越来越多企业的青睐,逐渐成为了现代数据平台的核心和架构范式. 因此数据湖相关服务成为了云计算的发展重点之一.Azure平台早年就曾发布第一代Data Lake Storage,随后微软将它与Azure Storage进行了大力整合,于今年初正式对外发布了其第二代产品:Azure Data Lake Storage Gen2 (下称ADLS Gen2).ADLS Gen2的口号是…
相较传统的重量级OLAP数据仓库,“数据湖”以其数据体量大.综合成本低.支持非结构化数据.查询灵活多变等特点,受到越来越多企业的青睐,逐渐成为了现代数据平台的核心和架构范式. 作为微软Azure上最新一代的数据湖服务,Data Lake Storage Gen2的发布,将云上数据湖的能力和体验提升上了一个新的台阶.在前面的文章中,我们已分别介绍了其基本使用和大数据集群挂载的场景.作为本系列的下篇,让我们继续深度体验之旅. ADLS Gen2体验:数据湖共享 在企业中,一个庞大的数据湖往往需要被共…