【云+社区极客说】新一代大数据技术：构建PB级云端数仓实践

腾讯云+社区 2024-10-25 08:40:36 原文

本文来自腾讯云技术沙龙，本次沙龙主题为构建PB级云端数仓实践

在现代社会中，随着4G和光纤网络的普及、智能终端更清晰的摄像头和更灵敏的传感器、物联网设备入网等等而产生的数据，导致了PB级储存的需求加大。

但数据保留下来并不代表它真的具有利用价值，曾经保存的几TB的日志，要么用来做做最简单的加减乘除统计，要么就在日后出现问题了，扒出日志堆找证据。你的影视库里面可以下载储存成千上万部影片，但不代表你真的能全部看完。

如何将手里现有的数据变得更具有价值？一些营销云已经可以做到毫秒级响应做到精准投放广告，使用户的日志更有价值；人工智能逐渐参与辅助医疗，医学影像数据值得保存几十年了。无论是监管政策还是客户需求，随着技术进步价格降低，都在推动着数据总量越来越大。

在这个大背景下，从公司战略到产业生态，从学术研究到生产实践，从城镇管理乃至国家治理，都将发生本质的变化。国家竞争力将部分体现为一国拥有数据的规模、活性以及解释、运用数据的能力。通过以Hadoop, Spark为代表的大数据技术来构建新型数据仓库，已经成为越来越多的企业应对数据挑战的方式。

大数据最前沿的的技术与行业趋势如何？

传统企业级数仓将面临怎样的挑战？

而腾讯云大数据又是如何应对的？

本期极客说将为您一一解答。

本次云+社区极客说邀请了堵俊平（腾讯云大数据基础团队负责人，大数据技术专家）来为大家介绍大数据领域最近的技术趋势，包含介绍Hadoop与Spark技术的最新进展。并将通过一些实际的应用案例，来介绍腾讯大数据是如何在云上构建PB级的数据仓库，以及如何解决一些工程难题的。

演讲嘉宾

堵俊平

腾讯云大数据基础团队负责人，大数据技术专家
曾任EMC，VMware资深研发工程师
Hortonworks美国YARN团队负责人
深耕云计算，大数据方向10余年
在多个社区均享有极高知名度，包括Apache Hadoop社区Committer & PMC
领导hadoop 2.6、2.8等应用非常广泛的社区release
曾领导开发多个Hadoop在云平台上优化与拓展的项目与产品
目前在腾讯致力于领导腾讯云大数据及人工智能产品研发

直播时间：

10月18日 19:00

内容简介：

大数据新时代：

大数据的技术与行业趋势
Hadoop与Spark技术最近进展

数仓技术发展：

传统企业级数仓的挑战
腾讯云构建大数据云数仓的实践与技术分享
新的趋势：数据湖

识别图中二维码即可免费报名预约直播哦！

【云+社区极客说】新一代大数据技术：构建PB级云端数仓实践的更多相关文章

TOP100summit：【分享实录-WalmartLabs】利用开源大数据技术构建WMX广告效益分析平台
本篇文章内容来自2016年TOP100summitWalmartLabs实验室广告平台首席工程师.架构师粟迪夫的案例分享. 编辑:Cynthia 粟迪夫:WalmartLabs实验室广告平台首席工程师 ...
大数据架构（PB级）
1.随着互联网快速发展,数据量的快速膨胀,我们日增3000多亿数据量,因此需要针对PB级存储.几百TB的增量数据处理架构设计 2.系统逻辑划分总图: 暂不便透露 3.系统架构图: 4.大数据计算引擎我 ...
【喜讯】新一代大数据任务调度 - Apache DolphinScheduler 社区荣获OSCHINA年度 “最佳技术团队”...
新一代大数据任务调度 - Apache DolphinScheduler 继 11 月 19 日由 InfoQ 举办.在 300+ 参评项目中脱颖而出获得 "2020 年度十大开源新锐项目 ...
Apache Flink 为什么能够成为新一代大数据计算引擎？
众所周知,Apache Flink(以下简称 Flink)最早诞生于欧洲,2014 年由其创始团队捐赠给 Apache 基金会.如同其他诞生之初的项目,它新鲜,它开源,它适应了快速转的世界中更重视的速 ...
过年好，新一代大数据任务调度系统 - Apache DolphinScheduler 1.3.5 发布
节后上班第一天,新一代大数据任务调度 - Apache DolphinScheduler(incubator) 就迎来了好消息 - 在社区 20 多位小伙伴的贡献与努力下,社区发布了 1.3.5 版本 ...
新一代大数据任务调度系统 - Apache DolphinScheduler 1.3.4 发布，推荐下载
| 本文编辑:朱桐新一代大数据任务调度 - Apache DolphinScheduler(incubator) 在经过社区 30 多位小伙伴的贡献与努力下于发布了 1.3.4 版本,1.3.4 作 ...
除Hadoop大数据技术外，还需了解的九大技术
除Hadoop外的9个大数据技术: 1.Apache Flink 2.Apache Samza 3.Google Cloud Data Flow 4.StreamSets 5.Tensor Flow ...
大数据技术人年度盛事! BDTC 2016将于12月8-10日在京举行
2016年12月8日-10日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所和CSDN共同协办的2016中国大数据技术大会(Big Data Technology ...
2016中国大数据技术大会（ BDTC ）共商大数据时代发展之计
中国大数据技术大会(BDTC)的前身是Hadoop中国云计算大会(HadoopinChina,HiC).从2008年仅60余人参加的技术沙龙发展到当下数千人的技术盛宴,目前已成为国内最具影响力.规模最 ...

随机推荐

linux几种查看日志的方法
linux tail命令用途是依照要求将指定的文件的最后部分输出到标准设备,通常是终端,通俗讲来,就是把某个档案文件的最后几行显示到终端上,假设该档案有更新,tail会自己主动刷新,确保你看到最新的档 ...
LeetCode143：Reorder List
题目: Given a singly linked list L: L0→L1→…→Ln-1→Ln, reorder it to: L0→Ln→L1→Ln-1→L2→Ln-2→… You must d ...
EasyUi 合并单元格占列显示
$("#TableContainer").datagrid({ url: '', method: "get&q ...
c#获取word文件页数、字数
引用命名空间:using Microsoft.Office.Interop.Word; //启动Word程序 Application myWordApp = new ApplicationClass( ...
C# 委托和事件，简单示例说明问题
先看看示例效果按照国际惯例,得先说说概念. 委托(C# 编程指南) 事件(C# 编程指南) 以上内容来自MSDN. 委托源码 [委托] 概念和代码都有了.剩下的就是应用了,要是只知道概念不会用,那还 ...
log4j学习（二）不同类的日志输出到不同的文件
目的:一个应用中有两个不同作用的后台服务,我们需要把他们的日志分开,存放到2个不同的日志文件中. 办法:需要在log4j.properties文件中配置两个不同的logger和对应的appender ...
poj 107 DNA sorting
关于Java的题解,也许效率低下,但是能解决不只是ACGT的序列字符串代码如下: import java.util.*; public class Main { public static void ...
(6)Oracle基础--简单查询
.基本查询语句 SELECT [DISTINCT] column_name1,... | * FROM table_name [WHERE conditions]; P: DISTINCT关键字的作 ...
debug 工具
git blame 查看某个文件的修改记录二分查找确定 bug 来源启动输入 git bisect start,启动流程输入 git bisect bad,标记当前是错误的输入 gi ...
Part15 – 前端之jQuery
本节内容 jQuery 一.jQuery jQuery是对DOM的封装 jQuery 中文在线文档:http://jquery.cuishifeng.cn/ 模块(Python) <--> ...