图文原创:谭婧(王凌老粉)

“爷青回”

“我们只是老了,并没有死。”

谭老师作为老粉,热烈庆祝“甜心教主”王凌成为现象级翻红顶流。

只要地球不爆炸,她的数据就一个都不能丢,还得用好了。

那为王凌从头开发一套大数据与智能系统吧?

答案,没必要。

不能把精力花在和IT基础设施你死我活地缠斗中。

就好比,当你的目的是去开会,那就不能去搭建会议室。

所以,这边建议电视台:

把所有数据放到公有云上,使用无服务器架构(Serverless),将项目命名为 :

“王凌老粉打Call数据项目” 

每一家云厂商都能拿出足够的资料来证明自己的产品才是最好的,我们不在此处争论。

方案技术选型上,一步到位,挑选一朵最大的,全球部署的公有云,方便凌文化出海。

用亚马逊公有云,全方位无死角给凌打Call。

首先,王凌的视频,音频,电视剧,演唱会等大批量历史数据,不存放在本地IDC上。

现在疫情,供应链紧张,硬件采购周期太长,电视台的审批流程也太长,不能等。

直接将凌的所有数据妥善存储在Amazon S3 数据湖中。

不同种类的数据都能存,量大量少都能存,而且不会丢,永远在数据湖里,安全,放心。

技术上,这些文件存进S3数据湖自动成为数据API,方便调用,标准一致,取用方便。

怪不得,有人称S3为事实上的云计算对象存储标准。

没有数据指导的业务,怎么可能做好?

领导着急看数,数据分析人员更着急,这个情况不允许发生,立刻配备云数据仓库Amazon Redshift。

联合查询的功能不能少:

比如,某电视台数据分析专家想查手机APP平台和大屏电视机顶盒观看平台的用户之间的联系。

Redshift联合查询可以直接从手机App平台(已入湖),大屏电视机顶盒平台(基于数据库),获取数据的联系。

晚上九点,晚饭后,某一批用户在电视上反复观看王凌现场舞蹈(产生的行为数据存在数据库中,包括当时产生的很多标签)。

然后,我们直接查询一批用户在手机App中的观看过和这些行为数据中的标签相关的视频(这些数据存在数据湖里),比如标签里有“甜心教主” “电视剧”。

这两类数据存放在不同的地方,一个在数据库,一个在数据湖。如果之前没看过相关视频(“王凌男孩跳舞热榜”),就向手机App端推送。

实时智能分析必不可少:

先将历史数据和新鲜(实时)两种数据同时接入云数据仓库Redshift。

Amazon Redshift ML 使数据分析师和数据库开发人员可以在Redshift 数据仓库中使用熟悉的 SQL 命令轻松创建、训练和应用机器学习模型。

实时看板必不可少:

某电视台,没有设置王凌线上投票,实在令人遗憾,氛围感差些些。

建议电视台开展线上投票,并公开实时看板,让全国粉丝了解投票热度整体进展,即时知道投票效果。

所有产生的实时打榜数据,接入流式数据管道Amazon Kinesis,数据像水流一样一直灌进来。

并不是所有人时时刻刻在打榜,水流有大有小,而无服务器架构的Kinesis可以基于水流的大小即时弹性扩缩,无需关心流量高峰低谷,安心接入。

Redshift创建流式物化视图对接Kinesis,结合数据仓库内历史数据生成实时看板。

那些不能从电视台数据仓库里直接取数的外部团队,比如,抖音和快手,办法是电视台借助Amazon Redshift Data Sharing的功能,将数据安全共享。

查询并发高峰的时刻,Redshift并发扩展能力也能轻松应对。

总而言之,数据仓库性能越高越好,价格越便宜越好。

这就要靠云厂商的技术手段了,压力给到亚马逊云科技这边。

“王凌老粉打Call数据项目”项目,危险行为识别必不可少:

用日志分析服务Amazon OpenSearch,做链路追踪,监视黑产恶意刷榜,确保公平。

“王凌老粉打Call数据项目”项目,数据库选型如下:

1. 如果王凌开直播,刷礼物的交易数据,先放入极致弹性的Amazon DynamoDB中,再将历史数据同步到Redshift数据仓库。

2. 手机APP用户浏览王凌视频的行为,记录等,也得存入非关系型数据库DynamoDB中。

本方案,为突发状况,准备了预案。

突发情况一:

突然,某天,要查询一遍过去十年的王凌数据,可能几十PB。

方法一:这种使用频率极低,又要分析海量数据,成本还要低的查询,就用Amazon Athena。

方法二,搭建一个Hadoop系统。但是,为了干这件事情,耗费的人力物力非常可怕,从头干起大约两个月。

在Athena里,查询按次按量计费,一定要查询的话,这笔费用可以出。

突发情况二:

“王凌男孩跳舞热榜”现象,让人始料不及。跟风创作,大量上传热舞视频。

实时处理这些视频并提取特征,为下一阶段分析提供数据,得用什么技术呢?

答案是,流式数据分析技术,Amazon Kinesis Analytics。

另外,历史数据怎么处理呢?

答案是,使用托管大数据平台Amazon EMR处理大规模历史数据,为凌的每一个历史视频都打上标签。同时EMR Serverless以极简的开发来处理数据,同时实现最低的成本。

最后强调一句,亚马逊云科技Serverless无服务器架构,很黑科技。

初听还是小学生,再听已是社会人,支持凌,致我们逝去的青春。

“王凌老粉打Call数据项目”方案的技术选型部分就介绍完了。

刚刚提到很多亚马逊云科技产品服务,大家感兴趣的话也可以扫码进入官网阅读,一起学习成长,欢迎交流讨论~

来源:公众号亲爱的数据

给王心凌打Call的,原来是神奇的智能湖仓的更多相关文章

  1. TypeScript: Angular 2 的秘密武器(译)

    本文整理自Dan Wahlin在ng-conf上的talk.原视频地址: https://www.youtube.com/watch?v=e3djIqAGqZo 开场白 开场白主要分为三部分: 感谢了 ...

  2. TypeScript

    TypeScript: Angular 2 的秘密武器(译)   本文整理自Dan Wahlin在ng-conf上的talk.原视频地址: https://www.youtube.com/watch? ...

  3. Caliburn实现MVVM模式的编程

    引言:什么是Caliburn ? 一个夜晚,一处教堂,人们忏悔结束后抬头看到一把宝剑插在一块石头上.石上字述“英格兰人,凡能从石头上拔出剑者,为王者!”,Caliburn就是英格兰人心中的石中剑,这把 ...

  4. OTT

    http://baike.baidu.com/view/1315414.htm OTT 编辑   OTT 是“Over The Top”的缩写,是通信行业非常流行的一个词汇,这个词汇来源于篮球等体育运 ...

  5. 魔镜魔镜,今天有雨吗?——GitHub 热点速览 v.21.25

    作者:HelloGitHub-小鱼干 上周智能驾驶项目的作者曾经做过一个透明小电视机,同透明电视机类似 MagicMirror 也是一个神奇的智能项目,使用它进行模块定制开发,你将拥有一块非常酷炫的智 ...

  6. 理想汽车 x JuiceFS:从 Hadoop 到云原生的演进与思考

    理想汽车在 Hadoop 时代的技术架构 首先简单回顾下大数据技术的发展,基于我个人的理解,将大数据的发展分了4个时期: 第一个时期: 2006 年到 2008 年.2008 年左右,Hadoop 成 ...

  7. BZOJ 1006 【HNOI2008】 神奇的国度

    题目链接:神奇的国度 一篇论文题--神奇的弦图,神奇的MCS-- 感觉我没有什么需要多说的,这里简单介绍一下MCS: 我们给每个点记录一个权值,从后往前依次确定完美消除序列中的点,每次选择权值最大的一 ...

  8. 前端精选文摘:BFC 神奇背后的原理

    BFC 已经是一个耳听熟闻的词语了,网上有许多关于 BFC 的文章,介绍了如何触发 BFC 以及 BFC 的一些用处(如清浮动,防止 margin 重叠等).虽然我知道如何利用 BFC 解决这些问题, ...

  9. MVC系列——MVC源码学习:打造自己的MVC框架(四:了解神奇的视图引擎)

    前言:通过之前的三篇介绍,我们基本上完成了从请求发出到路由匹配.再到控制器的激活,再到Action的执行这些个过程.今天还是趁热打铁,将我们的View也来完善下,也让整个系列相对完整,博主不希望烂尾. ...

随机推荐

  1. SpringMVC-设置编码过滤器

    1.接上文->springmvc获取请求参数链接 2.在web.xml配置编码过滤器 <!-- 配置编码过滤器--> <filter> <filter-name&g ...

  2. C++内存空间管理

    C++内存空间管理 1.C++内存机制 1.栈(Stack),函数中的局部变量,由编译器负责分配释放,函数结束,变量释放. 2.堆(Heap),通过new 申请的内存,由delete或delete[] ...

  3. 使用IDEA生产JavaDoc文档

    源代码 package com.*****.base; //文档注解 /** * @Author intelliyu * @version 1.0 //版本 * since 1.8 //指明需要最早使 ...

  4. Conda安装及第一个py程序

    Conda安装及第一个py程序 安装Conda 下载安装 在Anaconda官网下载Anaconda 打开Conda安装程序 设置好安装目录(这个一定要记好,后边要用),比如我的目录就是 D:\Pro ...

  5. petite-vue源码剖析-逐行解读@vue-reactivity之effect

    当我们通过effect将副函数向响应上下文注册后,副作用函数内访问响应式对象时即会自动收集依赖,并在相应的响应式属性发生变化后,自动触发副作用函数的执行. // ./effect.ts export ...

  6. k8s入门之集群搭建(二)

    一.准备三台节点 从上篇文章 k8s入门之基础环境准备(一)安装的Ubuntu虚拟机克隆出三台虚拟机,如图所示 启动这三台虚拟机节点,分别做如下配置 虚拟机名称 IP HostName k8sMast ...

  7. SerialPort-4.0.+ 使用说明(Kotlin版本)

    SerialPort-4.0.+ 项目官网 Java版本使用说明 介绍 SerialPort 是一个开源的对 Android 蓝牙串口通信的轻量封装库,轻松解决了构建自己的串口调试APP的复杂程度,让 ...

  8. macOS 安装 Nebula Graph 看这篇就够了

    本文首发于 Nebula Graph Community 公众号 背景 刚学习图数据的内容,当前网上充斥大量的安装文档,参差不齐,部署起来令人十分头疼. 现整理一份比较完整的安装文档,供大家学习参考, ...

  9. 记一次sql注入的解决方案

    点赞再看,养成习惯,微信搜索「小大白日志」关注这个搬砖人. 本文在公众号文章已同步,还有各种一线大厂面试原题.我的学习系列笔记. 今天业务提了个模糊查询,一听就知道这种问题有坑,肯定涉及到sql注入, ...

  10. js 前端实现下拉刷新 上拉加载

    效果 css html,body{ height:100%; // 其他界面未设置html 无法监听scroll } /* 下拉刷新 */ .refresh-loading { transition: ...