Stream Studio是DataWorks旗下重磅推出的全新子产品.已于2019年4月18日正式对外开放使用.Stream Studi是一站式流计算开发平台,基于阿里巴巴实时计算引擎Flink构建,集可视化拖拽DAG和SQL两种开发模式,支持DAG与SQL互相转换,通过可视化拖拽就可以轻松实现流计算作业开发,适用于实时ETL.实时报表.实时大屏.监控预警以及各类实时在线系统等应用场景. Stream Studio的推出意味着DataWorks正式对外提供实时计算能力,进入到流.批全覆盖的大数…
本文整体分为两部分,第一部分是简写,如果能看懂会用,就直接从此部分查,方便快捷,如果不是很理解此SQL的用法,则查看第二部分,是详细说明,当然第二部分语句也会更全一些! 第一部分: hive模糊搜索表:show tables like '*name*'; 查看表结构信息:desc table_name; 查看分区信息:show partitions table_name; 加载本地文件:load data local inpath '/xxx/test.txt' overwrite into t…
系列随笔: (总览)基于商品属性的相似商品推荐算法 (一)基于商品属性的相似商品推荐算法--整体框架及处理流程 (二)基于商品属性的相似商品推荐算法--Flink SQL实时计算实现商品的隐式评分 (三)基于商品属性的相似商品推荐算法--批量处理商品属性,得到属性前缀及完整属性字符串 (四)基于商品属性的相似商品推荐算法--推荐与评分高的商品属性相似的商品 (五)基于商品属性的相似商品推荐算法--算法调优及其他 2020.04.15  补充:协同过滤推荐算法.pptx 提取码:4tds 注:如果…
文 | 潘国庆 携程大数据平台实时计算平台负责人 本文主要从携程大数据平台概况.架构设计及实现.在实现当中踩坑及填坑的过程.实时计算领域详细的应用场景,以及未来规划五个方面阐述携程实时计算平台架构与实践,希望对需要构建实时数据平台的公司和同学有所借鉴. 一.携程大数据平台之总体架构 携程大数据平台结构分为三层: 应用层:开发平台Zeus(分为调度系统.Datax数据传输系统.主数据系统.数据质量系统).查询平台(ArtNova报表系统.Adhoc查询).机器学习(基于tensorflow.spa…
基于 Flink 1.9 讲解的专栏,涉及入门.概念.原理.实战.性能调优.系统案例的讲解. 专栏介绍 扫码下面专栏二维码可以订阅该专栏 首发地址:http://www.54tianzhisheng.cn/2019/11/15/flink-in-action/ 专栏地址:https://gitbook.cn/gitchat/column/5dad4a20669f843a1a37cb4f 专栏亮点 全网首个使用最新版本 Flink 1.9 进行内容讲解(该版本更新很大,架构功能都有更新),领跑于目…
作者介绍 倪增光,饿了么BDI-大数据平台研发高级技术经理,曾先后就职于PPTV.唯品会.15年加入饿了么,组建数据架构team,整体负责离线平台.实时平台.平台工具的开发和运维,先后经历了唯品会.饿了么数据平台从无到有到不断完善的过程.   一.背景 饿了么BDI-大数据平台研发团队目前共有20人左右,主要负责离线&实时 Infra 和平台工具开发,其中包括20+组件的开发和维护.2K+ Servers 运维及数据平台周边衍生工具研发&维护.离线 Infra 和平台工具这一块对外分享的比…
Storm 实战:构建大数据实时计算(阿里巴巴集团技术丛书,大数据丛书.大型互联网公司大数据实时处理干货分享!来自淘宝一线技术团队的丰富实践,快速掌握Storm技术精髓!) 阿里巴巴集团数据平台事业部商家数据业务部 编著 ISBN 978-7-121-22649-6 2014年8月出版 定价:59.00元 184页 16开 编辑推荐 Storm以其简单.灵活.健壮而著称.随着大数据实时处理需求的强劲增长,Storm的出现填补了大数据处理生态系统的缺失,并被越来越多的公司所采用. <Storm实战…
1.概述 最近有同学问道,除了使用 Storm 充当实时计算的模型外,还有木有其他的方式来实现实时计算的业务.了解到,在使用 Storm 时,需要编写基于编程语言的代码.比如,要实现一个流水指标的统计,需要去编写相应的业务代码,能不能有一种简便的方式来实现这一需求.在解答了该同学的疑惑后,整理了该实现方案的一个案例,供后面的同学学习参考. 2.内容 实现该方案,整体的流程是不变的,我这里只是替换了其计算模型,将 Storm 替换为 Spark,原先的数据收集,存储依然可以保留. 2.1 Spar…
克拉克拉(KilaKila):大规模实时计算平台架构实战 一.产品背景:克拉克拉(KilaKila)是国内专注二次元.主打年轻用户的娱乐互动内容社区软件.KilaKila推出互动语音直播.短视频配音.对话小说等功能,满足当下年轻用户个性化.碎片化的文娱需求.App用户等级体系作为克拉克拉社区化打造的核心业务,在增强社区活跃度.提高产品留存方面起到至关重要的作用.随着业务规模增长,海量用户行为日志实时采集与计算的瓶颈也日益突出,由于单台服务器的处理能力有限,海量数据分析需要分布式计算模型来替代.通…
本文主要介绍四个问题: 什么是Spark Streaming实时计算? Spark实时计算原理流程是什么? Spark 2.X下一代实时计算框架Structured Streaming Spark Streaming相对其他实时计算框架该如何技术选型? 本文主要针对初学者,如果有不明白的概念可了解之前的博客内容. 1.什么是Spark Streaming? 与其他大数据框架Storm.Flink一样,Spark Streaming是基于Spark Core基础之上用于处理实时计算业务的框架.其实…