作为数据目录产品,Data Catalog 通过汇总技术和业务元数据,解决大数据生产者组织梳理数据.数据消费者找数和理解数的业务场景,并服务于数据开发和数据治理的产品体系.本文介绍了字节跳动 Data Catalog 系统的构建和迭代过程,将分为上.下篇发布.上篇主要围绕 Data Catalog 调研思路及技术架构展开. 一.背景 1. 元数据与 Data Catalog 元数据,一般指描述数据的数据,对数据及信息资源的描述性信息.在当前大数据的上下文里,通常又可细分为技术元数据和业务元数据.…
背景 字节跳动 Data Catalog 产品早期,是基于 LinkedIn Wherehows 进行二次改造,产品早期只支持 Hive 一种数据源.后续为了支持业务发展,做了很多修修补补的工作,系统的可维护性和扩展性变得不可忍受.比如为了支持数据血缘能力,引入了字节内部的图数据库 veGraph,写入时,需要业务层处理 MySQL.ElasticSearch 和 veGraph 三种存储,模型也需要同时理解关系型和图两种.更多的背景可以参照之前的文章. 新版本保留了原有版本全量的产品能力,将存…
来自字节跳动的管梓越同学一篇关于Apache Hudi在字节跳动推荐系统中EB级数据量实践的分享. 接下来将分为场景需求.设计选型.功能支持.性能调优.未来展望五部分介绍Hudi在字节跳动推荐系统中的实践. 在推荐系统中,我们在两个场景下使用数据湖 我们使用BigTable作为整个系统近线处理的数据存储,这是一个公司自研的组件TBase,提供了BigTable的语义和搜索推荐广告场景下一些需求的抽象,并屏蔽底层存储的差异.为了更好的理解,这里可以把它直接看做一个HBase.在这过程中为了能够服务…
前言 我们平时在使用软件的过程中是不是遇到过这样的情况:"这个 app 怎么还没下载完!"."太卡了吧!"."图片怎么还没加载出来!"."怎么刚进去就卡了!"."这怎么点了一下就退出了!"等等,这些情况其实包含了我们性能优化的主要内容. 性能的优化是一个老生常谈的点,也是一个比较重要的点.特别是诸多大厂在这方面尤为看重,毕竟就算0.1%的瑕疵,影响的讲师百万级,千万级的用户体验! 如果你已经有 2 - 3…
编辑 | 于斌 出品 | 于见(mpyujian) 近日,据多方消息,字节跳动旗下少儿英语品牌gogokid,迎来了一位新的90后CEO金钱琛.据知情人士透露,金钱琛入职不到两个月,目前全面掌管gogokid的业务.并且,由于字节跳动的教育业务负责人一直空缺,金钱琛接下来还有可能成为新"掌门". 而就在这位CEO到任的几个月前,头条系教育产品gogokid再度被爆出裁员.从gogokid推出时的踌躇满志高举高打,到如今的大幅裁员调整,字节跳动在教育领域的尝试似乎并不顺利. 而字节跳动在…
SparkSQL是Spark生态系统中非常重要的组件.面向企业级服务时,SparkSQL存在易用性较差的问题,导致难满足日常的业务开发需求.本文将详细解读,如何通过构建SparkSQL服务器实现使用效率提升和使用门槛降低. 前言 Spark 组件由于其较好的容错与故障恢复机制,在企业的长时作业中使用的非常广泛,而SparkSQL又是使用Spark组件中最为常用的一种方式. 相比直接使用编程式的方式操作Spark的RDD或者DataFrame的API,SparkSQL可直接输入SQL对数据进行ET…
最近脉脉职言区有一条讨论火了: 哪家互联网公司薪资最'厉害'? 下面的评论多为字节跳动,还炸出了很多年薪40W的测试工程师   我只想问一句,现在的测试都这么有钱了吗? 前几天还有朋友说,从腾讯跳槽去了字节,一开始我还不理解,以为他是在走职场下坡路.但现在看来,字节跳动的薪资是真的香. 按照脉脉和知乎上字节员工的说法,即便是应届毕业生都可以拿到比阿里高 20%-30% 的薪资,而有工作经验的员工,普遍薪资水平高出业内 30% 以上. 再看看数据,字节跳动测试工程师的平均月薪就有 2W,根据拉勾网…
前言 时至今日,短视频App可谓是如日中天,一片兴兴向荣.随着短视频的兴起,音视频开发也越来越受到重视,而且薪资水涨船高,以一线城市为例,音视频工程开发的薪资比Android应用层开发高出40%. 但是由于音视频开发涉及知识面比较广,入门门槛相对较高,让许许多多开发者望而生畏. 虽然网上有很多的博文总结了音视频打怪升级的路线,但是音视频开发相关的知识都相对独立,有讲"音视频解码相关"的,有讲"OpenGL相关"的,也有讲"FFmpeg相关的",但…
现在快手字节跳动等公司都在大量招人,薪资优厚,但是想进去却没那么简单,面过的人都知道,这些公司的面试官巴不得把你会的东西都给你挖出来,所以要深入复习知识点,让自己耐问一点.一下是针对内存泄露真实面试过程: 1.什么是内存泄漏 内存泄漏是指程序申请内存之后,无法释放已经申请的内存,也就是该回收的对象不能被回收.一般是持有引用的对象生命周期比该引用生命周期长导致. 2.哪些场景导致内存泄漏 资源对象没有关闭导致内存泄漏,比如广播没有反注册,EventBus没有反注册,文件流没有关闭,数据库指针没有关…
本文是字节跳动数据平台开发套件团队在1月9日Flink Forward Asia 2021: Flink Forward 峰会上的演讲分享,将着重分享Flink在字节跳动数据流的实践. 字节跳动数据流的业务背景 数据流处理的主要是埋点日志.埋点,也叫Event Tracking,是数据和业务之间的桥梁,是数据分析.推荐.运营的基石. 用户在使用App.小程序.Web等各种线上应用时产生的行为,主要通过埋点的形式进行采集上报,按不同的来源分为客户端埋点.Web端埋点.服务端埋点. 不同来源的埋点都…