作为数据目录产品,Data Catalog 通过汇总技术和业务元数据,解决大数据生产者组织梳理数据.数据消费者找数和理解数的业务场景,并服务于数据开发和数据治理的产品体系.本文介绍了字节跳动 Data Catalog 系统的构建和迭代过程,将分为上.下篇发布.上篇主要围绕 Data Catalog 调研思路及技术架构展开. 一.背景 1. 元数据与 Data Catalog 元数据,一般指描述数据的数据,对数据及信息资源的描述性信息.在当前大数据的上下文里,通常又可细分为技术元数据和业务元数据.…
背景 字节跳动 Data Catalog 产品早期,是基于 LinkedIn Wherehows 进行二次改造,产品早期只支持 Hive 一种数据源.后续为了支持业务发展,做了很多修修补补的工作,系统的可维护性和扩展性变得不可忍受.比如为了支持数据血缘能力,引入了字节内部的图数据库 veGraph,写入时,需要业务层处理 MySQL.ElasticSearch 和 veGraph 三种存储,模型也需要同时理解关系型和图两种.更多的背景可以参照之前的文章. 新版本保留了原有版本全量的产品能力,将存…
闲话 jquery 的源代码已经到了1.12.0版本号.据官网说1版本号和2版本号若无意外将不再更新,3版本号将做一个架构上大的调整.但预计能兼容IE6-8的.或许这已经是最后的样子了. 我学习jq的时间非常短,应该在1月.那时的版本号还是1.11.3,通过看妙味课堂的公开课视频和文档里的全部api的注解学习. 源代码则是近期些日子直接生啃.跳过了sizzle和文档处理的部分(待业狗压力大.工作以后再看).关注data.ready.event.queue.Defferred(jq的promise…
在公有云服务器 发现使用tcp(http)的tracker连接数太多 用户太多会造成windows系统卡顿 特此发表一下修改配置和路由器的方法 解决卡顿问题 解决方法1(参考内容): 修改 /etc/sysctl.conf 添加 net.ipv4.tcp_keepalive_time = 3600 established 状态保持时间为 3600 秒 net.ipv4.tcp_keepalive_probes = 6 established 状态保持时间到期后 请求次数 net.ipv4.tcp…
通过使用火山引擎MARS-APM Plus的memory graph功能,飞书研发团队有效分析定位问题线上case多达30例,线上OOM率降低到了0.8‰,降幅达到60%.大幅提升了用户体验,为飞书的性能品质保驾护航. 应用程序稳定性是影响用户体验及留存的关键因素 对于移动App的开发者来说,最基础也是最关注的问题就是应用程序的稳定性.而崩溃问题是影响稳定性的重要因素, 包括NSException.Signal.卡死.OOM(Out Of Memory)等问题类型.其中,OOM问题是随着业务的迭…
http://www.cnblogs.com/sennly/p/4139675.html 1.公有云平台服务简介 Windows Azure 是一个灵活而开放的云平台,通过该平台,您可以在数据中心快速生成.部署和管理应用程序.Wondows Azure 支持所有主流操作系统.语言或开发工具,并且能够将公有云应用程序与现有 IT 基础设施相集成. 永远在线,安全可靠 Windows Azure 可以轻松实现异地多点备份,使您能够构建和运行高度可用的应用程序,而不必将精力放在基础结构上.Window…
本文转载至 http://3387405.blog.51cto.com/3377405/1598977 预见未来看似是一件不太可能的事情,然而现在企业科技高速发展的态势完全超乎想象. 就在几周前InfoWorld的主编Eric Knorr在引流潮流专栏发表一篇非常火爆的关于2015年以及之后的九大科技企业趋势,在其中非常清晰的指出这九大潮流中头两位就是公有云的胜利和容器技术的狂热.从这里我们很容易理解为什么最近Scott Guthrie 发表并且Jason Zander 再次阐述与Docker合…
史上最全存储引擎.索引使用及SQL优化的实践 1 MySQL的体系结构概述 2. 存储引擎 2.1 存储引擎概述 2.2 各种存储引擎特性 2.2.1 InnoDB 2.2.2 MyISAM 3. 优化SQL步骤 3.1 查看SQL执行频率 3.2 定位低效率执行SQL 3.3 explain分析执行计划 3.3.2 explain 之id 3.3.3 explain 之 select_type 3.3.4 explain 之 table 3.3.5 explain 之 type 3.3.6 e…
本文转载自 高端存储知识 Gartner在2018年Market Insight: Preparing for the SSD Rise and HDD Demise一文中指出:当闪存介质降到HDD每GB平均销售价格(ASP)的三倍时,闪存技术通常会出现一个拐点,会加速取代HDD. 因此,Gartner预测,2023年,所有的数据中心的10,000rpm的HDD几乎都被SSD代替.Gartner建议,现在就停止在数据中心环境中使用15,000 rpm和10,000 rpm HDD技术. 而另一方…
7 月 9 日,GOTC 2021 全球开源技术峰会上海站与 WAIC 世界人工智能大会共同举办,峰会聚焦 AI 与云原生两大以开源驱动的前沿技术领域,邀请国家级研究机构与顶级互联网公司的一线技术专家,为参会的开发者和技术爱好者带来了最硬的行业技术干货,提供了一个难得的技术交流平台. 在本次会议上,腾讯云高级工程师高策进行了题为"公有云上构建云原生 AI 平台的探索与实践"的技术分享,介绍了 AI 类业务在公有云上的现状以及相应的技术选型和面临的问题.最后通过分析开源社区和业界的趋势,…