更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号回复【1】进入官方交流群。
 
性能在数据分析中至关重要,它直接决定数据处理的效率与及时性,进一步对数据驱动的企业决策造成影响。
 
举个例子来看,某个大型电商公司每天产生海量的交易数据,数据分析团队需要通过这些数据了解客户的购买行为、热门商品、销售趋势等,来制定营销策略和优化运营。当分析团队获取过去一个月的销售数据报告时,由于数据量庞大,系统处理速度缓慢,需要几十分钟到几小时才能得出结果。而在某些促销活动期间,如果不能及时获取最新的销售数据来评估活动效果,就无法及时调整策略,错失营销机会。
 
随着数字化转型的深入,不仅仅是电商领域,各行业都需要基于实时数据做出关键决策。而对企业底层数据系统来说,在处理复杂的数据分析任务,如多维度的关联分析或数据挖掘时,可能出现延迟、崩溃、错误等问题,导致数据不准确、不完整、时效性差。
 
作为火山引擎推出的一款OLAP产品,ByteHouse具备原生的高性能优势,广泛应用于字节跳动和外部企业的数据分析场景。早在2022年2月,ByteHouse在字节跳动的部署规模已超1万8000台,单集群超2400台。针对数据分析中常见的实时吞吐慢、BI报表慢、在线/离线分析慢等情况,ByteHouse推出六大场景的性能提升方案,进一步提升OLAP性能,助力企业更快速、更准确实施决策。
第一,在实时吞吐的场景中,首先,ByteHouse支持 Upsert的部分列更新能力,确保每秒百万数据入库前提下的落盘即更新。其次,基于自研uniqueMergeTree引擎,ByteHouse为数据写入即去重提供性能保障,特别是满足了 IoT 场景下的高性能诉求。此外,ByteHouse自研的 Flink Connector 能更好对接 Flink,为数据写入建立更高效、流畅的通路。以某畅销游戏公司的实践举例,该公司每秒需要写入 220 万条游戏平台日志数据,相当于每秒写入约 4GB 数据,而在ByteHouse的支持下,该公司的底层数据引擎能很好满足以上诉求,且性能实现线性增长。
 
第二,在BI报表分析场景中,数据分析师、运营团队等经常会遇到报表生成慢、指标平台响应慢、管理驾驶舱显示速度慢等问题。一方面,ByteHouse通过增强MV物化视图和Projection功能,实现对复杂查询、计算逻辑的预聚合,提升应用层的性能表现,另一方面基于Query Cache来缓存数据和复杂查询中的结果集。在某娱乐型公司的应用实践中,ByteHouse支撑该公司每天15亿数据记录,每秒6万TPS峰值,使报表时效性从过去的 T+1 方式直接压缩到分钟级,甚至秒级。
 
第三,在在线、离线复杂分析场景中,ByteHouse则针对CBO、RBO等进行自研优化器增强。此外,对于Runtime Filter 这一对大关联场景性能提升有关键影响的技术,ByteHouse自研分布式缓存能够进一步解决分离架构带来的性能损失问题。
 
第四,在湖仓联邦分析场景中,ByteHouse基于 Native Reader 技术压缩 IO 访问路径,提升外表访问性能。通过进一步与优化器进行融合,ByteHouse能持续提高湖仓分析速度。
 
第五,在人群圈选与行为分析场景中,ByteHouse 具备 BitEngine/BitMap64/BitMap indexDe 等自研引擎和增强功能,通过与增长分析DataFinder、客户数据平台VeCDP等应用紧密结合,ByteHouse针对业务场景开发了大量内置分析函数,如留存分析、路径分析等。即使在 10 亿级的用户圈选的场景下, P99 响应时间也能达到秒级到毫秒级。
 
第六,在以图搜图场景中,ByteHouse推出了Vector引擎,即向量检索能力。通过支持多种向量检索算法以及高效的执行链路,ByteHouse可以支撑级大规模向量检索场景,达到毫秒级的查询延迟。在某舆情监测企业的实践中,行业相关产品的查询效率在几秒到十多秒之间,而优化后的ByteHouse只需150-200 毫秒内,就能从大规模数据中查找出近似的 1000 张图片,并完成相似度评分。
 
在整体性能数据上,通过使用SSB、TPC-H 和 TPC-DS 三种数据集进行性能测试,并以性能著称的某开源OLAP为基准测试产品,ByteHouse在不同查询项上都有显著的性能提升。以TPC-H 数据集举例,在相同硬件和软件环境下, ByteHouse 查询效率高于本次基准测试产品几十倍。
 
目前,ByteHouse应用于互联网、游戏、金融、汽车、气象等领域,持续为企业提供极致的数据分析能力,助推数智化转型升级。
 
点击跳转 火山引擎云原生数据仓库ByteHouse 了解更多。
 

聚焦OLAP性能提升,火山引擎ByteHouse发布六大场景解决方案的更多相关文章

  1. 高性能、快响应!火山引擎 ByteHouse 物化视图功能及入门介绍

    更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群 物化视图是指将视图的计算结果存储在数据库中的一种技术.当用户执行查询时,数据库会直接从已经预计算好的结果中获取数据 ...

  2. 火山引擎 DataLeap 的 Data Catalog 系统公有云实践

      Data Catalog 通过汇总技术和业务元数据,解决大数据生产者组织梳理数据.数据消费者找数和理解数的业务场景.本篇内容源自于火山引擎大数据研发治理套件 DataLeap 中的 Data Ca ...

  3. 还原火山引擎 A/B 测试产品——DataTester 私有化部署实践经验

      作为一款面向ToB市场的产品--火山引擎A/B测试(DataTester)为了满足客户对数据安全.合规问题等需求,探索私有化部署是产品无法绕开的一条路.   在面向ToB客户私有化的实际落地中,火 ...

  4. 火山引擎 A/B 测试产品——DataTester 私有化架构分享

    作为一款面向 ToB 市场的产品--火山引擎A/B测试(DataTester)为了满足客户对数据安全.合规问题等需求,探索私有化部署是产品无法绕开的一条路. 在面向 ToB 客户私有化的实际落地中,火 ...

  5. 火山引擎MARS-APM Plus x 飞书 |降低线上OOM,提高App性能稳定性

    通过使用火山引擎MARS-APM Plus的memory graph功能,飞书研发团队有效分析定位问题线上case多达30例,线上OOM率降低到了0.8‰,降幅达到60%.大幅提升了用户体验,为飞书的 ...

  6. M内核迎来大BOSS,ARM发布Cortex-M55配NPU Ethos-U55 ,带来无与伦比的性能提升

    说明: 全球顶级嵌入式会展Embedded Word2020这个月底就开了,各路厂家都将拿出看家本领. 先回顾下去年的消息: 1.去年年初的时候ARM发布Armv8.1-M架构,增加了Arm Heli ...

  7. 存算分离下写性能提升10倍以上,EMR Spark引擎是如何做到的?

    ​引言 随着大数据技术架构的演进,存储与计算分离的架构能更好的满足用户对降低数据存储成本,按需调度计算资源的诉求,正在成为越来越多人的选择.相较 HDFS,数据存储在对象存储上可以节约存储成本,但与此 ...

  8. 重构、插件化、性能提升 20 倍,Apache DolphinScheduler 2.0 alpha 发布亮点太多!

    点击上方 蓝字关注我们 社区的小伙伴们,好消息!经过 100 多位社区贡献者近 10 个月的共同努力,我们很高兴地宣布 Apache DolphinScheduler 2.0 alpha 发布.这是 ...

  9. CAT 3.0 开源发布,支持多语言客户端及多项性能提升

    项目背景 CAT(Central Application Tracking),是美团点评基于 Java 开发的一套开源的分布式实时监控系统.美团点评基础架构部希望在基础存储.高性能通信.大规模在线访问 ...

  10. 火山引擎 DataLeap:揭秘字节跳动数据血缘架构演进之路

    更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群 DataLeap 是火山引擎数智平台 VeDI 旗下的大数据研发治理套件产品,帮助用户快速完成数据集成.开发.运维 ...

随机推荐

  1. cerebro安装部署,es客户端优化界面

    1.下载地址 https://github.com/lmenezes/cerebro/releases 2.下载cerebro-0.9.3.zip 运行bin/cerebro ,启动没有报错,并且命令 ...

  2. 博客正式更换为emlog

    Tips:当你看到这个提示的时候,说明当前的文章是由原emlog博客系统搬迁至此的,文章发布时间已过于久远,编排和内容不一定完整,还请谅解` 博客正式更换为emlog 日期:2017-4-2 阿珏 谈 ...

  3. windows server 安装.net framework 3.5失败

    windows server如果高版本的.net framework 那么在安装.net framework3.5时会提示已安装高版本的不能安装低版本的了 ---------------------- ...

  4. 嵌入式工业开发板基础测试手册——基于NXP iMX6ULL开发板(1)

    前 言 本文档适用开发环境: Windows开发环境:Windows 7 64bit.Windows 10 64bit 虚拟机:VMware15.1.0 Linux开发环境:Ubuntu18.04.4 ...

  5. Mysql通过frm和ibd恢复数据库

    昨天的考试过程中,有个考点的服务器蓝屏重启后发现Mysql启动不了(5.6.45 x32版本,使用innoDB),重装后无法加载原数据库记录,通过查询资料,通过frm和idb文件成功恢复了数据库记录. ...

  6. C++ 中的 lowbit

    lowbit 的定义 首先了解 lowbit 的定义 \(lowbit(n)\) ,为 \(n\) 的二进制原码中最低的一位 \(1\) 以及其后面的 \(0\) 所表示的数 举个简单的例子: 将 \ ...

  7. Vue 3 后端错误消息处理范例

    1. 错误消息格式 前后端消息传递时,我们可以通过 json 的 errors 字段传递错误信息,一个比较好的格式范例为: { errors: { global: ["网络错误"] ...

  8. Elasticsearch tp5使用

    下载elassticsearch和kibana的网址:https://www.elastic.co/cn/downloads/?elektra=home&store=hero 下载Elasti ...

  9. 移动web开发适配秘籍Rem

    目录 移动web开发的特点 Rem 布局适配原理 Media Query(媒体查询) scss 工程使用函数计算 JS动态获取屏幕的宽度 直接将html 的 font-size 设置成 100px 移 ...

  10. JavaScript处理后端返回PDF文件流,在线预览下载PDF文件

    在实际开发业务中,遇到这一需求,即后端返回的pdf文件,是以base64文件流的方式,在此不便操作接口响应等操作,便以上传一个文件转化为文件流的形式模拟 实际应用时,base64Img = res.d ...