业务挑战与痛点

随着互联网技术的发展、云计算技术的成熟、人工智能技术的兴起和数字化经济的崛起,数据已成为企业的核心资产。在金融行业中,数字化已成为了支撑各类业务场景的核心力量,包括个人理财、企业融资、股票交易、保险理赔、贷款服务、支付结算、投资咨询、资产管理等等。然而,在基于大数据分析与处理技术的业务建设中,当下的金融企业也面临许多挑战与不足:

  1. 实时与查询性能不足,高并发支持挑战大: 金融行业中常见的风控、决策分析、高管看板、实时营销等业务场景均要求数据的高时效性以及秒级甚至毫秒级的查询性能;同时金融行业常见的支付、转账、账务业务场景均对吞吐量有很高的要求,需要稳定的高并发数据服务支持。然而基于离线数仓的架构实时性能不足,俨然已经无法满足数据快速获取和业务价值变现的诉求。
  2. “数据孤岛”制约大数据发挥价值: 金融行业的数据来源通常包含三大类:业务信息数据、行为数据和第三方数据。这些数据通常来自不同的数据源。烟囱式系统建设导致各部门业务系统相互独立,形成大大小小的数据孤岛,造成数据分析和决策困难等。
  3. 数据质量问题频发: 金融大数据来自不同的生产部门,数据通过不同的链路、不同的写入方式到达目标端供查询,服务链路的稳定性难以保障,导致数据的准确性、完整性、一致性等质量问题频发,各团队花费了大量精力也难以很好地保障整体数据服务质量。
  4. 架构复杂带来成本增加: 金融企业的技术栈差异非常大,复杂的技术栈使得开发与维护的成本成倍增长,平台之间的数据迁移成本、多副本存储成本、数据转换的风险成本随着技术栈的增多而逐年递增。

金融行业的数字化转型已经被推上日程,选择正确的技术与工具以完成大数据业务的构建是抓住机遇的关键一环。在众多应对数字化转型的策略中,实时数仓可以帮助企业实现数据的实时采集、存储和查询,通过 T+0 的大数据分析流程帮助企业快速通过数据捕捉到业务变化。而 DataOps 则可以帮助企业实现数据的快速交付、高质量和高效率,从而更好地支持业务决策和创新。基于实时数据仓库+DataOps 展开数字化转型已经成为趋势。

基于 SelectDB +白鲸开源 WhaleStudio 的解决方案

方案整体介绍

SelectDB 是飞轮科技基于 Apache Doris 打造的新一代实时数据仓库,面向不同行业提供通用的端到端实时大数据分析解决方案,帮助企业轻松构建起 T+0 的实时大数据分析流程。目前,飞轮科技已推出 SelectDB Cloud 和 SelectDB Enterprise 两款企业级产品,能够差异化地满足云上开箱即用、私有化部署和自主可控的不同需求。

SelectDB 的解决方案能够金融企业提供:

  • 实时高效的数据导入和数据更新: 提供从数据流、各类数据库、数据湖外表等异构数据源的毫秒级实时数据导入和集成能力;实时插入/更新/删除的数据更新能力,高效实现秒级别的小批量实时写入。
  • 百亿数据秒级查询响应: 提供世界级领先的极致查询性能。单边聚合及多表关联场景下,均可达 ClickHouse、Presto、Greenplum、Hive 等同类产品的三倍到数十倍,生产环境下轻松实现百亿数据秒级查询响应。
  • 统一的分析体验: 提供多种查询负载上的极速统一体验,单一引擎可同时支撑报表分析,即席分析,湖仓融合,日志检索分析,增量跑批等多种场景。
  • 简单高效的数据分析体验: 支持标准 SQL 并与 MySQL 协议高度兼容;内置可视化的运维及管理工具,提供丰富的大数据生态链接工具。
  • 金融级稳定的安全保障: 基于开源 Apache Doris 研发,代码由团队自主研发并掌握底层核心架构,100% 自主可控;与信创生态高度兼容,可稳定地运行在各类主流国产化软硬件生态中;企业级安全特性加持,如多租户资源隔离、跨集群复制、网络安全、安全审计等,保证金融级别高可用。

WhaleStudio 是白鲸开源科技根据全球领先的 DataOps 理念打造的新一代数据集成调度工具,它基于白鲸开源主导的Apache DolphinScheduler和 Apache SeaTunnel 的开源版打造而成。目前,WhaleStudio 支持公有云、私有云和混合云,已与 AWS、阿里云、华为云等国内外头部云厂商达成合作,全面支持云原生,帮助企业更好地适应大数据和云原生大时代下的数据处理与治理,同时支持 Oracle、DB2,Informix,MySQL,MongoDB、达梦等数据库CDC实时读取,也支持开源生态的数据湖 Hudi,Iceberg 数据打通和调度等,让企业用户实现数据湖、数据仓库、云的一体化数据同步和调度。

针对金融行业大数据实时分析的场景,飞轮科技联合白鲸开源共同推出金融行业的大数据解决方案,致力于解决企业在大数据业务中面临的性能不足、数据实效性差、开发/运维效率低下、成本居高不下等问题。该方案主要包含数据应用层、数据仓库层、数据同步&集成层和底层数据源四部分:

数据应用层

在 SelectDB + 白鲸开源 WhaleStudio 的实时数据分析能力支持下,能够帮助银行、信贷、基金、保险等金融企业构建起整体高性能、统一、简单、易用的大数据平台,从而为业务系统提供通用的支持,其中包括:

  • 风险管理系统,为风控各类业务构建起实时快速的预警和反馈系统,实现分钟级/秒级的数据产生、入库、查询流程,例如审批系统、贷后管理系统、用户中心、额度中心、反欺诈系统、决策引擎、风控数据平台等;
  • 核心业务系统,高效地完成对客户的行为、身份核查、客户征信、三方数据、交易数据等多源数据实时、极速的聚合分析,例如信贷管理系统、中间业务系统、支付与清算系统、互联网银行系统、资金管理系统、核算中心、账务中心、财务系统等;
  • 管理决策类,通过 T+0 数据实时处理,快速实现商业决策,例如运营管理系统、客服系统、消息中心、支付中心、商户管理、客户关系管理、报表(商业智能)类、财务管理

数据仓库层

数据仓库层所提供的数据分析能力是实现实时业务分析的关键,也是实现高性能的查询和高并发的写入的核心层。同时,也需要满足金融企业对数据的一致性以及和周边生态的支持的需求。SelectDB 与白鲸开源 WhaleStudio 的整体能力能够帮助很好地支持数据服务层的构建:

  • 实时、便捷的数据导入

    SelectDB X 白鲸开源的方案能够为企业提供实时、便捷和高吞吐的数据导入。白鲸开源 WhaleStudio 方案支持常用的数据库和文件系统、消息队列和各类数据湖系数据源实时导入,包括各类数据库、Kafka、Elasticsearch 、Redis、Neo4j 等;SelectDB 底层实现了统一的流式导入框架,而在这个框架之上,SelectDB 提供了非常丰富的导入方式以适应不同的数据源和数据导入场景:对于实时、小批量的数据导入,SelectDB 提供 StreamLoad、Flink Doris Connector、RoutineLoad、Insert into value 等方式,能够实现秒级的高效导入;SelectDB 还提供十余种常见的数据湖格式和外部数据源的访问支持,通过进行高效的联邦分析实现大数据量、高吞吐场景的实时导入。除此之外,SelectDB 还提供了丰富的集成工具来连接各种来自周边大数据工具的数据源,内置 Kafka、Flink、Spark、DataX 等常见的 Connector,基于此,企业开发者能够更加便捷的将数据移动到上,并利用 SelectDB 从数据资产中获取更高的价值。

  • 高效的数据更新

    高并发的更新,在高并发的更新过程中,数据服务层需要在上亿数据中快速定位需要更新的数据并完成更新。面对实时更新的场景,SelectDB 在 Unique Key 模型之上引入了 Merge-On-Write(MoR) 和 Merge-On-Write(MoE)两种数据更新方式,能够高效、统一地支持不同数据量的更新场景。其中,MoR 能够支持低频次、大批量的数据更新场景;而 MoW 则能够实现秒级别的小批量实时写入,查询性能较 MoR 提升 5-10 倍。该类方式在写入的时候将旧的数据标记删除做轻量级 merge,能够始终保证有效的主键只会出现在一个文件中(即在写入的时候保证了主键的唯一性),不需要在读取的时候通过归并排序来对主键进行去重,从而大大减少了高频写入场景下查询执行时的额外消耗,帮助企业在多种场景的查询中实现明显的性能提升。此外,SelectDB 针对其它各类常见的更新方式,均提供了完备的支持,包括upsert、条件更新、条件删除、部分列更新、分区覆盖等。

  • 极致的查询性能

    性能是数据分析最关键的指标,基于丰富的索引结构、高效的列式存储与行列混存引擎、向量化执行引擎、RBO 和 CBO 结合的智能优化策略、智能物化视图、Pipeline 执行引擎、智能缓存等一系列的技术优化,SelectDB 能够为企业的提供支持高并发、高吞吐的极速查询能力,帮助企业快速应对不同场景中的高效查询需求:

  • 高并发点查: 查询返回的数据量较少,通常只需返回一行或者少量行数据。但对于查询耗时极为敏感、期望在毫秒内返回查询结果,并且面临着数万 QPS 超高并发的挑战。在金融中常见的场景包括面向客户的各类订单交易明细查询如实时转账、交易和面向机器的程序化查询如各类客户画像及行为分析、实时风控等。

  • 报表查询: 大部分相关场景下处理数据量适中,对查询性能要求通常在秒级甚至毫秒级,同时需要较强的数据的更新能力、对 SQL 查询语法友好、较强的多表 join 的能力以及能够很好的支持复杂的关联查询。

  • 即席查询: 应用于如画像、风控等场景。数据量较为庞大,响应时间要求较高,对于绝大多数相关场景要求查询返回时间在秒级别。

  • 传统批量数据处理(ETL/ELT): 需要在固定的时间间隔内(如每天夜间)处理大量积累的数据,处理的数据延迟往往在几小时到几天之间,要求较高的数据一致性。

数据同步&集成层:白鲸数据集成系统

数据采集和加工是数据处理的关键组成部分,在数据 3.0 时代,传统数据平台提供的 ETL 解决方案已无法满足在激烈市场竞争环境下生存的金融企业的需求,因为为了应对不断变化的业务需求,企业通常会选用至少两种数据库:一种负责业务的联机交易数据库,一种负责数据分析的数据仓库。两种数据库之间的数据同步是通过复杂、高度定制的 ETL 管道来解决的,数据管道需要不断维护,复杂度极高,这会导致使用传统技术来做数据集成的金融企业面临高成本维护成本的挑战。这些挑战在云时代会进一步被放大,因为在云上构建 SaaS 服务的创业公司,产品越来越多,同时硬件性能的进步也使得原本数据集成的设计出现了非常大的局限性。

针对数据采集和加工中的挑战,白鲸开源 WhaleStudio 下的组件白鲸数据集成系统能够提供新一代高效、稳定的数据集成同步解决方案。

白鲸数据集成系统 是下一代高性能、分布式、海量数据集成框架,围绕实现批量、实时数据同步以及实时发布的目标,希望使数据集成变得简单、安全和可扩展,向用户提供简单的、易用的产品交互界面和流畅的使用体验,不需要专业培训就可以快速上手。

白鲸数据集成系统的核心能力强大,包括:

  • 支持 150+ 种连接器类型,解决了各种数据源、版本之间的适配问题;
  • 面向数据科学家、数据开发工程师以及任何需要数据集成服务的用户,支持编程模式和引导模式两种配置同步作业的方式,适应不同用户群体的使用习惯;
  • 支持全场景数据集成需求,包含离线全量同步、离线增量同步、实时增量同步、变化数据捕捉(即 CDC)、数据库同步备份等。

在保证数据质量的前提下,自研的白鲸数据集成系统的 Zeta 数据集成引擎能够以远超其他产品的速度完成数据同步,并且更省资源。 覆盖全数据同步场景,除了代码模式外,也提供可视化拖拽界面给数据科学家、数据分析师、产品经理等业务用户支持全流程可视化的任务定义、调用、监控和管理。



白鲸开源 WhaleStudio 整体架构

在独特产品架构支撑下,白鲸数据集成系统为用户提供完善的数据集成和同步功能,助力企业数字化转型:

  • 数据管道:数据管道列表页面,对数据管道进行运行、编辑、发版、删除操作;
  • 连接器:支持数百种数据接口,多种数据集成方式;
  • 监控:完善的监控机制,可跟踪输入输出的统计数据,当前运行日志,以及运行历史及状态。

白鲸数据集成系统能够帮助企业快速完成复杂数据源之间 CDC 与批量整合问题,解决传统同步集成引擎痛点问题,以无中心化、精确处理一次、断点续传等多种方式确保数据强一致性, 其支持可视化建立集成任务、支持可视化运维、无主键增量集成支持、支持整库同步与表结构自动变更、支持多自动建表、支持可视化转换处理等产品特点也使得白鲸数据集成系统与传统数据平台解决方案相比拥有显著优势。

数据源

SelectDB +白鲸开源 WhaleStudio 的方案够接入各类数据的业务系统,如账户系统、CRM、交易系统、核心系统、信审系统等,帮助金融企业完成对于客户、存款、贷款、支付、资金、总账、渠道等多种类型的核心数据的实时存储、分析和处理。

SelectDB + 白鲸开源 WhaleStudio 能够便捷地支持多种异构数据源、数据库的接入,其中包括:

  • 支持常用的数据库和文件系统,包括关系型数据库 Oracle、MySQL、SQL Server等,非关系型数据库MongoDB、Redis、Cassandra 等,分布式数据库 Hadoop、Couchbase、Elasticsearch 等,内存数据库 Redis,图形数据库Neo4j,以及其他处理实时及离线数据的各类数据库。
  • 支持消息队列,包括 Redis、Neo4j、Kafka、RocketMQ、Pulsar等,以及各种自定义数据源;
  • SaaS&Http&Socket;
  • 各类数据湖系,例如 Iceberg、Hudi、DeltaLake
  • HDFS、S3 等存储系统。

方案优势

基于 SelectDB + 白鲸开源 WhaleStudio 的联合解决方案,能够为银行、等金融企业带来以下收益:

  • 实时分析能力大幅度提升: 帮助大数据量复杂场景的数据分析时效性由每周 (更新一次) 到每天 (更新一次) ,大大提升了分析的时效性, 帮助金融企业通过 T+0 分析轻松构建起风险分析、欺诈检测、实时消费者分析、交易分析等业务场景。
  • 毫秒级性能实现,倍数级性能提升: WhaleStudio 的任务调度性能是市面产品平均性能的 2 倍,数据集成效率比市面同等产品平均性能快 420%;SelectDB 为企业提供宽表及多表场景下均优于同类产品三到数十倍的极致性能。SelectDB + WhaleStudio 的方案能够在数据服务场景下,为企业实现毫秒级查询响应,带来数十倍的性能提升。
  • 降低开发及运维成本,提高效率: 金融机构可以通过 SelectDB+白鲸开源 WhaleStudio 大数据解决方案实现从业务开发、运维、管理等全流程的效率优化。SelectDB 与白鲸开源 WhaleStudio 均提供了一系列可视化的操作界面和丰富的功能,使得运维人员能够轻松地进行数据管理和维护。基于 SelectDB 极简的架构和融合统一的能力,以及白鲸开源 WhaleStudio 的高效调度、数据集成和同步能力,综合效率大幅提升,原来需要 10 人完成的任务,2-3 人即可完成。

客户案例

  • 某大型国有券商: 该券商将白鲸调度系统进行全栈信创化部署运行,已经完成了建立以“统一数据编排调度系统”为核心的 DataOps 平台,构建统一、标准化的数据协作平台,降低数据开发门槛,提升开发运维效率的目标,实现了统一的数据开发平台、统一的编排调度、统一的数据资产运营,有效降低用户数据加工处理的成本,提升数据服务能力,真正实现精益、敏捷的数据运营。同时,在上层基于 SelectDB 构建起实时数据仓库, 利用 SelectDB 端到端的实时能力和极致查询性能,更好地完成了实时流处理、离线批处理等任务,实现了业务的实时分析流程。现阶段,该券商已经迁移完核心调度任务每天约 8 千个工作流作业,在不断接入新系统后,目标完成日工作流 10 万+,任务量 50 万+,同时对接公司统一权限管理、审计、监控、告警等系统,极大提升了公司运营效率。

  • 某知名消费金融企业: 随着某消费金融客户数量和放贷金额持续上升,如何依托大数据、数据分析等技术来提供更好决策支持、提高工作效率和用户体验,成为了当前亟需解决的问题。基于此,公司决定搭建数据中台,利用白鲸调度系统实现了不同数据源之间的快速整合,大大提高了研发效率,同时将原有的离线数仓替换为 SelectDB 实时数仓,最终统一了数据出口,提升了数据质量,并实现了查询速度 400 倍的提升。

  • 某一线银行信贷企业: 某银行信贷业务利用 SelectDB X 白鲸数据集成系统作为架构核心完成了业务数据的统一存储与分析,该架构支持了该企业在营收信贷业务过程中广告投放的业务,并帮助该企业的用户行为日志降低了 70% 的存储成本,整体业务效率提升 50 %。白鲸调度系统提供了高效、简单、易用的数据集成框架及引擎,能够用户的全场景数据集成需求;SelectDB 提供了丰富且开箱即用的用户行为分析函数,避免业务人员重复进行复杂 SQL 函数编写、验证、推导再应用,极大提高了数据开发效率。在 SelectDB X 白鲸数据集成的支持下,该银行信贷企业智能营销的投产比得到了显著提升,完成了精准投放增加获客的重要目标。

本文由 白鲸开源 提供发布支持!

白鲸开源 X SelectDB 金融大数据联合解决方案公布!从源头解决大数据开发挑战的更多相关文章

  1. 新一代大数据任务调度 - Apache DolphinScheduler喜提十大开源新锐项目 & 最具人气项目

    经 10000+ 开发者公开票选,20+专家评审. 10+ 主编团打分,历经数月打磨,11 月 19 日,由InfoQ 发起并组织的[2020中国技术力量年度榜单评选]结果正式揭晓. 2020 年度十 ...

  2. 解决大数据难题 阿里云MaxCompute获科技大奖

    摘要: 据介绍,MaxCompute(大规模分布式的数据计算平台)是国内最早自研的大数据计算平台之一,主要应用于大规模数据处理场景.目前,这项源自浙江.解决世界级难题的成果已拥有EB(百京)级别的数据 ...

  3. 大数据基础知识问答----spark篇,大数据生态圈

    Spark相关知识点 1.Spark基础知识 1.Spark是什么? UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架 dfsSpark基于mapredu ...

  4. 民生银行十五年的数据体系建设,深入解读阿拉丁大数据生态圈、人人BI 是如何养成的?【转】

    早在今年的上半年我应邀参加了由 Smartbi 主办的一个小型数据分析交流活动,在活动现场第一次了解到了民生银行的阿拉丁项目.由于时间关系,嘉宾现场分享的内容非常有限.凭着多年对行业研究和对解决方案的 ...

  5. 数据在千万级别上进行全文检索有哪些技术?强大的大数据全文索引解决方案-ClouderaSearch

    数据在千万级别上进行全文检索有哪些技术?强大的大数据全文索引解决方案-ClouderaSearch1.lucene (solr, elasticsearch 都是基于它) 2.sphinx3.elas ...

  6. 一起来学大数据——走进Linux之门,学习大数据的重中之重

    昨天我们看了有关大数据Hadoop的一些知识点,但是要在学习大数据之前,我们还是要为大数据的环境做一些的部署. 那么,今天我们就来讲讲开启我们大数据之路的Linux,跟上我们的脚步yo~ Linux介 ...

  7. 互联网大规模数据分析技术(自主模式)第五章 大数据平台与技术 第10讲 大数据处理平台Hadoop

    大规模的数据计算对于数据挖掘领域当中的作用.两大主要挑战:第一.如何实现分布式的计算 第二.分布式并行编程.Hadoop平台以及Map-reduce的编程方式解决了上面的几个问题.这是谷歌的一个最基本 ...

  8. 开源数据质量解决方案——Apache Griffin入门宝典

    提到格里芬-Griffin,大家想到更多的是篮球明星或者战队名,但在大数据领域Apache Griffin(以下简称Griffin)可是数据质量领域响当当的一哥.先说一句:Griffin是大数据质量监 ...

  9. 孙荣辛|大数据穿针引线进阶必看——Google经典大数据知识

    大数据技术的发展是一个非常典型的技术工程的发展过程,荣辛通过对于谷歌经典论文的盘点,希望可以帮助工程师们看到技术的探索.选择过程,以及最终历史告诉我们什么是正确的选择. 何为大数据   "大 ...

  10. C# TCP socket发送大数据包时,接收端和发送端数据不一致 服务端接收Receive不完全

    简单的c# TCP通讯(TcpListener) C# 的TCP Socket (同步方式) C# 的TCP Socket (异步方式) C# 的tcp Socket设置自定义超时时间 C# TCP ...

随机推荐

  1. Css var 的基础使用

    Css var 语法 var(custom-property-name, value) - custom-property-name 必须 变量必须以 --开头 后面可以是英文.数字连接符,区分大小写 ...

  2. Eclipse build js卡死 Eclipse 编译太卡,耗时太长解决

    Eclipse build js卡死 Eclipse 编译太卡,耗时太长解决 问题描述:编译停止在js编译中,原来是js的问题 1.首选项-javaScript-Validator-Errors/Wa ...

  3. Windows CSC提权漏洞复现(CVE-2024-26229)

    漏洞信息 Windows CSC服务特权提升漏洞. 当程序向缓冲区写入的数据超出其处理能力时,就会发生基于堆的缓冲区溢出,从而导致多余的数据溢出到相邻的内存区域.这种溢出会损坏内存,并可能使攻击者能够 ...

  4. WebUI自动化测试-监听元素有无变化

    from datetime import datetime,timedelta from selenium.webdriver.common.by import By def get_inocSum( ...

  5. python利用公私钥加解密

    小贴士 这里不再赘述公私钥的生成过程.可以利用OpenSSL进行生成. 加密代码 #!/usr/bin/python #加密 #conda install pycrypto #提前安装模块 impor ...

  6. VSCode中设置用IPython运行Python代码

    VSCode中设置用IPython运行Python代码 在IPython中运行所选的代码: 在设置中, 找到python.terminal.launchArgs这一项, 设置为如下内容. " ...

  7. 【深度学习 有效炼丹】多GPU使用教程, DP与DDP对比, ray多线程并行处理等 [GPU利用率低的分析]

    ️ 前言 更新日志: 20220404:新增一个DDP 加载模型时显存分布不均问题,见目录遇到的问题及解决处 主要是上次server12 被自己一个train 直接线程全部拉满了(没错 ... ser ...

  8. 通过Docker搭建Debezium同步MySQL的数据变化

    Debezium是红帽开发的一款CDC产品,和阿里的Canel类似,都是同步binlog,不过强大了一点点.为了不再麻烦,下面称之为dbz. 达拉崩吧斑得贝迪卜多比鲁翁... dbz的搭建依赖很多中间 ...

  9. nginx面试题及答案

    什么是nginx? Nginx是一个高性能的HTTP和反向代理服务器,也是一个IMAP/POP3/SMTP服务器 Nginx是一款轻量级的Web服务器/反向代理服务器及电子邮件(IMAP/POP3)代 ...

  10. java.net.UnknownHostException: api.weixin.qq.com解决办法

    java.net.UnknownHostException: api.weixin.qq.com at java.net.AbstractPlainSocketImpl.connect(Abstrac ...