首页 网站首页 商业信息 方案 查看内容

轻量级SaaS化应用数据链路构建方案的技术探索及落地实践 ...

网络营销 2023-2-20 15:39 6153人围观 方案

导语


2022腾讯全球数字生态大会已美满闭幕,大会以“数实创新、产业共进”为主题,聚焦数实融合,摸索以全真互联的数字技术助力实体经济高质量成长。大会设有29个产物技术主题专场、18个行业主题专场和6个生态主题专场,各营业负责人与客户、合作伙伴配合总结经历、凝聚共鸣,鞭策数实融合新成长。


本次大会设立了微办事与中心件专场,本专场从产物研发、运维等最好落地理论动身,具体论述云原生时代,企业在开辟微办事和构建云原生中心件进程中应当怎样少走弯路,聚焦营业需求,助力企业成长创新。


随着大数据时代的到来,企业在生产和经营活动中发生的各类数据正以史无前例的速度增加,经过对实时及历史数据的融合分析,实时挖掘营业洞察和帮助决议,已成为企业的普遍行动。在云原生的浪潮下,企业需要聚焦营业,迫切需要简单易行,零代码地设置搭建起自己的可以到达将本增效结果的数据链路系统。


本篇文章将从以下几个方面临围绕着消息行列若何快速搭建数据链路的落地理论停止分享。

  • 数据链路构建的应战
  • 技术架构系统的扶植
  • 客户理论和落地案例

数据链路构建的应战与开源生态


数据链路构建的应战


以下图所示,这是一张典范的数据链路的架构图,从左到右依次可以分为数据源、数据接入层、数据缓冲层、数据处置层和右侧的数据方针。在这样一个典型的数据链路里,技术组件很是多,致使全部图很是复杂,这会增加运维本钱。




图1
接下来看另一张图,假如把中心部分全数屏障掉,这个数据链路变成一款SaaS化的数据接入组件,那它就会很是轻量。




图2
所以在开源生态中,多样的数据源和数据方针,众多开源组件的进修本钱,数据链路的搭建和运维是全部数据链路系统首要面临的题目。


企业需要聚焦营业,是以数据链路系统需要:SAAS 化、低代码化、简单易用、稳定牢靠、高性能、按量付费。以到达整体上的的降本增效。


我们再回到图1,可以看到,它的缓冲层在业界首要都是 Kafka,然后围绕 Kafka 生态,具有丰富的高低流,那复杂度、进修本钱、保护本钱这些题目要若何处理呢?继续往下看。


数据链路功用矩阵




图3




图4
如上图3所示,数据链路由数据源、数据库两部分组成。

  • 数据源

文本日志、CVM、容器、平安等;

  • 数据库

数据库数据、自动上报数据等。


这些数据需要处置上报然后发到下流,在业界更多的是 Filebeat、Flink、Logstash 等社区组件。想要到达图3这张图的结果,就需要图4这一堆组件,这就触及到上面提到过的题目。所以就衍生出了一个 SaaS化 的数据链路的计划


Saas化的数据链路计划


CKafka 毗连器是腾讯云上 SaaS 化的数据接入和处置处理计划,一站式供给对数据的接入、处置和分发功用。
供给基于 HTTP/TCP 协议的 SDK 辅佐客户完成数据上报;基于 CDC 机制定阅、存储多款数据库变更信息;简单可设置的数据清洗 (ETL) 才能;丰富的数据分发渠道;买通了夹杂云/跨云的丰富的数据源(MQ, 数据库,事务等)数据接入。


辅佐客户低本钱搭建数据流转链路,构建数据源和数据处置系统间的桥梁。




利用处景


数据链路构建


在一般营业傍边,用户需要将多种数据源的数据经过客户单收集,实时处置缓冲,传到下流的搜索,这时便可以经过这套链路间接把数据一条链路完全买通,间接把数据源打到下流的存储,这就很是便当了。


在现实营业进程中,用户经常需要将多个数据源的数据汇总到消息行列中,比如营业客户端数据、营业 DB 数据、营业的运转日志数据汇总到消息行列中停止分析处置。一般情况下,需要先将这些数据停止清洗格式化后,再做同一的转储、分析或处置。


CKafka 毗连器支持将分歧情况(腾讯私有云、用户自建 IDC、跨云、夹杂云等)的分歧数据源(数据库、中心件、日志、利用系统等)的数据集成到私有云的消息行列办事中,以便停止数据的处置和分发。供给了数据聚合、存储、处置、转储的才能,即 数据集成 的才能,将分歧的数据源毗连到下流的数据方针中。




数据接入分发


别的三个场景别离是数据上报、数据库定阅和数据的清算和分发。


客户、营业端大概运维端能够有很大都据需要上报,需要自己搭建一个上报的 Server,但假如利用 Sass 化数据接入产物,它便可以很轻量化的完成数据上报。


数据库定阅和数据的清算分发等功用是一样的道理,需要做的就是把数据从各类数据源很 Saas 化的接进来,然后简单轻量的清洗进来。




数据上报




数据库数据定阅




数据库清洗和分发
接下来分享若何从技术上实现轻量级 Saas 化数据链路搭建,会碰到什么题目,业界有什么通用的做法。


技术架构系统的扶植


系统架构




从上图可知,数据链路整体分为4个层面:接入层、缓冲层、数据处置层和数据分发层。


从左到右,在数据面可以看到数据源、客户端、APP,会经过定阅、上报等接口把数据上报到接入层里面;然后接入层会把数据缓冲到缓冲层,缓冲层通常为 MQ,比如 Kafka、Pulsar 等消息行列产物;接着在数据处置层,会处置消耗缓存层的数据,把数据经过简单的 ETL 重组、重装、裁剪等等分发到下流的各类数据方针。


控制面会供给一些 API 控制调剂监控、扩缩容、治理、运维、迁移等等这些管控面的才能,这时会供给 API 给大师挪用,这就是控制面和数据面的大致架构。假如自己去搭建这么一套数据链路的产物也是需要这么多的工作的。


界面化的ETL引擎


在数据处置层通常为经过编码,比如 Logstash 的语法,大概 Python 和 Flink 的 代码,大概 ETL 函数的语法等处置方式。但对用户来说,他能够不需要这么多的功用,也不想投入这么多的进修本钱,用户便可以利用 CKafka 毗连器,在经过 CKafka 毗连器组件处置数据流入流出使命时,凡是需要对数据停止简单的清洗操纵,比如格式化原始数据,格式化剖析特定字段,数据格式转换等。开辟者常常需要自己搭建一套数据清洗的办事(ETL)。


以下图所示,从数据进来今后会经过量层的转换存在缓冲层然后再消耗到下流,这是数据处置一个系统化的链路图。我们可以供给一个完全界面化的处置引擎来支持 JSON 的简易操纵、JSON 的格式化剖析、数据的裁剪替换等通用的 ETL 的行为。这个界面化的 ETL 引擎底层是基于 Transform 接口、Interface 等机制来实现的。






多引擎架构 — Kafka Connector


怎样样来处理全部数据流的毗连和接入呢?从研发层面来说,从进程大概线程的层面,从数据研发数据写到缓冲层再打到下流,全部分歧使命的维度是需要调剂的,当前的业界没有一种通用的引擎去处理一切题目,所以CKafka毗连器计划底层实现的是多引擎的一套架构,那相当于有多套引擎同时并行的供给办事、调剂、散布式的迁移和启动、停止、变更等行为。


首先来看引擎1:Kafka Connector,它是 Kafka 社区供给的一款计较调剂的产物。这款产物首要处理的题目就是它供给了一个散布式的使命调剂的框架,会同时开放出很多 Interface 的接口,会从数据源供给很多插件,比如 JDBC、Syslog、MQTT、MongoDB 等,这些插件会把数据从源端不竭的拉到 Kafka 里面来,然后鄙人流再对接 HBRSE、S3、Elastic、Cassandra 等一些 Sink 的办事。Kafka Connector 分为两个层面,一个是调剂层面,调剂层面就全部框架,会供给散布式的摆设,散布式的容灾。另一个是跨可用区的摆设、跨可用区容灾等,供给各类分歧的插件,Source、Sink 等,构成一套数据流。Kafka 引擎一个买通一个引擎,假如开辟者自建,可以自己去搭建的,这时辰更多要关注稳定性、扩缩容,以及内核题目标实时修复等。




多引擎架构 – Flink Connector


接着看引擎2:Flink Connector,Flink 大师都用的很是熟,实在 Flink Connector 也很是强大,它会供给很多计较框架,实在跟 Kafka Connector 类似,它也供给了很多散布式计较层的办事,也供给了很多 Connector 和 Extract 函数、UTF 等操纵,它的 Connector 会对接各类数据源,也会对接各类 ES,它在数据源会定个数据库的 CDC,更多的是办事类的,比如数据源是 Kafka、DFS、Cassandra 等,这时它会经过内部的散布式调剂和处置把数据源打到下流的 ES,这里是一个 Load 的进程,里面有很多算子等的概念。假如用户想要自己去搭建的话是比力复杂的。多引擎架构是为领会决两款技术系统 Flink 和 Connector 具有的不敷之处,将两款技术系统融合在一路,停止分歧的调剂和迁移。从数据源来看,它履行的就是为分歧的数据源拿数据,没有缓冲层,间接到下流的 ES,区分在于,假如你需要存大概不需要存,使命的数据量、并行度这些都是我们控制的。




多引擎架构 – MQTT 协议接入


接下来看引擎3:MQTT 协议接入,MQTT 协议是指数据接入平台会供给全部 MQTT 的软件层,各类 Connector 端会毗连到 MQTT 的全部 Proxy 层,它会供给 MQTT 3、MQTT 5的一流量控制、语音版消息办事等一个系统,也会支持 QS 1、QS 2等,也支持经过 MQTT 把消息打到下流的 Bridge 这些数据桥阶级,转发到 Kafka 大概其他 MQ。




多引擎架构 – HTTP 协议接入


最初看多引擎架构4:支持 HTTP 协议接入,数据可以经过 HTTP 协议从数据源导进来。


以下图所示,看一下 HTTP 协议的架构,第一层是网关,它有各类 Report,经过接收数据在内部保护 API 毗连池,把数据分发到 Database、Monitor、Report 等,终极是把数据存到各类 MQ 里面。


从整体来看,CKafka 毗连器会供给多种数据流的引擎,Kafka Connector、Flink Connector等,这些对用户都完全屏障了,用户用到的只是一个 Saas 化的轻量级组件计划,还可以供给MQTT 协议和 HTTP 协议,用户可以间接接入,接入后用户便可以很是轻量的处理题目。




客户理论


场景1 – 数据入湖


数据入湖的概念现在很是火,就是把屏障底层的各类 HDFS、COS 等持久存储的数据大概异构的数据停止同一查询分析。


客户营业数大部分都存在 MongoDB 里面。有一部分客户行为数据,需要上报落后行分析。客户希望将这些数据同一到数据湖(iceberg)停止分析。


自建链路碰到的题目,链路太长,触及的组件很是多。大大都组件是散布式摆设,扩缩容复杂,保护链路的稳定性,通明监控需要花费大量精神。利用毗连器组件后,只需要简单设置,SAAS 化,链路的稳定性,扩缩容依托平台处置。


看下面的架构图,有 Mongo 的数据源,在接入层经过 Mongo 的 Connector 去 Mongo 里拿数据,定阅 MongoStream 的数据,需要先把数据存到 Kafka 的 Topic 里,由于原始定阅数据是有 Schema 标准的,这时在 Iceberg 里,是一个存储一个剖析的层,所以需要简单的处置,经过Kafka Connector 的 Sink 把数据存到 DLC 里面去。




场景2 – 数据上报和多协议接入


数据接入


某教育客户需要将直播课门生高低课、签到、阅读等一些行为信息上传到背景停止分析、处置和检索。数据在背景首要有两种营业逻辑:
1. 自界说代码拿到上报数据,停止对应营业逻辑处置
2. 原始数据进入 Elasticsearch 停止检索分析


因开辟人力有限,希望有一种方便的数据接入办事,简单快速地完成数据的上报、存储。


这个客户的数据源是各类客户端,经过数据上报接入到 HTTP 接入层中,然后经过毗连器存储,数据分发到ES,然后客户自己的代码去消耗。




多协议接入


某保险客户的中台团队迁移上云,因下流团队众多,利用多款MQ产物(Kafka,RocketMQ,RabbitMQ)。各个MQ都是 TCP 协议接入,有各自的 SDK。SDK 进修、利用、以及后续切换本钱较高。


基于中台斟酌,希望上云后可以经过简单的HTTP协议停止接入,屏障底层的具体引擎细节。
有三个要求: 1. 简化客户真个利用,最好是HTTP协议。 2. 底层MQ引擎切换对营业无感知。 3. 最好有现成的支持HTTP协议的SDK。


利用毗连器组件就处理了很是现实的上报、定阅和分发的场景。




场景3 – 数据库定阅


某迅销平台内部多有多套系统并交运转,某套系统存储引擎为 PGSQL。 需要将 PGSQL 的变更数据存量导入到 Elasticsearch 里面停止查询。有以下几个需求:1. 数据写入 ES 的时辰需要按照时候分索引 2. 由于某个数据量大,希望在某个时候区间内只保存某个唯一 ID标识的最新数据(update)。3. 需要按照分歧的表将数据分发到分歧的索引里面。


自建的架构: PGSQL + DebeziumPGSQL+KafkaConnector+Kafka+Logstash+ Elasticsearch
CKafka毗连器架构: PGSQL + 毗连器 + Elasticsearch


从上面的架构可以看的出来,利用毗连器计划可以将数据链路中的很多细节间接屏障,间接打到下流,很是轻量化。



高端人脉微信群

高端人脉微信群

人脉=钱脉,我们相信天下没有聚不拢的人脉,扫码进群找到你所需的人脉,对接你所需的资源。

商业合作微信

商业合作微信

本站创始人微信,13年互联网营销经验,擅长引流裂变、商业模式、私域流量,高端人脉资源丰富。

精彩点评

相关推荐

怎样写好项目方案(专业项目方案写作定制)

怎样写好项目方案(专业项目方案写作定制)

在工作中,除了技术工作之外,我们也经常需要写一些项目的方案,当然如果公司比较大,

再谈“断直连”——政策、方案与不确定问题

再谈“断直连”——政策、方案与不确定问题

尽管“断直连”的基本方向已确定,但受各参与方合作意愿、政策理解角度、科技/服务能

运营方案怎么写(专业运营方案写作)

运营方案怎么写(专业运营方案写作)

作为运营人,写方案是必不可少的,而要想写一份优秀的运营方案,掌握框架、抓准方案的

产品方案怎么写(专业撰写产品方案)

产品方案怎么写(专业撰写产品方案)

想要做一名合格的产品经理,首先要能写好一份好的产品方案。一份好的产品方案,会在产

一个恐怕难以推广的自制CR-BOX方案

一个恐怕难以推广的自制CR-BOX方案

可能不需要再更新了,所以放在开头。因为对我这个方案不满意,所以试了其它的方案,用

小白进阶:一份模板,套用所有运营策划方案

小白进阶:一份模板,套用所有运营策划方案

2019.09.26更新:文章内容较多,前半部分主要阐述完成一份方案所需的运营思维,建议刚

论建筑设计方案如今有多卷?

论建筑设计方案如今有多卷?

这是一个故事。请各位看官老爷酌情相信。方案一方案一方案二方案二方案三方案三方案四

策划方案,不以页数论英雄

策划方案,不以页数论英雄

编辑导语:有些人在写策划方案时,总觉得页数越多,感觉准备得越充分,对策划案页数迷

一份完整的方案报告应该包括哪些方面?

一份完整的方案报告应该包括哪些方面?

听周边的同事和学员的反馈说,每次一到写方案的时候,经常会陷入一种非常焦虑的状态:

经国务院同意,八部门联合印发重磅改革方案!(全文)

经国务院同意,八部门联合印发重磅改革方案!(全文)

11月21日,据中国人民银行网站消息,为深入贯彻党中央、国务院决策部署,按照《长江三

一图速览!党和国家机构改革方案

一图速览!党和国家机构改革方案

制作:刘珂君、岳小乔、皇甫凌雨、冯慧文、安博文

延迟退休试点传来“好方案”:这3类人偷偷笑了,希望也有你

延迟退休试点传来“好方案”:这3类人偷偷笑了,希望也有你

我国正在加速进入老龄化,这是不争的事实。专家早在几年前就提出了延迟退休的方案,当

中共中央办公厅 国务院办公厅印发《粮食节约行动方案》

中共中央办公厅 国务院办公厅印发《粮食节约行动方案》

近日,中共中央办公厅、国务院办公厅印发了《粮食节约行动方案》,并发出通知,要求各

解决方案如何写:7个技巧,5个通病,项目总监给出的建议

解决方案如何写:7个技巧,5个通病,项目总监给出的建议

日常工作问题剖析实际的工作中,不管是项目经理还是售前工程师,给客户提供的大部分解

济南重磅方案公布

济南重磅方案公布

近日,济南市政府印发《济南市数字人民币试点工作实施方案》(以下简称《实施方案》)

干货!如何写出一份优秀完整的方案(专业写作方案)

干货!如何写出一份优秀完整的方案(专业写作方案)

无论是从事运营、策划或其他需要制定方案的岗位,写方案、改方案、执行方案都将成为你

项目管理 | 如何编写项目实施解决方案 | 推荐收藏

项目管理 | 如何编写项目实施解决方案 | 推荐收藏

如何保证项目实施成功?项目设计?需求报告?调研记录?项目培训?项目策划?上述提到

权威快报|坚持第九版防控方案和二十条措施不动摇、不走样

权威快报|坚持第九版防控方案和二十条措施不动摇、不走样

国务院联防联控机制11月22日举行新闻发布会表示当前,随着奥密克戎变异株快速传播我国

超硬干货:如何把需求变成产品方案?

超硬干货:如何把需求变成产品方案?

编辑导语:在产品经理的日常工作中,往往需要了解和收集许多的用户需求,那么,如何将

叮!送你一份“开挂式”写方案攻略

叮!送你一份“开挂式”写方案攻略

以下文章来源于泡泡Ter ,作者老1泡听身边不少朋友同事聊到他们写方案时的状态,经常

商业洽谈 文章投递 寻求报道
电话咨询: 15924191378
关注微信