数据中台贴源层(贴源数据层建设)

贴源数据层会对企业各业务系统数据进行汇聚整合,保留企业全量业务原始数据,并作为统一数仓层建设的数据源。贴源数据层数据不仅是业务数据库中产生的数据,跟企业相关的所有数据都应该汇聚到贴源数据层,包括业务系统数据、业务运行的日志数据、机器运转产生的日志数据、网络爬虫或者其他方式获取的外部数据。

相关概念

贴源数据层也称操作数据层,是数据体系架构中最接近数据源的一层,是全企业业务数据的集中存储处,除了对非结构化数据进行结构化处理以及对相同数据进行整合外,并不对业务数据做过多的清洗加工,尽可能保留数据的原始状态。贴源数据层建设的目标就是把企业的全域原始数据都汇聚到数据中台,从而能在数据中台查询到所有的企业数【我爱线报网】52线报网-专注分享活动首码线报优惠券零投网赚项目据,为后面的统一数仓层、标签数据层、应用数据层建设做准备。 数据中台的贴源数据层数据获取方式与传统数仓的ETL(Extract-Transform-Load)过程类似,但也有不同。传统数仓的ETL过程是在抽取 (Extract)和装载(Load)的过程中进行清洗转换(Transform)操作,装载到数仓的是被清洗转换后的数据。这样的方式如果转换规则复杂,就会导致在 ETL过程中消耗大量的计算资源,另外如果转换有错误,由于没有保留原始数 据,则会导致在数仓层面无法追溯问题。进入大数据时代,由于存储成本降低和数据量增大,导致ETL过程中的复杂处理非常耗时,因此建议采用 ELT(Extract-Lo【我爱线报网】52线报网-专注分享活动首码线报优惠券零投网赚项目ad-Transform)方式,即将所有原始数据都抽取到数据中台的贴源数据层,在数据中台内部再利用大数据底层平台的计算能力进行转换操作。这样既可让数据的抽取过程尽可能简单,又保留了所有的原始数据,以便于问题的追溯,还能充分利用大数据的计算能力。

数据中台数据抽取转换过程

上图所示为数据中台数据抽取并进行转换的过程。 虽然也把贴源数据层称为ODS层,但是它与ODS系统还是有所区别的。贴源数据层仅做多源数据的汇聚、整合,并不具备传统意义上的ODS系统的功能, ODS系统的数据交换、实时性、报表等功能需要通过数据中台其他功能模块实现。

按照数据结构类型的不同,贴源数据可以分为三类:

结构化数据:主要是关系型【我爱线报网】52线报网-专注分享活动首码线报优惠券零投网赚项目数据库中的数据,直接从业务系统DB抽取到贴源数据层。 半结构化数据:一般是纯文本数据,以各种日志数据为主,半结构化数据保留贴源数据的同时也做结构化处理,为后续使用做准备。 非结构化数据:主要是图片、音频、视频,一般保留在文件系统中,由于这类数据量一般比较庞大,而且没有太多挖掘分析价值,所以贴源数据层不保留原始文件,只保留对原始数据文件的描述,比如地址、名称、类型、分辨率等。

贴源数据表设计

贴源数据层中的数据表与对应的业务系统数据表原则上保持一致,数据结构上几乎不做修改,所以参考业务系统数据表结构来设计贴源数据层表结构即可,结构设计上没有太多的规范要求。考虑到业务系统数据的多样性,贴源数据层数据表【我爱线报网】52线报网-专注分享活动首码线报优惠券零投网赚项目的设计要遵循一定的规范。 贴源数据层数据表设计规范如下:

贴源数据层表的命名采用前缀+业务系统表名的方式。比如,ODS_系统 简称_业务系统表名,这样既可以最大限度保持与业务系统命名一致,又可以 有清晰的层次,还可以区分来源。 贴源数据层表的字段名与业务系统字段名保持一致,在ODS层不做字段命名归一。字段类型也尽可能保持一致,如果数据中台没有与业务系统对应的数据类型则用一个可以兼容的数据类型。比如,业务系统的数据类型是float,数据中台的存储系统没有float类型,则可以用double代替。 对于一些数据量较大的业务数据表,如果采用增量同步的方式,则要同时建立增量表和全量表,增量表利用后缀标识【我爱线报网】52线报网-专注分享活动首码线报优惠券零投网赚项目。比如,ODS_系统简称_业务系统表名_delta,汇聚到增量表的数据通过数据加工任务合并生成全量表数据。 对于日志、文件等半结构化数据,不仅要存储原始数据,为了方便后续的使用还要对数据做结构化处理,并存储结构化之后的数据。原始数据可以按行存储在文本类型的大字段中,然后再通过解析任务把数据解析到结构化数据表中。 通过以上建设规范,可保障企业所有业务数据按照一致的存储方式存储到数据中台。

贴源数据表实现

贴源数据层一般采用数据同步工具实现数据的同步落地。具体的实现步骤 如下:

确定业务系统源表与贴源数据层目标表; 配置数据字段映射关系,目标表可能会增加采集日期、分区、原系统 标识等必要信息,业务相关内【我爱线报网】52线报网-专注分享活动首码线报优惠券零投网赚项目容不做转换; 如果是增量同步或者有条件地同步部分数据,则配置数据同步条件; 清理目标表对应数据; 启动同步任务,往贴源数据层目标表导入数据; 验证任务是否可以正确运行,并且采集到准确数据; 发布采集任务,加入生产调度,并配置相关限速、容错、质量监控、告警机制。

–摘自《数据中台》

推荐阅读

给力项目线报网会员可免费下载 加入会员
友情提醒: 请尽量登录购买,防止付款了不发货!
QQ交流群:226333560 站长微信:qgzmt2
温馨提示:本站提供的一切软件、教程和内容信息都来自网络收集整理,仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负,版权争议与本站无关。用户必须在下载后的24个小时之内,从您的电脑或手机中彻底删除上述内容。如果您喜欢该程序和内容,请支持正版,购买注册,得到更好的正版服务。我们非常重视版权问题,如有侵权请邮件与我们联系处理。敬请谅解!

给TA打赏
共{{data.count}}人
人已打赏
行业资讯

泰国艺术历史(泰国的艺术家用未来主义神奇生物,创造了令人难以置信的插图)

2024-7-4 20:27:49

行业资讯

坚持以客户为中心(JTBD,让以客户为中心更有效)

2024-7-4 20:48:09

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索