首页 星云 工具 资源 星选 资讯 热门工具
:

PDF转图片 完全免费 小红书视频下载 无水印 抖音视频下载 无水印 数字星空

《数据资产管理核心技术与应用》读书笔记-第四章:数据质量的技术实现(三)

编程知识
2024年09月09日 15:44

《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书,全书共分10章,第1章主要让读者认识数据资产,了解数据资产相关的基础概念,以及数据资产的发展情况。第2~8章主要介绍大数据时代数据资产管理所涉及的核心技术,内容包括元数据的采集与存储、数据血缘、数据质量、数据监控与告警、数据服务、数据权限与安全、数据资产管理架构等。第9~10章主要从实战的角度介绍数据资产管理技术的应用实践,包括如何对元数据进行管理以发挥出数据资产的更大潜力,以及如何对数据进行建模以挖掘出数据中更大的价值。

图书介绍:数据资产管理核心技术与应用

今天主要是给大家分享一下第四章的内容:

第四章的标题为数据质量的技术实现

内容思维导图如下:

本文是接着

《数据资产管理核心技术与应用》读书笔记-第四章:数据质量的技术实现(二)

继续往下介绍

4、 常见的开源数据质量管理平台

4.1、   Apache Griffin

Apache Griffin 是一个开源的大数据质量管理系统,底层是基于Hadoop和Spark实现的,支持批处理和流处理模式两种数据质量检测方式,官方网址为:https://griffin.apache.org/,如下图所示,是Apache Griffin 官方地址https://griffin.apache.org/docs/quickstart-cn.html中提供的架构图。

Apache Griffin 的源代码github地址为https://github.com/apache/griffin    《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书,作者为张永清等著

从架构图中可以看到

  • Apache Griffin 在做数据质量检测时,是基于Spark 实现的,以Spark任务的形式对定义的待采集数据质量的数据源进数据采集。
  • 在架构图中,Define主要用于数据质量的维度定义,也就是我们说的数据质量规则的定义。
  • Measure负责数据质量任务的执行以及生成数据质量的结果数据。《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书,作者为张永清等著
  • Analyze主要负责结果数据的存储以及呈现。

如下图所示,Apache Griffin 的架构图刚好是可以对应到我们前面的数据质量采集流程的。

另外Apache Griffin   也是支持容器化部署的,相关部署介绍请参考:https://github.com/apache/griffin/blob/master/griffin-doc/docker/griffin-docker-guide.md

Apache Griffin   的主要技术栈和开发语言包括

  • 后端:Java和Scala,其API服务主要是由Java 语言开发,基于Http协议和GRPC协议做数据通信。其任务的执行主要是基于Scala语言开发,用于Spark任务的提交、运行等。
  • 前端:TypeScript、Html、Css

其核心技术架构如下图所示。《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书,作者为张永清等著

从图中可以看到其核心技术是通过SpringBoot+Spark来实现的。

4.2、  Qualitis

Qualitis是一个支持多种异构数据源的数据质量监测平台,其设计初衷是用于解决业务系统运行、数据中心建设及数据治理过程中的遇到的各种数据质量问题。

如下图所示,是Qualitis官方地址https://github.com/WeBankFinTech/Qualitis/blob/master/docs/zh_CN/ch1/%E6%9E%B6%E6%9E%84%E8%AE%BE%E8%AE%A1%E6%96%87%E6%A1%A3.md#21-%E6%80%BB%E4%BD%93%E6%9E%B6%E6%9E%84%E8%AE%BE%E8%AE%A1中提供的架构图。

从架构图中可以看到也是包含了质量规则配置、质量任务管理和质量数据采集、质量数据存储和分析等这些核心模块。

在Qualitis官方网址中也提供了总体模块设计图,其模块设计图也是刚好可以对应到我们前面的数据质量采集流程,如下图所示。《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书,作者为张永清等著

可以看到数据质量采集的流程其实不管在哪个开源的数据质量平台中,都几乎是一样的,都需要包括

  • 质量规则的配置和管理:主要是配置规则和维护规则。
  • 定时job定时去执行质量规则抓取原始的数据质量数据。《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书,作者为张永清等著
  • 质量的数据处理和分析:对抓取到的原始质量数据进行处理,然后通过质量数据的分析来优化质量规则的配置,形成一个闭环的链路,如下图所示

From:https://www.cnblogs.com/laoqing/p/18404837
本文地址: http://www.shuzixingkong.net/article/1860
0评论
提交 加载更多评论
其他文章 面试官:如何实现线程池任务编排?
任务编排(Task Orchestration)是指管理和控制多个任务的执行流程,确保它们按照预定的顺序正确执行。 1.为什么需要任务编排? 在复杂的业务场景中,任务间通常存在依赖关系,也就是某个任务会依赖另一个任务的执行结果,在这种情况下,我们需要通过任务编排,来确保任务按照正确的顺序进行执行。
面试官:如何实现线程池任务编排? 面试官:如何实现线程池任务编排?
FastGPT 正式接入 Flux,准备好迎接 AI 绘画的狂风了么?
Flux 大家最近都听说了吧?它是一款新推出的 AI 绘画模型,拳打 Stable Diffusion 3,脚踢 Midjourney,整个 AI 绘画界都沸腾了。 Flux 的主创团队来自由 Stable Diffusion 原班人马打造的黑森林实验室 (BlackForestLabs),2024
FastGPT 正式接入 Flux,准备好迎接 AI 绘画的狂风了么? FastGPT 正式接入 Flux,准备好迎接 AI 绘画的狂风了么? FastGPT 正式接入 Flux,准备好迎接 AI 绘画的狂风了么?
生财有迹 | 您专属的资产跟踪与分析工具
生财有迹(Wealth Tracker)是一款专注于个人资产分析的应用程序。其核心功能是:全面记录并展示用户的资产状况,帮助用户轻松了解财务现状;运用 AI 能力,结合每种资产的特性和当前环境,提供适宜的财务建议。
生财有迹 | 您专属的资产跟踪与分析工具 生财有迹 | 您专属的资产跟踪与分析工具 生财有迹 | 您专属的资产跟踪与分析工具
秋天希望的田野,九月最后的救园:终身会员计划
在7月15日发出求救信后快2个月了,很多园友出手相救——买会员、买周边、献捐助、送赞助,让救园走在希望的田野上,非常感谢每一位出手相救的园友! 在这救园期间,很多园友提出了很多很好的商业化与发展建议,我们会结合园子的实际情况与发展进展,参考大家的建议。 在这救园期间,有投资人过来谈投资,有企业过来谈
秋天希望的田野,九月最后的救园:终身会员计划 秋天希望的田野,九月最后的救园:终身会员计划
Mybatis骚操作-通用查询工具类
老项目大多都有对JDBC进行了封装,可以直接执行SQL的工具类,在做项目升级改造的时候(这里仅指整合mybatis),要么全部调整成dao-xml的形式(会有改动代码多的问题,而且看代码时需要xml和java来回切换),要么维持原逻辑不改动(跟mybatis基本无关,同样难以用到mybatis的配置
区块链应用的密钥管理
管理什么密钥? 在区块链应用的基础组件中通常有这样一种功能,需要持续不断的向区块链中发送交易,比如arbitrum的Sequencer需要持续不断的发送L2的区块,stark 需要发送单步证明/rBlock发布 的交易,chainlink需要定时发送datafeed交易。而这每一笔交易都需要L1上的
计算机网络之TCP/IP协议简介
TCP/IP协议 简介 首先TCP/IP协议不只是表示TCP协议和IP协议两种协议,而是一个协议簇。协议簇是什么并不难理解,就是字面意思,一个由多个协议组合而成的集合体,其中最有代表性的就是TCP和IP这两个协议,除了这两个还有我们熟知的FTP、UDP等协议。当然我们下面主要介绍的还是这两位主角TC
计算机网络之TCP/IP协议简介 计算机网络之TCP/IP协议简介
在stable diffussion中完美修复AI图片
无论您的提示和模型有多好,一次性获得完美图像的情况很少见。修复小缺陷的不可或缺的方法是图像修复(inpainting)
在stable diffussion中完美修复AI图片 在stable diffussion中完美修复AI图片 在stable diffussion中完美修复AI图片