数据治理可以有效保障数据建设过程在一个合理高效的监管体系下进行,最终提供高质量、安全、流程可追溯的业务数据。
1 序:数据治理体系
企业数据治理体系包括元数据管理、主数据管理、数据资产管理、数据质量管理、数据安全及数据标准等内容。
2 最新一代数据治理开源软件
2.0 一站式数据开发集成平台
DataSphere Studio : 982 fork / 2.9k star | Since : Nov 24, 2019
- DataSphere Studio
- https://github.com/WeBankFinTech/DataSphereStudio
DataSphere Studio(简称 DSS)是微众银行自研的数据应用开发管理集成框架。
基于插拔式的集成框架设计,及计算中间件 Linkis ,可轻松接入上层各种数据应用系统,让数据开发变得简洁又易用。在统一的 UI 下,DataSphere Studio 以工作流式的图形化拖拽开发体验,将满足从数据交换、脱敏清洗、分析挖掘、质量检测、可视化展现、定时调度到数据输出应用等,数据应用开发全流程场景需求。DSS 通过插拔式的集成框架设计,让用户可以根据需要,简单快速替换 DSS 已集成的各种功能组件,或新增功能组件。借助于 Linkis 计算中间件的连接、复用与简化能力,DSS 天生便具备了金融级高并发、高可用、多租户隔离和资源管控等执行与调度能力。
-
主要编程语言:Java / Scala
-
社区活跃情况
2.1 元数据
Open Metadata : 753 fork / 3.7k star | Since : Aug 1, 2021 【推荐】
- Open Metadata | 元数据管理
- https://open-metadata.org/
- https://github.com/open-metadata/OpenMetadata
Open-Metadata 是元数据的开放标准,为端到端元数据管理解决方案提供了基础能力。提供数据发现、数据治理、数据协同、数据质量和可观测性的所有必要组件。
-
主要编程语言 : TypeScript / Java / Python
-
社区活跃情况
Commits
Amundsen : 945 fork / 4.2k star | Since : Feb 3, 2019
- Amundsen | 数据发现、元数据引擎
- https://www.amundsen.io/
- https://www.amundsen.io/amundsen/
- https://github.com/amundsen-io/amundsen
-
主要编程语言: Python / TypeScript
-
社区活跃情况
Commits
Marquez : 279 fork / 1.6k star | Since : Jul 1, 2018
- Marquez
- https://marquezproject.ai/
- https://github.com/MarquezProject/marquez
Marquez 是一款WeWork发布并开源的元数据服务,用于数据生态系统元数据的收集、汇总及可视化。它维护着数据集的消费和生产,为作业运行时和数据集访问频率提供全局可见性,提供集中的数据集生命周期管理等。
-
主要编程语言:Java / TypeScript
-
社区活跃度
Commits
Data Hub : 2.6K fork / 9K star | Since : Nov 15, 2015
- Data Hub |
DataHub 是由Linkedin开源的,官方Slogan:The Metadata Platform for the Modern Data Stack - 为现代数据栈而生的元数据平台。
目的就是为了解决多种多样数据生态系统的元数据管理问题
它提供元数据检索、数据发现、数据监测和数据监管能力,帮助大家解决数据管理的复杂性。
- https://datahubproject.io/
- https://github.com/datahub-project/datahub
-
主要编程语言:Java / Python / TypeScript
-
社区活跃情况:
Commits
Apache Atlas : 817 fork / 1.7k star | Since : Nov 16, 2014
- Apache Atlas | 元数据、数据血缘
Apache Atlas是Apache Hadoop的数据和元数据治理的框架,是Hortonworks 公司联合其他厂商与用户于2015年发起数据治理倡议,2015年5月5日进入Apache孵化,2017年6月21日成为Apache顶级项目。
是为解决Hadoop生态系统的元数据治理问题而产生的开源项目。它为Hadoop集群提供了包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心登能力。
- https://atlas.apache.org/#/
- https://github.com/apache/atlas.git | https://github.com/apache/atlas
-
主要编程语言 : Java / JavaScript
-
社区活跃度
Commits
Dataedo [闭源]
- Dataedo | 数据字典、元数据管理
Dataedo是一个开源的数据字典和元数据管理工具。它可以帮助用户创建和维护数据字典,并对数据进行元数据建模和文档化。
- https://dataedo.com/
- https://github.com/Dataedo
ERD Online [闭源]
- ERD Online
ERD(Entity-Relationship Diagram) Online
是全球第一个开源、免费在线数据建模、元数据管理平台(口号)。提供简单易用的元数据设计、关系图设计、SQL查询等功能,辅以版本、导入、导出、数据源、SQL解析、审计、团队协作等功能、方便我们快速、安全的管理数据库中的元数据。
- https://www.erdonline.com/
- https://www.erdonline.com/ERD Online白皮书.html
2.2 数据集成
Sea Tunnel : 1.5k fork / 7k star | Since : Jul 30, 2017 【推荐】
- Sea Tunnel
- https://seatunnel.apache.org/
- https://github.com/apache/seatunnel
-
主要编程语言:Java
-
社区活跃情况
Kettle : 3.2k fork / 7.2k star | Since : Oct 6, 2013
- Kettle (全名 : Pentaho Data Integration - Kettle)
- https://github.com/pentaho/pentaho-kettle
- https://www.hitachivantara.com/en-us/products/pentaho-plus-platform/data-integration-analytics/pentaho-community-edition.html
厂商 : Hitachi Vantara
-
主要编程语言:Java
-
社区活跃情况
ChunJun : 1.7k / 3.9k | Since : Apr 29, 2018
- ChunJun(纯均)
- https://dtstack.github.io/chunjun/
- https://github.com/DTStack/chunjun
- https://www.dtstack.com/resources?src=dsyzh
ChunJun 是易用、稳定、高效的批流一体的数据集成框架。
该项目最早启动的初衷是为【袋鼠云】的核心业务一站式大数据基础软件 - 数栈 ,打造一款具有 “袋鼠特色 “的核心计算引擎,承载实时平台、离线平台、数据资产平台等多个应用的底层数据同步及计算任务。
ChunJun 基于 Flink 并采用插件式架构,将源数据库抽象成 Reader 插件,将目的数据库抽象成 Writer 插件。
- 核心特点
- 基于 json、sql 构建任务
- 支持多种异构数据源之间数据传输
- 支持断点续传、增量同步
- 支持任务脏数据存储管理
- 支持 Schema 同步
- 支持 RDBS 数据源实时采集
-
主要编程语言:Java
-
社区活跃情况
DataX : 5.2k fork / 14.8k star
- DataX => DataWorks (商业版)
- https://github.com/alibaba/DataX
DataX 是阿里云 DataWorks数据集成 的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS, databend 等各种异构数据源之间高效的数据同步功能。
- 主要编程语言:Java(97.6%)、Python (2.3%)
其他成熟度低的产品
- Cannal : 7.5 fork / 27.4k star | Since : Sep 21, 2014
- https://github.com/alibaba/canal
阿里巴巴 MySQL binlog 增量订阅&消费组件
-
主要编程语言:Java
-
社区活跃情况
2.3 数据开发
Apache Flink 【推荐】
- Apache Flink
- https://flink.apache.org/
- https://github.com/apache/flink
- https://github.com/ververica/flink-cdc-connectors
- https://ververica.github.io/flink-cdc-connectors/
Apache Spark 【推荐】
- Apache Spark
- https://spark.apache.org/
- https://github.com/apache/spark
2.4 数据质量
2.5 数据标准
2.6 数据模型 /数据建模
2.7 数据资产
2.8 数据服务
2.9 数据分析与可视化
Superset 【推荐】
- Superset | 开源BI
由Airbnb贡献的轻量级BI产品;
数据源方面,Superset支持CSV、MySQL、Oracle、Redshift、Drill、Hive、Impala、Elasticsearch等27种数据源,并深度支持Druid。
- https://superset.apache.org/
- https://github.com/apache/superset
Grafana
- Grafana
Grafana 主要用于对接时序数据库,分析展示监控数据。
目前支持的数据源包括 InfluxDB、Elasticsearch、Graphite、Prometheus 等,同时也支持 MySQL、MSSQL、PG 等关系数据库。
Metabase
- Metabase
数据源方面,Metabase 支持 Redshift、Druid、Google BigQuery、MongoDB、MySQL、PG 等 15 种数据源。
DataEase
- DataEase |
理念:人人可用的开源数据可视化分析工具。
- https://github.com/dataease/dataease
- https://dataease.io/
ECharts
- ECharts | 基于 JavaScript 的开源可视化图表库
- https://echarts.apache.org/zh/index.html
- https://echartsjs.com/
2.10 调度系统 & 工作流系统
Apache Dolphi Scheduler 【推荐】
- Apache Dolphi Scheduler
一个分布式和可扩展的开源工作流协调平台,具有强大的DAG可视化界面
- https://dolphinscheduler.apache.org/zh-cn
- https://github.com/apache/dolphinscheduler
XXL-JOB 【推荐】
- XXL-Job
- https://www.xuxueli.com/xxl-job/
- https://github.com/xuxueli
- https://gitee.com/xuxueli0323/xxl-job
X 参考文献
- 数据治理操作指南 - Weixin/BAT大数据架构
- 【开源项目推荐】OpenMetadata——基于开放元数据的一体化数据治理平台 - Weixin/大数据流动
- 有哪些开源的BI工具? - Zhihu/Terry陈
- 开源免费的数据质量管理工具 Data Quality - Zhihu 【TODO】
- 数据字典管理系统-后台管理界面-UI设计 - 站酷
评论区