开源社区

Apache Cloudberry (Incubating) 20发布在即:接续闭源Greenplum再启数仓新篇

Apache Cloudberry (Incubating) 20发布在即:接续闭源Greenplum再启数仓新篇

  • 发布:
  • 人气: 7
  • 评论: 0

应用介绍

  2024 年 5 月,全球首个开源 MPP 数据仓库 Greenplum Database 的 GitHub 仓库被归档,历史 Issue 与 Pull Request 消失,代码停止更新。这一震惊社区的举动,意味着这个曾在 MPP 数据库领域风光无两的项目告别开源、转向闭源。依赖它的企业遭遇突如其来的“技术断崖”,开发者信心受挫——技术支持与生态协作被迫中断,使用与演进陷入不确定。

  Apache Cloudberry™ (Incubating) 由原 Greenplum 核心成员发起,延续其 MPP 数据库技术血脉,致力于构建真正社区驱动、持续创新、面向未来的开源分布式数据平台。

  Greenplum Database 作为基于 PostgreSQL 构建的大规模并行处理(MPP)数据库,广泛应用于金融、电信、制造等行业的核心分析场景,2015 年开源以来,成为开源数据仓库的重要代表之一,也对后续众多产品的发展产生了深远影响。 然而,随着数据技术生态演进,Greenplum 的发展逐渐暴露出结构性问题:

  核心功能更新滞后:数据库内核长期停留在旧版 PostgreSQL 内核(目前 Greenplum 7 在闭源前刚升级到 PostgreSQL 12),难以获得上游持续演进带来的功能提升;

  社区协作机制有限:贡献路径不透明,缺乏明确的开发共识和技术决策机制,社区开发者参与空间有限;

  归属权多次变更:从 Pivotal 到 VMware,再到博通收购,项目方向和维护策略长期处于不确定状态。

  2024 年 5 月,Greenplum Database 的 GitHub 仓库被归档,历史 issue 与 PR 被清空,中文官网下线,意味着该项目基本终止社区驱动维护。这对于仍在使用 Greenplum 的企业和开发者而言,带来了潜在的风险和维护负担。

  与此同时,技术环境也在不断变化。传统 Hadoop 技术栈虽然在早期推动了大数据的普及,但其部署复杂、学习成本高的问题使其在 AI/机器学习、实时计算、湖仓一体等新型场景下逐渐失去优势。而 MPP 架构由于在查询效率、SQL 表达力和运维便捷性方面的特性,仍具备适应现代分析需求的潜力。

  在此背景下,我们认为,有必要构建一个全新的项目,既延续 Greenplum 在 MPP 架构上的成熟经验,又能够面向当前和未来的数据分析需求,具备更高的开放性和可持续性。

  Cloudberry (原项目名为 Cloudberry Database,于 2024 年 10 月进入 Apache 孵化器品牌升级为 Apache Cloudberry) 正是在这一理念下应运而生。该项目由原 Greenplum Database 的核心开发团队于 2023 年发起,项目于 2024 年正式进入 Apache 软件基金会孵化器,采用社区治理模式进行演进。Cloudberry 的目标是构建一个由社区主导、遵循 Apache 之道、具备技术可持续性的新一代开源 MPP 数据库,主打对开源 Greenplum 的向下兼容与替代,并且具备更多企业级功能。

  核心开发团队延续性强:超过 90% 的初始贡献者来自 Greenplum 原始团队,具备深厚技术积累;

  兼容 PostgreSQL 生态:支持 MADlib、PostGIS 等主流扩展组件,方便用户平滑迁移与功能复用;

  Cloudberry 并非对 Greenplum 的简单代码克隆,而是在保留其核心能力的基础上,面向新一代数据基础设施进行系统性升级,并且采用 Apache 社区治理机制。

  该版本在合规与社区治理方面完成了多个关键事项,包括 ICLA/SGA 签署、品牌命名规范确立、发布流程标准化等,为后续版本的可持续发布奠定了基础。同时,在技术层面也实现了多项重要更新,具体体现在以下四个方面:

  在年初的两三个月里,Cloudberry 开发者完成了大规模 Cloudberry 与 Greenplum 存档代码的基线对齐工作,引入了涵盖诸多关键 Bug 修复、性能增强、以及 ORCA 查询优化器等组件的优化更新,其中 Greenplum 归档代码中部分与 Cloudberry 路线图不符的更改暂缓引入。总体来看,本次代码基线对齐为后续 Cloudberry 开发奠定了坚实基础。

  Dynamic Tables(动态表):支持基于基础表、外部表或物化视图自动刷新查询结果,特别适合用于构建实时分析大屏,可查看文档了解更多信息()。

  更多优化:包括查询优化、ORCA 优化器增强、事务与存储管控、数据加载、资源管理,以及开发者工具诸多改进,详见即将发布的 2.0 Release Note,本文不做具体概述。

  自进入 Apache 孵化器后,Cloudberry 推出了更加健壮的 CI/CD 管道系统,覆盖所有核心测试与验证。该系统支持并行测试以缩短反馈时长,支持自动生成详尽的测试结果解析报告。 同时,Apache Cloudberry 2.0 发布也严格遵循 ASF 发版流程,包括社区讨论、投票与合规检查等,确保版本质量以及过程透明。

  面向 AI 的数据平台实践 基于真实案例,探讨 Cloudberry 在 AI/ML 流程中的应用价值,涵盖数据准备、模型训练与在线推理等典型场景。

  Apache 合规治理与社区模式分享 以 Cloudberry 的孵化实践为例,剖析 Apache 项目的合规治理流程,解析“Apache 之道”在社区协作与开发者参与中的实际运作方式,深入了解 Apache 开源文化与社区规则。

  全球技术贡献者面对面交流 邀请来自北美和国内的核心贡献者与技术专家共聚一堂,围绕开源数据库的发展路径、技术趋势与应用实践展开深度交流。

    相关应用