跳到主要内容

Linux Foundation AI & Data

开源湖仓框架,具备流批一体、湖仓一体、分析智能一体的现代湖仓数据智能架构

Star

LakeSoul 的主要特性

中心化元数据服务

LakeSoul 使用 PostgreSQL 数据库来存储 Catalog 元信息,提升元数据可扩展性和事务并发能力。

并发写和 ACID 事务

LakeSoul 通过 PG 实现并发控制,具备高度写并发能力,自动判断冲突并进行处理,保证数据一致性。

并发 Upsert 更新和增量读取

LakeSoul 提供高并发 Upsert 写入更新,并支持增量流式读取,支持读取为 Flink Changelog Stream 格式

实时数仓

使用 SQL、Python 开发实时增量数据建模任务,构建实时数仓。支持部署在现有 Hadoop 或 K8s 集群

BI & AI 多种应用

使用 SQL 进行大规模数据分析。支持 AI 框架直接读取湖仓数据

统一流批计算存储的湖仓架构设计

支持 BI 分析和 AI 计算,满足多种业务需求,助力释放业务价值

多源实时数据快速入湖

从 Kafak、Flink CDC 中快速将多种数据源实时写入湖仓中

实时数据分析

流批一体读写,通过SQL完成实时、增量数据建模计算和数据查询分析

AI 应用落地

原生支持多流实时拼接,构建实时机器学习样本,支撑 AI 应用