LakeSoul 的主要特性
中心化元数据服务
LakeSoul 使用 PostgreSQL 数据库来存储 Catalog 元信息,提升元数据可扩展性和事务并发能力。
并发写和 ACID 事务
LakeSoul 通过 PG 实现并发控制,具备高度写并发能力,自动判断冲突并进行处理,保证数据一致性。
并发 Upsert 更新和增量读取
LakeSoul 提供高并发 Upsert 写入更新,并支持增量流式读取,支持读取为 Flink Changelog Stream 格式
实时数仓
使用 SQL、Python 开发实时增量数据建模任 务,构建实时数仓。支持部署在现有 Hadoop 或 K8s 集群
BI & AI 多种应用
使用 SQL 进行大规模数据分析。支持 AI 框架直接读取湖仓数据
统一流批计算存储的湖仓架构设计
支持 BI 分析和 AI 计算,满足多种业务需求,助力释放业务价值
多源实时数据快速入湖
从 Kafak、Flink CDC 中快速将多种数据源实时写入湖仓中
实时数据分析
流批一体读写,通过SQL完成实时、增量数据建模计算和数据查询分析
AI 应用落地
原生支持多流实时拼接,构建实时机器学习样本,支撑 AI 应用