Kafka 多 topic 数据入 LakeSoul 教程
通过 LakeSul Kafka Stream 将 Kafka 中的数据同步到 LakeSul 非常方便。
LakeSoul Kafka Stream 可以 支持自动创建表,自动识别新 topic,exactly-once 语义、自动为表添加分区等功能。
LakeSoul Kafka Stream 主要使用 Spark Structured Streaming 来实现数据同步功能。
在本教程中,我们将充分演示如何将 topic 中的数据同步到 LakeSoul,包括自动创建表、标识新主题和其他操作。
警告
使用 LakeSoul Kafka Stream需要以下条件之一:
- topic 中的数据为 json 格式;
- Kafka 集群带有 Schema Registry 服务.
1. 准备环境
你可以编译 LakeSoul 项目以获取 LakeSoul Kafka Stream jar, 或者可以通过 https://dmetasoul-bucket.obs.cn-southwest-2.myhuaweicloud.com/releases/lakesoul/lakesoul-kafka-stream-3.3.tar.gz 来获取 LakeSoul Kafka Stream 以及其他任务运行依赖的jar包。
下载后解压 tar 包,然后将 jar 包放入 $SPARK_HOME/jars 目录下,或者在提交任务时添加依赖的jar,比如通过 --jars。