Apache Kafka 与 Kafka Connect 框架¶
本主题介绍 Apache Kafka 及 Kafka Connect 框架的基本概念。
Apache Kafka 软件使用发布和订阅模型来写入和读取记录流,类似于消息队列或企业消息传递系统。Kafka 允许进程异步读取和写入消息。订阅者不需要直接连接到发布者;发布者可以在 Kafka 中对消息进行排队,以便订阅者稍后接收。
应用程序将消息发布到 主题,并且应用程序订阅主题以接收这些消息。
Kafka Connect 是一个用于连接 Kafka 与外部系统(包括数据库)的框架。Kafka Connect 集群是独立于 Kafka 集群的集群。Kafka Connect 集群支持运行并横向扩展连接器(用于从外部系统读取和/或向外部系统写入数据的组件)。
Kafka Connect 可与两种类型的连接器配合使用:
源连接器:将数据从外部系统导入到 Kafka 主题中。
接收器连接器:将数据从 Kafka 主题导出到外部系统。
High Performance Snowflake Connector for Kafka 是一种接收器连接器,用于从 Kafka 主题读取数据并将其加载到 Snowflake 表中。
Kafka Connect 可处理多种常见的运维问题,例如:
可扩展性:Kafka Connect 可通过向集群中添加更多工作节点来实现横向扩展。
容错能力:如果某个工作节点发生故障,Kafka Connect 会自动将任务重新分配到其他可用节点。
偏移管理:Kafka Connect 会跟踪已处理的记录,确保在发生故障时数据不会丢失或重复。
配置管理:可以通过 REST API 来配置和管理连接器,从而更轻松地部署和监控数据管道。