kafka面试题及答案

希赛网 2024-03-07 12:48:28

可靠性分布式 Kafka

Kafka是一种分布式流数据处理引擎，尤其适合大数据的实时消息传递。因为其广泛实用和高性能表现，Kafka也成为数据引擎、流处理、微服务等领域的热门话题。在Kafka面试中，以下是常见的问题及答案。

1. Kafka有哪些组件？

Kafka有以下几个组件：

- Broker: 收发消息的服务器节点。

- Topic: 存放消息的主题，可以拆分成多个分区。

- Producer: 发送消息到指定的Topic。

- Consumer: 从指定的Topic消费消息。

- Consumer Group: 协作消费同一Topic的消费者集合。

2. Kafka中的消息是如何保证可靠性的？

Kafka通过“分区”、“副本”和“ISR（in-sync replicas）”等方式，保证消息的可靠性。具体如下：

- 分区：将主题拆分成多个分区，每个分区可以存储一定数量的数据。消息在生产者端被写入某个分区，消费者按分区消费消息。

- 副本：对每个分区数据进行多次备份，分布在多个节点上，确保单个节点失效时数据不会丢失。

- ISR：指代Leader Partition的备份， ISR为“in-sync replicas”的缩写，即同步副本。所有的分区副本都要向Leader Partition汇报状态（所以Sender、Receiver都要提交confirm/acks），当所有的ISR全部完成确认提交时，那么leader会将数据标记为committed，并决定什么时候可以删除数据。

3. Kafka有哪些使用场景？

Kafka广泛使用于以下场景：

- 流式数据处理：通过Kafka流API和流处理框架（如Spark、Storm）对数据进行实时处理和计算。

- 应用解耦：使用Kafka实现不同软件之间的松耦合，让它们通过Kafka进行消息传递和协作。

- 数据采集：Kafka可以批量接收和传输数据并保证可靠性，适用于大量数据发送的场景。

- 消息队列：Kafka的高性能和高可靠性可用于消息的发送、消费和存储。

4. Kafka的性能瓶颈是什么？

Kafka的性能瓶颈通常有以下几种：

- 网络带宽：Kafka采用网络通信进行数据传输，网络带宽直接影响Kafka的性能。

- 磁盘IO：Kafka消息会持久化到磁盘上，磁盘读写速度决定了数据的传输速度，也是性能瓶颈之一。

- 内存：Kafka采用缓存技术进行数据读写，内存占用量和内存分配效率影响了Kafka的性能。

- CPU利用率：Kafka在消息传输、存储和处理中都需要占用一定的CPU资源。