Kafka — Infrastructure & Cluster

🎯 OBJECTIF

Comprendre comment :

La réplication Kafka garantit la durabilité des messages (replication factor, ISR, acks)
Le mécanisme de leader/follower fonctionne au niveau des partitions
L'architecture du controller a évolué de ZooKeeper vers KRaft
Diagnostiquer les scénarios de panne courants en production

🧠 MODÈLE MENTAL

Tes pods et le cluster Kafka sont deux systèmes distincts avec des responsabilités séparées. Les pods traitent les messages, Kafka les stocke. Quand un pod crashe, Kafka fait un rebalance du consumer group. Quand un broker crashe, Kafka fait une élection de leader. Ces deux événements sont indépendants — scaler tes pods n'améliore pas la durabilité de Kafka.

La durabilité repose sur trois curseurs interdépendants : replication.factor (combien de copies), l'ISR (lesquelles sont à jour), et acks (combien doivent confirmer). Configurés séparément, chacun crée un faux sentiment de sécurité. Ensemble, ils définissent la garantie réelle. replication.factor=3 sans acks=all ni min.insync.replicas=2 ne protège de rien en cas de crash du leader.

1📖 Glossaire

Broker — serveur Kafka qui stocke des partitions et sert les producers/consumers.
Leader — la seule replica qui reçoit les écritures pour une partition donnée.
Follower — replica qui réplique le contenu du leader ; ne sert pas les reads par défaut.
ISR (In-Sync Replicas) — liste des replicas suffisamment synchronisées pour valider une écriture.
replication.factor — nombre total de copies d'une partition (1 leader + N-1 followers).
acks — paramètre producer : combien de confirmations attendre avant de considérer l'envoi réussi.
min.insync.replicas — nombre minimum de replicas dans l'ISR pour accepter une écriture quand acks=all.
Controller — broker responsable des élections de leader et de la gestion des métadonnées du cluster.
KRaft — mode sans ZooKeeper (Kafka 3+) : les métadonnées sont stockées dans un topic interne __cluster_metadata via l'algorithme Raft.
WAL (Write-Ahead Log) — journal de transactions Postgres ; base technique du CDC Debezium.

2Brokers vs pods — deux systèmes distincts

flowchart LR
  subgraph Pods["Pods Kubernetes (traitement)"]
    P1["Pod A\nConsumer"]
    P2["Pod B\nConsumer"]
    P3["Pod C\nProducer"]
  end
  subgraph Kafka["Cluster Kafka (stockage)"]
    B1["Broker 1\n(leader P0)"]
    B2["Broker 2\n(leader P1)"]
    B3["Broker 3\n(leader P2)"]
  end
  P1 --> B1
  P2 --> B2
  P3 --> B1
  P3 --> B2

mermaid

	Brokers	Pods
Rôle	Stocker les messages	Traiter les messages
Gèrent	Partitions, réplication, leaders	Logique métier, offsets
Crash	Leader election + failover	Rebalance consumer group
Durabilité	Dépend de `replication.factor` + `acks`	Aucun impact sur la durabilité

🔑 Conclusion clé

Scaler tes pods n'améliore pas la durabilité du cluster Kafka. La perte de données dépend uniquement de replication.factor, min.insync.replicas, acks, et de l'état de l'ISR au moment du crash.

3Réplication — mécanique interne

Avec replication.factor=3, chaque partition a 1 leader et 2 followers sur des brokers différents.

sequenceDiagram
  participant P as Producer
  participant L as Leader (Broker 1)
  participant F1 as Follower (Broker 2)
  participant F2 as Follower (Broker 3)

  P->>L: send(message)
  L->>L: écrit dans son log local
  L->>F1: push réplication
  L->>F2: push réplication
  F1-->>L: ack
  F2-->>L: ack
  L-->>P: confirmation (selon acks)

mermaid

Les followers ne vont pas chercher les données — c'est le leader qui pousse activement. Si un follower est lent ou déconnecté, le leader le détecte rapidement (pas de fetch entrant) et le retire de l'ISR.

4ISR et les 3 curseurs de durabilité

L'ISR est la liste des replicas que Kafka considère suffisamment synchronisées pour valider une écriture. Une replica reste dans l'ISR si elle est vivante, réplique activement, et son retard ne dépasse pas replica.lag.time.max.ms (défaut : 30s).

Les trois curseurs fonctionnent ensemble — séparément, chacun crée un faux sentiment de sécurité :

replication.factor = 3   → combien de copies existent
min.insync.replicas = 2  → combien de copies synchronisées sont requises (avec acks=all)
acks = all               → le producer attend la confirmation de toutes les replicas ISR

Situation	ISR	Résultat avec min.insync.replicas=2
Tout normal	[leader, f1, f2]	✅ écriture acceptée
1 broker down	[leader, f1]	✅ 2 ≥ 2, acceptée
2 brokers down	[leader]	❌ 1 < 2, refusée — erreur explicite

🚨 acks=all sans min.insync.replicas=2 = fausse sécurité

Avec min.insync.replicas=1 (défaut), l'ISR peut tomber à 1 seule replica sans que Kafka refuse l'écriture. Si ce leader unique crashe ensuite, les messages non répliqués sont perdus — malgré acks=all et replication.factor=3.

Config recommandée prod :

replication.factor = 3
min.insync.replicas = 2
acks = all

5Controller — de ZooKeeper à KRaft

Architecture ZooKeeper (avant Kafka 3)

ZooKeeper était un service externe qui stockait toutes les métadonnées du cluster. Un seul controller Kafka était élu via ZooKeeper. En pratique : deux clusters à opérer, coordination externe, redémarrage lent sur gros clusters.

Architecture KRaft (Kafka 3+, GA Kafka 3.3)

flowchart LR
  subgraph Controllers["Quorum de controllers (3)"]
    C1["Controller 1\n(leader actif)"]
    C2["Controller 2\n(follower)"]
    C3["Controller 3\n(follower)"]
  end
  subgraph Brokers["Brokers"]
    B1["Broker 4"]
    B2["Broker 5"]
    B3["Broker 6"]
  end
  C1 -- "métadonnées\n__cluster_metadata" --> B1
  C1 --> B2
  C1 --> B3

mermaid

	ZooKeeper	KRaft
Stockage métadonnées	Service externe	`__cluster_metadata`
Élection controller	Via ZooKeeper	Algorithme Raft
Clusters à maintenir	2 (Kafka + ZK)	1 (Kafka seul)
Redémarrage cluster	Lent (rechargement ZK)	Rapide (log local)

🚨 Perte de quorum KRaft = cluster figé

Si 2 controllers sur 3 tombent simultanément (maintenance mal planifiée, crash en cascade), le quorum est perdu. Les brokers peuvent encore lire et écrire sur les topics existants, mais toute opération de gestion est bloquée : créer un topic, élire un nouveau leader si un broker tombe. Le cluster est fonctionnel mais ingérable.

6Scénarios de panne prod

Disque plein sur un broker

Broker 2 : disque plein → ne peut plus écrire
    ↓
ISR rétrécit : [leader, f1, f2] → [leader, f1]
    ↓
UnderReplicatedPartitions > 0 (alerte critique)
    ↓
Si ISR size < min.insync.replicas → Kafka refuse les écritures

Full GC trop long

Un Full GC de 30s sur un broker entraîne un faux crash : le controller détecte le timeout de heartbeat, élit un nouveau leader, puis le broker revient — mais il n'est plus leader. Pic de latence, rebalance des consumers, surcharge des autres brokers. Difficile à distinguer d'un vrai crash sans monitoring fin.

Partition sous-répliquée — le signal d'alerte le plus important

UnderReplicatedPartitions > 0 est le signal d'alerte critique à monitorer en priorité. En temps normal, on tolère la perte d'un broker. En état sous-répliqué, on ne tolère plus rien :

replication.factor = 3, ISR normal : [Broker1, Broker2, Broker3]

Broker3 lent → ISR : [Broker1, Broker2]   ← cluster fragilisé

Broker1 crash maintenant :
    ISR : [Broker2]   ← un seul broker, aucune redondance
    Broker2 crash → partition totalement indisponible

⚡ TL;DR — chaque concept en une ligne

replication.factor ✓ Nombre total de copies d'une partition — détermine la tolérance aux pannes de brokers. ⚠ replication.factor=1 = zéro tolérance aux pannes sur les données, même avec KRaft.

ISR ✓ Liste des replicas à jour qui valident les écritures — l'indicateur de santé réel du cluster. ⚠ L'ISR peut se réduire silencieusement sans alerte si UnderReplicatedPartitions n'est pas monitoré.

acks=all + min.insync.replicas=2 ✓ Garantie de durabilité : au moins 2 replicas confirment avant que le producer considère l'envoi réussi. ⚠ Configurés séparément, chacun est insuffisant — les trois curseurs (replication, ISR, acks) doivent être cohérents.

KRaft ✓ Supprime la dépendance à ZooKeeper — métadonnées dans __cluster_metadata, même mécanique que les partitions. ⚠ Perte de quorum (2/3 controllers down) = cluster opérationnellement figé même si les données sont lisibles.

🎓 À retenir

UnderReplicatedPartitions > 0 = alerte immédiate — c'est le signal que le cluster est fragile. En état normal, on tolère un broker down. En état sous-répliqué, n'importe quelle panne peut entraîner une perte de données ou une indisponibilité.
Le push Kafka ≠ pull — les followers ne fetchen pas le leader, c'est le leader qui pousse. Si un follower ne reçoit plus rien, c'est que le push s'est arrêté — le leader le détecte rapidement via l'absence de fetch requests.
Full GC = faux crash du point de vue du controller — un broker pausé 30s sort de l'ISR et perd ses leaderships. À la reprise, il doit rattraper son retard et réintégrer l'ISR. Surveiller GcTime et tuner la heap pour éviter les Full GC longs en production.

Sources

Apache Kafka — Replication — leader election, ISR, acks, min.insync.replicas
KIP-500 — Replace ZooKeeper with a Self-Managed Metadata Quorum — genèse et design de KRaft
Confluent — Kafka Replication: The Pros and Cons of Various Durability Configurations — analyse pratique des combinaisons replication.factor / acks / min.insync.replicas
kafka-core-model — consumer groups, offsets, delivery semantics
kafka-producer-consumer-tuning — configuration acks/idempotence côté producer
kafka-connect-2-debezium-cdc — WAL Postgres, slot lag (WAL mentionné dans le glossaire)