Kafka Connect (1/4) — Fondamentaux

🎯 OBJECTIF

Comprendre comment :

Kafka Connect résout le problème du transport réutilisable (source → Kafka → sink)
L'architecture Workers / Connectors / Tasks s'articule — pool partagé, pas un pod par connector
Les 3 topics internes (connect-configs, connect-offsets, connect-status) coordonnent le cluster
Déployer en distributed, éviter le drift Git ↔ cluster
Dimensionner tasks.max selon la nature du travail

🧠 MODÈLE MENTAL

Connect est un pool de workers JVM qui exécutent des connectors sous forme de tasks. Tu configures en JSON, le framework gère transport, offsets, retries, rebalance, DLQ. Ce n'est pas un moteur de transformation — c'est du transport + transformations stateless. Enrichissement, agrégation, join → Kafka Streams ou Flink.

La distinction fondamentale : un worker n'appartient pas à un connector. C'est un pool partagé. Les tasks de tous les connectors se répartissent sur tous les workers disponibles. Ajouter un worker bénéficie à l'ensemble du cluster, pas à un seul connector.

Prérequis : kafka-core-model (topics, partitions, offsets, consumer groups).

1Source vs Sink — les deux sens du flux

Connect déplace des données entre Kafka et le reste du monde dans les deux directions.

flowchart LR
  PG["Postgres SIE\n(WAL)"] -->|Debezium Source| K["Kafka\nsie.stock.stock"]
  K -->|JDBC Sink| REP["Postgres reporting\n(UPSERT)"]

mermaid

Source connector — système externe → Kafka. Lit une DB, un fichier, une API, publie sur des topics. Ex : Debezium lit le WAL Postgres et écrit sur sie.stock.stock.
Sink connector — Kafka → système externe. Consomme des topics et écrit dans une cible. Ex : JDBC Sink consomme sie.stock.stock et fait des UPSERT dans une table de reporting.

Source et sink sont indépendants — leur seul point de rendez-vous est le topic Kafka. Plusieurs sinks peuvent lire le même topic sans coordination.

2Connect vs Streams vs Flink

Confusion fréquente — trois outils, trois rôles distincts.

Outil	Rôle	Quand l'utiliser
Connect	Transport Kafka ↔ systèmes externes + SMT stateless	"Je veux que les changements de ma table arrivent dans un topic"
Kafka Streams	Librairie Java embarquée dans ton appli pour transformer topics → topics (stateful)	Enrichissement, agrégation, windowing, join. Dans ton jar Spring Boot.
Flink	Runtime de stream processing autonome, multi-langage	Même besoin que Streams mais avec state énorme, scalabilité horizontale forte, SQL/Python, exactly-once bout en bout

🚨 Connect n'est pas un ETL

Si tu chaînes 10 SMT avec des conditions complexes, tu es dans le mauvais outil. Les SMT sont stateless — un message en entrée, un message en sortie, sans mémoire. Pour de l'enrichissement ou du join → Kafka Streams ou Flink.

3Architecture : Workers, Connectors, Tasks

Trois notions à ne pas confondre.

Worker — un process JVM (un pod k8s). Offre de la CPU/RAM pour exécuter des tasks. N'appartient à aucun connector en propre.
Connector — une configuration (le JSON du POST). Identifié par un nom (sie-stock-source). Décide combien de tasks créer selon le travail disponible.
Task — une unité d'exécution (thread) qui transporte réellement les données. Tourne dans un worker. Porte son état local (offset courant, buffer).

flowchart TB
  subgraph Cluster["Cluster Connect — 3 workers"]
    W1["Worker A"]
    W2["Worker B"]
    W3["Worker C"]
  end

  C1["sie-stock-source\n(Debezium, 1 task)"] -.-> W1
  C2["reporting-sink\n(JDBC Sink, 3 tasks)"] -.-> W1
  C2 -.-> W2
  C2 -.-> W3
  C3["es-search-sink\n(Elastic Sink, 2 tasks)"] -.-> W2
  C3 -.-> W3

mermaid

Le Worker A exécute la task Debezium et une task JDBC Sink. Pas de pod dédié par connector — les tasks se distribuent sur le pool. Ajouter un worker bénéficie à tous les connectors simultanément.

4Les 3 topics internes — coordinateur partagé

Les workers ne se parlent pas directement. Toute coordination passe par trois topics Kafka compacted partagés par tout le cluster.

Topic	Contenu	Pourquoi compacted
`connect-configs`	Config JSON de tous les connectors	On veut la version courante, pas l'historique
`connect-offsets`	Dernier offset source par task (LSN Debezium, binlog pos…)	On veut le dernier offset, pas l'historique
`connect-status`	État de chaque task (RUNNING / FAILED / PAUSED)	On veut l'état actuel

Séquence d'un POST de nouvelle config :

POST /connectors envoyé sur Worker A.
Worker A écrit la config dans connect-configs.
Workers B et C, qui consomment ce topic en continu, voient la config.
Rebalance → les 3 workers décident qui exécute quelles tasks → démarrage.

Séquence de démarrage d'un worker :

Lit connect-configs → connaît tous les connectors.
Lit connect-offsets → sait où reprendre les sources.
Lit connect-status → sait quelles tasks doivent tourner.
Rebalance → se voit attribuer sa part des tasks.

🔑 Conclusion clé

Aucun état critique sur disque local. Un worker tout neuf devient opérationnel en lisant uniquement ces 3 topics. Un worker qui crashe et revient n'a rien perdu.

5Déploiement — le drift Git ↔ cluster

La source de vérité du cluster est connect-configs, pas ton Git. Si tu modifie le JSON dans Git sans faire le PUT correspondant, le topic ne change pas, les workers ne voient rien.

🚨 Drift silencieux

Git affiche v2, le cluster tourne v1. Aucune erreur, aucun log. Le drift silencieux est le pire scénario ops — découvert uniquement lors d'un incident.

Trois patterns pour synchroniser Git → cluster :

Option A — Script CI (correct)

for f in connectors/*.json; do
  curl -X PUT -H "Content-Type: application/json" \
    "$CONNECT_URL/connectors/$(basename $f .json)/config" \
    --data "@$f"
done

bash

Déclenché par GitHub Actions / GitLab CI sur chaque merge dans main.

Option B — GitOps avec Strimzi (recommandé sur k8s)

apiVersion: kafka.strimzi.io/v1beta2
kind: KafkaConnector
metadata:
  name: sie-stock-source
  labels:
    strimzi.io/cluster: connect-sie
spec:
  class: io.debezium.connector.postgresql.PostgresConnector
  tasksMax: 1
  config:
    database.hostname: pg-sie.prod.internal
    # …

yaml

kubectl apply ou ArgoCD. L'opérateur Strimzi réconcilie : toute modification manuelle via API REST est écrasée au cycle suivant. Git devient officiellement la source de vérité.

6Dimensionner tasks.max

tasks.max est un plafond, pas le parallélisme réel. Le connector décide au démarrage combien de tasks il peut réellement créer selon le parallélisme naturel du travail.

flowchart TD
  Q{"Nature du travail ?"}
  Q -->|"Flux séquentiel unique\nWAL, binlog"| A["1 task\n(Debezium PG)"]
  Q -->|"N sources indépendantes\nN tables à poll"| B["min(tasks.max, N tables)\n(JDBC Source)"]
  Q -->|"Consumer d'un topic\nà P partitions"| C["min(tasks.max, P partitions)\n(tous les sinks)"]

mermaid

Cas Debezium Postgres : toujours tasks.max=1. Le WAL est strictement séquentiel — un seul curseur possible. Mettre 2 ne crée pas 2 tasks.

Cas JDBC Sink : min(tasks.max, nombre de partitions). Avec 12 partitions et 20 tasks → 12 tasks actives, 8 oisives. Gâchis.

Un connector Debezium capture N tables avec 1 seule task — pas un connector par table. "table.include.list": "stock.stock,stock.movement,client.client" → 1 connector, 1 task, 1 replication slot.

⚡ TL;DR — chaque concept en une ligne

Workers / Connectors / Tasks ✓ Pool JVM partagé qui distribue les tasks de tous les connectors — pas un pod par connector. ⚠ tasks.max est un plafond — le connector décide le parallélisme réel selon le travail disponible.

3 topics internes ✓ connect-configs, connect-offsets, connect-status — tout l'état du cluster dans Kafka. ⚠ Aucun état critique sur disque local : un worker peut crasher et reprendre sans rien perdre.

Source de vérité = connect-configs, pas Git ✓ Le cluster vit dans le topic — Git n'est que la bibliothèque des artefacts désirés. ⚠ Commit sans PUT = drift silencieux. Anti-drift : pipeline CI ou GitOps Strimzi.

tasks.max ✓ Plafond de parallélisme — 1 pour CDC séquentiel, min(tasks.max, N) pour JDBC Source et sinks. ⚠ Pour Debezium Postgres, un seul slot/WAL séquentiel — mettre tasks.max=4 ne crée pas 4 tasks.

🎓 À retenir

Connect ≠ Streams ≠ Flink — Connect fait du transport + SMT stateless. Enrichissement, agrégation, join → Streams (librairie embarquée) ou Flink (cluster dédié). Si tu chaînes 10 SMT avec des conditions, change d'outil.
Distributed only en prod — standalone mode stocke les offsets sur disque local. Un crash = perte de position. Ne jamais utiliser en prod.
Un connector Debezium = 1 slot, N tables — multiplier les connectors pour paralléliser un WAL n'apporte rien. Le WAL est séquentiel. Les slots supplémentaires ne font que consommer des ressources Postgres.

Sources

Kafka Connect Documentation — architecture workers/tasks/connectors, topics internes, modes de déploiement
Confluent — Kafka Connect Overview — référence complète source/sink, SMT, converters
Strimzi — KafkaConnector CRD — GitOps avec opérateur Kubernetes
kafka-core-model — consumer groups, offsets, partitions
kafka-infra-cluster — réplication, ISR, durabilité
kafka-connect-4-sink-smt-dlq — JDBC Sink, SMT, Dead Letter Queue