Backup & Disaster Recovery · Production-Ready Guide

Moltbot Backup & Disaster Recovery — Du hast kein Backup, kein RTO/RPO, kein DR-Test. Datenbank-Crash, Ransomware, Rechenzentrum-Ausfall. 72h Downtime, Datenverlust, dein CEO hat den CISO gefeuert.

Q: Wie oft sollte ich PostgreSQL Backups machen?

Für Produktionsdatenbanken: Mindestens stündlich mit WAL Streaming für Point-in-Time Recovery. Tägliches Full Backup als Baseline. 30 Tage Retention mit verschlüsseltem Cloud Storage. Teste Recovery monatlich.

Q: Was ist Geo-Redundanz?

Geo-Redundanz bedeutet, dass deine Infrastruktur in mindestens zwei geografisch getrennten Rechnzentren läuft. Wenn ein Rechenzentrum ausfällt (Feuer, Netzwerk, Naturkatastrophe), übernimmt das andere automatisch. Für Moltbot: Primary in EU-West, Secondary in EU-Central mit automatischem Failover.

Q: Wie teste ich Disaster Recovery?

DR-Test-Schedule: Monatlich: Backup-Integritätsprüfung und Restore-Test. Quartalsweise: Full Failover-Test mit Traffic-Switch. Jährlich: Full Disaster Recovery Simulation mit Ransomware-Szenario. Dokumentiere alle Ergebnisse und Lessons Learned.

Du hast kein automatisches Backup, keine definierten RTO/RPO-Ziele und keinen getesteten DR-Prozess. Datenbank-Crash, Ransomware, Rechenzentrum-Ausfall. 72h Downtime, Datenverlust, dein CEO hat den CISO gefeuert. Hier ist, wie du das verhinderst.

"Not a Pentest" Trust-Anker: Dieser Guide dient der Absicherung durch zuverlässige Backup- und Recovery-Strategien. Keine Angriffswerkzeuge.

Was ist Disaster Recovery? Einfach erklärt.

Stell dir Disaster Recovery wie Versicherung für deine Infrastruktur vor: Wenn alles schiefgeht — Datenbank-Crash, Ransomware, Rechenzentrum-Ausfall — hast du einen Plan. Für Moltbot bedeutet das: Automatisierte Backups, definierte RTO/RPO, Geo-Redundanz, getestete Failover-Prozesse. Gutes DR bedeutet: Never lose data, never be down for long.

↓ Springe direkt zur technischen Tiefe

RTO/RPO Tiers für Moltbot

Tier	Service	RTO	RPO	Backup Freq.
T1	Auth Service	5 Min	1 Min	Continuous
T1	Database (Primary)	15 Min	5 Min	WAL Streaming
T2	API Gateway	30 Min	15 Min	Stündlich
T2	Redis Cache	30 Min	0 (rebuild)	Täglich
T3	File Storage	4 Std	1 Std	Stündlich
T3	Analytics DB	24 Std	24 Std	Täglich

Automatisiertes PostgreSQL Backup

#!/bin/bash
# moltbot-backup.sh — Automatisiertes PostgreSQL Backup

set -euo pipefail

BACKUP_DIR="/backups/postgres"
DB_URL="$DATABASE_URL"
TIMESTAMP=$(date +%Y%m%d_%H%M%S)
BACKUP_FILE="$BACKUP_DIR/moltbot_$TIMESTAMP.sql.gz"
RETENTION_DAYS=30

# 1. Backup erstellen
echo "[INFO] Starting backup: $BACKUP_FILE"
pg_dump "$DB_URL" | gzip > "$BACKUP_FILE"

# 2. Integrität prüfen
gunzip -t "$BACKUP_FILE" || { echo "[ERROR] Backup corrupt!"; exit 1; }
echo "[INFO] Backup integrity OK ($(du -h $BACKUP_FILE | cut -f1))"

# 3. Verschlüsselt in Cloud Storage hochladen
aws s3 cp "$BACKUP_FILE" \
  "s3://moltbot-backups/postgres/$TIMESTAMP/" \
  --server-side-encryption aws:kms \
  --sse-kms-key-id "$AWS_KMS_KEY_ID"

# 4. Alte Backups löschen (Retention)
find "$BACKUP_DIR" -name "*.sql.gz" -mtime +$RETENTION_DAYS -delete
aws s3 ls s3://moltbot-backups/postgres/ | \
  awk '{print $4}' | \
  head -n -$RETENTION_DAYS | \
  xargs -I{} aws s3 rm "s3://moltbot-backups/postgres/{}"

echo "[SUCCESS] Backup completed: $BACKUP_FILE"

Real-World Scars: Production Incidents

SCAR #1: Kein Backup vor DeploymentCRITICAL

Kein Backup vor Deployment. Schema-Change bricht DB, kein Rollback möglich. 24h Downtime. Fix: Pre-Deployment Backup mit automatischem Rollback.

Root Cause: Kein Pre-Deployment Backup. Lessons: Aktiviere automatisches Backup vor jedem Deployment.

SCAR #2: Backup-Test nie durchgeführtHIGH

Backup-Test nie durchgeführt. Restore bei Incident schlägt fehl, Backup korrupt. 48h Downtime. Fix: Monatlicher Restore-Test mit Integritätsprüfung.

Root Cause: Kein Backup-Test. Lessons: Aktiviere monatlichen Restore-Test mit Integritätsprüfung.

Sofortmaßnahmen: Was heute tun?

RTO/RPO definieren

Definiere RTO/RPO für alle Services. Klassifiziere nach Kritikalität.

Automatisierte Backups aktivieren

Aktiviere automatisierte Backups für PostgreSQL mit WAL Streaming.

Geo-Redundanz konfigurieren

Aktiviere Geo-Redundanz mit automatischem Failover.

Interaktive DR Checkliste

RTO/RPO für alle Services definiertAutomatisierte PostgreSQL Backups aktiviertWAL Streaming für Point-in-Time RecoveryVerschlüsselte Cloud Storage BackupsGeo-Redundanz konfiguriertAutomatischer Failover aktiviertMonatlicher Restore-TestQuartalsweiser Full DR Test

DR Maturity Score Calculator

Hast du RTO/RPO definiert?

Sind automatisierte Backups aktiv?

Ist Geo-Redundanz konfiguriert?

Wurde ein DR Test durchgeführt?

Dein DR Maturity Score:0/100

Industrie-Durchschnitt: 19/100

Häufige Fragen

Was ist RTO vs RPO?

RTO (Recovery Time Objective): Wie lange dauert es, den Service nach einem Ausfall wiederherzustellen. RPO (Recovery Point Objective): Wie viel Datenverlust ist akzeptabel (Zeit seit dem letzten Backup). Für kritische Systeme: RTO < 15 Min, RPO < 5 Min.

Wie oft sollte ich PostgreSQL Backups machen?

Für Produktionsdatenbanken: Mindestens stündlich mit WAL Streaming für Point-in-Time Recovery. Tägliches Full Backup als Baseline. 30 Tage Retention mit verschlüsseltem Cloud Storage. Teste Recovery monatlich.

Was ist Geo-Redundanz?

Geo-Redundanz bedeutet, dass deine Infrastruktur in mindestens zwei geografisch getrennten Rechnzentren läuft. Wenn ein Rechenzentrum ausfällt (Feuer, Netzwerk, Naturkatastrophe), übernimmt das andere automatisch. Für Moltbot: Primary in EU-West, Secondary in EU-Central mit automatischem Failover.

Wie teste ich Disaster Recovery?

DR-Test-Schedule: Monatlich: Backup-Integritätsprüfung und Restore-Test. Quartalsweise: Full Failover-Test mit Traffic-Switch. Jährlich: Full Disaster Recovery Simulation mit Ransomware-Szenario. Dokumentiere alle Ergebnisse und Lessons Learned.

R. Schwertfechter

✓ Verified

Principal Ops-Engineer & Security Architect

📅 Published: 01.05.2026🔄 Last reviewed: 01.05.2026

15+ Jahre Erfahrung als Ops-Engineer, Incident Responder und Security Architect. Experte für Disaster Recovery, Backup-Strategien, RTO/RPO und Failover.

Weiterführende Ressourcen