OpenClaw Fly.io vs. Linux-VPS 2026 | Volumes, Webhooks, Health Checks

OpenClaw braucht einen stabilen Prozess, dauerhaften Zustand für Sessions und Tokens sowie eine HTTPS-URL, die Chat-Anbieter für Webhooks erreichen. 2026 sind zwei typische Fußabdrücke üblich: eine Fly.io-Machine mit Volume und verwaltetem TLS oder ein generischer Linux-VPS mit systemd, Reverse-Proxy und gemountetem Datenverzeichnis. Dieser Artikel vergleicht die Dimensionen, die Produktion wirklich brechen: wo der Zustand liegt, wie sich die öffentliche URL bei Deploys verhält, wie Retries von Slack oder Telegram mit Ihrem Gateway interagieren und wie Health Checks verdrahtet sein sollten, damit Neustarts keine gepaarten Kanäle verwerfen.

Haupt-Deployment-Formen

TLS

Pflicht für Webhooks

Kanonscher Datenpfad

Entscheidungsmatrix auf einen Blick

Fly eignet sich, wenn die Plattform Rolling-Deploys, Anycast-Routing und Zertifikatserneuerung mit wenig Ansible übernehmen soll. Ein VPS passt, wenn Sie feste Egress-IPs, beliebige Kernel-Module, Neben-Agents auf demselben Host oder eine Compliance-Grenze brauchen, die Sie Ende-zu-Ende kontrollieren. Für Muster mit minimaler öffentlicher Fläche (Gateway nur Loopback plus SSH oder getrenntes HTTPS) siehe 2026 OpenClaw Linux-Cloud-VPS: Minimale Angriffsfläche — Firewall-Vorlage, Gateway-Loopback-Bindung und SSH-Tunnel für die Verwaltungsebene, Entscheidungsmatrix gegenüber HTTPS-Reverse-Proxy im öffentlichen Netz und gestufte FAQ.

Dimension	Fly.io Machines	Linux-VPS (systemd + Proxy)
Persistenter Zustand	Volume in derselben Region mounten, dort wo OpenClaw Konfiguration und Session-Store erwartet; ohne Volume sind Restarts flüchtig.	Eigenes Verzeichnis auf der Platte (oft unter `/var/lib` oder Docker-Volume); Snapshots sind Ihre Migrationsgeschichte.
Öffentlicher HTTPS-Eingang	Fly-Proxy terminiert TLS; interne Ports mit `fly.toml`-Services abstimmen.	Caddy oder Nginx auf dem Host; DNS, ACME und OCSP-Stapling selbst betreiben.
Webhook-Callbacks	Stabiler Hostname pro App; Deploy-Reihenfolge beachten, damit der Prozess lauscht, bevor Slack URLs als ungesund markiert.	Gleiche URL-Disziplin; am Edge leichter WAF oder IP-Allowlists, wenn Anbieter Bereiche veröffentlichen.
Health Checks	HTTP-Checks auf einem leichten `/healthz`-Pfad; fehlgeschlagene Checks ersetzen die Machine.	systemd `Restart=on-failure` plus optional Uptime Kuma; keine Pfade prüfen, die Channel-Auth erzwingen.

Eine Quelle der Wahrheit

Wählen Sie ein Verzeichnis für OpenClaw-Daten und duplizieren Sie es nicht zwischen Image-Layer und Volume. Gemischte Layouts sind die häufigste Ursache für Regressionen à la „ging bis zum Deploy“ bei gepaarten WhatsApp- oder Telegram-Sessions.

Persistenz: Volumes vs. Bind-Mounts

Auf Fly: Volume in derselben Region wie die Machine deklarieren und an den Pfad mounten, den Ihr Container-Entrypoint für Credentials, Kanal-Metadaten und lokale Caches nutzt. Horizontale Skalierung ohne gemeinsamen Storage spaltet den Zustand; für OpenClaw wollen Sie fast immer genau eine Writer-Instanz, bis das Projekt explizite Multi-Node-Semantik dokumentiert. Auf dem VPS: ein Bind-Mount-Verzeichnis, Eigentümer ein Nicht-root-Service-User, Dateisystem-Backups, die für SQLite-ähnliche Stores crash-konsistent genug sind.

Wenn Sie noch zwischen Installationsarten wählen, hilft 2026 OpenClaw Linux-Cloud-VPS in der Praxis: curl-Installation vs. Docker, Umgebungschecks und FAQ zu typischen Fehlern mit Checks, die gelten, bevor Sie Port 443 überhaupt freigeben.

Ingress, Webhooks und Replay-Druck

Kanal-Anbieter liefern Events mit Retries und knappen Latenzbudgets. Das Gateway muss schnell antworten, Signaturen möglichst am Rand prüfen und schwere Arbeit in eine Queue legen statt inline. Unter Fly: interne HTTP-Timeouts kürzer halten als das Client-Timeout des Anbieters, damit keine doppelten Zustellungen wie Replay-Bugs wirken. Unter Nginx oder Caddy: Upstream-Status und TLS-Handshake-Fehler getrennt loggen, damit ein Zertifikatsproblem nicht als Applikations-500 gelesen wird.

Deploy-Reihenfolge

Bei einem Rolling-Release können kurz zwei Gateways hinter demselben Hostnamen laufen und Webhook-Verifikation verwirren, wenn Signing-Secrets abweichen. Secrets im gemeinsamen Store pinnen und Schlüssel erst nach Verbindungs-Drain wechseln.

Health Checks, die Rollouts überleben

Ein günstiges GET-Endpoint, das Konfigurations-Parsing und Schreibbarkeit auf dem Volume prüft — keine Live-Calls zu Drittanbietern bei jedem Probe. Ergänzend eine synthetische „kann Arbeit einreihen“-Prüfung in der Observability. Auf Fly: Intervall so wählen, dass kurzzeitiger CPU-Steal keine gesunden Machines ersetzt. Bei systemd: Type=notify nur, wenn der Binary sd_notify unterstützt; sonst Exit-Codes und Backoff-Limits statt Restart-Stürmen.

Log-Versand verdient dieselbe Disziplin wie der Check: wenn Sie nur stdout scrapen, aber Datei-Logs unter dem State-Verzeichnis schreiben, rotieren oder forwarden — sonst füllt sich die Platte, während ein flacher Health-Check noch grün bleibt. Bei Dual-Stack prüfen, ob der Health-Client IPv4 oder IPv6 nutzt, damit nicht Loopback grün ist, während das öffentliche AAAA auf einen toten Listener zeigt.

Reproduzierbare Triage-Reihenfolge (beide Plattformen)

1. curl -v https://ihr-host/healthz   # TLS + Routing
2. ls -la $OPENCLAW_STATE_DIR        # Volume gemountet?
3. journalctl -u openclaw -b         # oder fly logs --app …
4. Webhook-Secret vs. Anbieter-UI     # stille 401/403-Schleifen

FAQ: reproduzierbare Ausfälle

F: Slack melkt die Events-URL nach jedem Deploy. A: Listener vor Traffic-Umschaltung starten; Request-Pfad zwischen Preview und Produktion identisch halten; Signing-Secret in der UI mit der Laufzeitumgebung abgleichen.

F: Sessions waren über Nacht weg. A: Fast immer ungemountetes Volume oder Container, der in den Image-Layer schrieb. Mount im laufenden Task prüfen, nicht nur im Dockerfile.

F: Health grün, Nutzer sehen Timeouts. A: Der Check trifft vermutlich localhost, Webhooks aber ein gesättigtes TLS-Front. Zweite synthetische Prüfung von außerhalb oder externes Monitoring.

F: Fly zeigt mehrere Machines nach Scale-Bump. A: Ohne Leader-Election nicht horizontal skalieren, bis gemeinsamer Storage oder Single-Writer-Queue existiert; sonst konkurrieren doppelte Webhooks mit denselben Automationen.

Dokumentationsgewohnheit

Pro Umgebung die kanonische öffentliche URL, den Volume-Mount-Pfad und den systemd-Unit-Namen auf einer Runbook-Seite festhalten. „Wo ist Prod?“ soll ohne SSH-Muskelgedächtnis beantwortbar sein.

Entscheidungsmatrix auf einen Blick

Persistenz: Volumes vs. Bind-Mounts

Ingress, Webhooks und Replay-Druck

Health Checks, die Rollouts überleben

FAQ: reproduzierbare Ausfälle

Lang laufende Automation neben ernsthaften Apple-Workflows

OpenClaw dort betreiben, wo Ihr Team ohnehin arbeitet