Beta · Q2 2026

Senken Sie Ihre LLM-API-Kosten um 40% durch intelligentes Routing.

Eine einzige API-URL. Automatisches Fallback. Zero Latency.

// Einzige Änderung:
baseURL: "api.openai.com" "gw.costghost.dev"

So funktioniert CostGhost

01

Request rein

Ihr bestehender Code sendet LLM-Requests an CostGhost statt direkt an OpenAI/Anthropic. Keine SDK-Änderung nötig.

02

Intelligent routen

Edge-Klassifikation in <1ms. Budget-Phase, Task-Typ und Priorität bestimmen das optimale Modell. 23 Routing-Regeln.

03

Kosten sparen

Niedrige Priorität? GPT-4o-mini statt Claude Opus. Kritisch? Bestes Modell, garantiert. Sie sparen, ohne Qualität zu verlieren.

Architektur

[ARCHITEKTUR-DIAGRAMM]

Client → CostGhost Gateway → Budget State Machine → Optimales Modell → Provider

Cloudflare Workers · Durable Objects · 300+ Edge-Locations · <5ms Routing

<5ms
Routing-Latenz
23
Routing-Regeln
5
Budget-Phasen
4
LLM-Provider

Für Engineers gebaut

BUDGET STATE MACHINE

5 Phasen: GREEN → YELLOW → ORANGE → RED → HARD_STOP. Sequenzielle Transitions. Idempotente Spend-Aufzeichnung. Automatischer Monats-Reset.

LEARNING CACHE

Exponential Moving Average über historische Requests. Nach ~500 Requests lernt das System, welches Modell für welchen Task-Typ das beste Preis/Leistungs-Verhältnis hat.

FAIL-CLOSED DESIGN

Kein Request rutscht ungeprüft durch. Rate Limiting per Tenant im Durable Object. Sliding Window. Konfigurierbar pro Kunde.

APPEND-ONLY AUDIT

Jede Routing-Entscheidung wird in R2 geloggt. NDJSON, partitioniert nach Tenant/Tag/Stunde. Vollständige Nachvollziehbarkeit, was warum geroutet wurde.

Integration in 30 Sekunden

app.ts
// Vorher:
const client = new OpenAI({
  baseURL: "https://api.openai.com/v1"
});

// Nachher:
const client = new OpenAI({
  baseURL: "https://gw.costghost.dev/v1"
});

// Fertig. Alles andere bleibt identisch.
// Optional: Priorität setzen
const response = await client.chat.completions.create({
  model: "gpt-4o",
  messages: [{ role: "user", content: prompt }],
}, {
  headers: { "X-CG-Priority": "low" }
});

Early Access

Wir nehmen die ersten 50 Teams auf. Kein Commitment, keine Kreditkarte.