Eine einzige API-URL. Automatisches Fallback. Zero Latency.
Ihr bestehender Code sendet LLM-Requests an CostGhost statt direkt an OpenAI/Anthropic. Keine SDK-Änderung nötig.
Edge-Klassifikation in <1ms. Budget-Phase, Task-Typ und Priorität bestimmen das optimale Modell. 23 Routing-Regeln.
Niedrige Priorität? GPT-4o-mini statt Claude Opus. Kritisch? Bestes Modell, garantiert. Sie sparen, ohne Qualität zu verlieren.
Client → CostGhost Gateway → Budget State Machine → Optimales Modell → Provider
Cloudflare Workers · Durable Objects · 300+ Edge-Locations · <5ms Routing
5 Phasen: GREEN → YELLOW → ORANGE → RED → HARD_STOP. Sequenzielle Transitions. Idempotente Spend-Aufzeichnung. Automatischer Monats-Reset.
Exponential Moving Average über historische Requests. Nach ~500 Requests lernt das System, welches Modell für welchen Task-Typ das beste Preis/Leistungs-Verhältnis hat.
Kein Request rutscht ungeprüft durch. Rate Limiting per Tenant im Durable Object. Sliding Window. Konfigurierbar pro Kunde.
Jede Routing-Entscheidung wird in R2 geloggt. NDJSON, partitioniert nach Tenant/Tag/Stunde. Vollständige Nachvollziehbarkeit, was warum geroutet wurde.
// Vorher:
const client = new OpenAI({
baseURL: "https://api.openai.com/v1"
});
// Nachher:
const client = new OpenAI({
baseURL: "https://gw.costghost.dev/v1"
});
// Fertig. Alles andere bleibt identisch.
// Optional: Priorität setzen
const response = await client.chat.completions.create({
model: "gpt-4o",
messages: [{ role: "user", content: prompt }],
}, {
headers: { "X-CG-Priority": "low" }
});
Wir nehmen die ersten 50 Teams auf. Kein Commitment, keine Kreditkarte.