Mock-LLM-API-Leitfaden

Erstellen Sie kostenlose LLM-Streaming-Endpoints, die OpenAI, Claude und andere KI-Anbieter nachbilden. Bauen und testen Sie KI-Funktionen, ohne Tausende für API-Aufrufe auszugeben.

Erste Schritte

Das Erstellen eines Mock-LLM-Streaming-Endpoints dauert weniger als 30 Sekunden. Folgen Sie diesen einfachen Schritten:

1
LLM-Mock-Seite besuchen
Gehen Sie zu mockapi.dog/llm-mock. Ein eindeutiger 6-stelliger Code wird automatisch für Ihren Endpoint generiert.
2
LLM-Anbieter-Profil wählen
Wählen Sie das Antwortformat, das emuliert werden soll:
- • OpenAI - Format der Chat-Completions-API (GPT-4, GPT-3.5)
- • Anthropic Claude - Claude-Streaming-Format
- • Generic Stream - Anbieterunabhängiger Token-Stream
- • Generic JSON - Einfache JSON-Antwort (kein Streaming)
3
Inhaltsmodus auswählen
Legen Sie fest, wie die Antwortinhalte erzeugt werden:
- • Generated - LLM-ähnlichen Text automatisch generieren (Stil: Chat, Technical oder Markdown)
- • Static - Den von Ihnen angegebenen Text exakt verwenden
- • Hybrid - Ihr Text gefolgt von einer generierten Fortsetzung
4
Token-Generierung konfigurieren (optional)
Legen Sie für die Modi Generated oder Hybrid eine Mindest- und Höchstzahl an Tokens fest (empfohlen: 100–300). Die Länge des generierten Textes liegt zufällig zwischen diesen Werten. Für Static nicht erforderlich.
5
Verifizierung abschließen und speichern
Schließen Sie die Turnstile-Verifizierung ab und klicken Sie auf "Mock-Endpoint speichern". Die Endpoint-URL wird automatisch kopiert!
https://abc123.mockapi.dog/v1/chat/completions

Fertig! Sofort streamen

Ihr Endpoint ist einsatzbereit. Ersetzen Sie die baseURL für OpenAI/Claude durch Ihren Mock-Endpoint und beginnen Sie mit dem Testen. Keine Authentifizierung oder API-Schlüssel erforderlich.

Das Kostenproblem

Echte LLM-APIs sind teuer. Während Entwicklung, Tests und Prototyping können die Kosten schnell außer Kontrolle geraten. So viel würden echte Anbieter kosten:

OpenAI GPT-4

Teuer

Input10 USD / 1 Mio. Tokens

Output30 USD / 1 Mio. Tokens

Beispiel: Ein Chatbot-Test mit 1.000 Konversationen (durchschnittlich 500 Tokens pro Konversation) = 20+ USD

Anthropic Claude

Kostspielig

Input8 USD / 1 Mio. Tokens

Output24 USD / 1 Mio. Tokens

CI/CD-Pipeline: 100 Test-Läufe pro Tag = 300+ USD/Monat

Mit MockAPI Dog: 0 USD

Kostenlose Streaming-Antworten für Entwicklung und Tests. Sparen Sie Tausende in der Entwicklungsphase. Wechseln Sie erst dann zu echten APIs, wenn Sie produktionsreif sind.

Warum eine Mock-LLM-API nutzen?

Geld sparen

Vermeiden Sie es, in der Entwicklung Tausende auszugeben. Testen Sie UI, Streaming-Logik und Fehlerbehandlung, ohne API-Guthaben zu verbrauchen.

Keine API-Schlüssel oder Abrechnung erforderlich
Kostenlose Anfragen während der Entwicklung
Ideal für Indie-Entwickler und Start-ups

Sofort testen

Testen Sie Streaming-Antworten, UI-Animationen und Fehlerzustände sofort. Kein Warten auf echte API-Aufrufe und keine Rate Limits.

Konfigurierbare Antwortgeschwindigkeit und Tokens
Edge Cases und Fehlerszenarien testen
Funktioniert offline – kein Internet erforderlich

Mehrere Anbieter

Testen Sie Ihre App mit verschiedenen LLM-Anbietern, ohne mehrere API-Schlüssel zu verwalten. Wechseln Sie mühelos zwischen OpenAI, Claude und generischen Formaten.

OpenAI-kompatible Endpoints
Unterstützung für Anthropic-Claude-Format
Generisches SSE-Streaming-Format

CI/CD-Integration

Lassen Sie automatisierte Tests in Ihrer CI/CD-Pipeline laufen, ohne sich um API-Kosten oder Rate Limits zu sorgen. Testen Sie Ihre KI-Funktionen bei jedem Commit.

Keine Authentifizierung erforderlich
Konsistente, vorhersagbare Antworten
Schnelle Ausführung für schnelles Feedback

Unterstützte Anbieter

MockAPI Dog unterstützt Streaming-Formate gängiger LLM-Anbieter. Setzen Sie einfach Ihren Endpoint als baseURL in Ihrem bevorzugten SDK.

OpenAI-Format

GPT-4, GPT-3.5

Kompatibel mit dem offiziellen OpenAI-SDK. Unterstützt Streaming-Antworten im selben Format wie GPT-4 und GPT-3.5-turbo.

Kompatible Modelle:

gpt-4gpt-4-turbogpt-3.5-turbogpt-4o

Anthropic-Format

Claude

Kompatibel mit dem Anthropic-SDK. Unterstützt Streaming-Antworten im selben Format wie Claude 3 Opus, Sonnet und Haiku.

Kompatible Modelle:

claude-3-opusclaude-3-sonnetclaude-3-haikuclaude-2

Generisches SSE-Format

Universell

Standardformat für Server-Sent Events (SSE). Verwenden Sie es mit jedem Streaming-Client oder bauen Sie Ihre eigene Integration.

Anwendungsfälle:

Eigene LLM-Integrationen
EventSource-Implementierungen testen
Streaming-Protokolle lernen

Inhaltsmodi

Wählen Sie, wie Ihr Mock-LLM-Endpoint die Antwortinhalte erzeugt. Jeder Modus bietet eine andere Kontrolle über den gestreamten Text.

Generated

Erzeugen Sie automatisch LLM-ähnlichen Text in unterschiedlichen Stilen. Wählen Sie zwischen Chat (umgangssprachlich), Technical (programmierlastig) oder Markdown (formatiert mit Listen und Code-Blöcken).

Ideal für: Realistische Tests ohne eigenen Inhalt, UI-Animationen, allgemeines Prototyping

Static

Verwenden Sie Ihren genauen Text als Antwort. Der Text wird unverändert gestreamt – ohne Generierung oder Anpassung.

Ideal für: Spezifische Testszenarien, exakt erwartete Antworten, Tests von Edge Cases

Hybrid

Kombiniert Ihren Text mit einer automatisch generierten Fortsetzung. Ihr Text wird zuerst gestreamt, gefolgt von generiertem LLM-ähnlichem Inhalt.

Ideal für: Kontrollierter Einstieg mit realistischer Fortsetzung, Test partieller Antworten

Textstile für generierte Inhalte

Bei den Modi Generated oder Hybrid können Sie zwischen den Stilen Chat (umgangssprachlich), Technical (programmierlastig) und Markdown (mit Formatierung, Listen, Code-Blöcken) wählen.

Einstellungen zur Token-Generierung

Stimmen Sie genau ab, wie Ihr Mock-LLM-Endpoint Tokens generiert und streamt – passend zu Ihren Tests.

Token-Anzahl

Legen Sie die Anzahl der Tokens fest (entspricht ungefähr Wörtern). Praktisch zum Testen unterschiedlicher Antwortlängen.

Kurze Antwort50-100 tokens

Mittlere Antwort200-500 tokens

Lange Antwort1000+ tokens

Streaming-Geschwindigkeit

Steuern Sie, wie schnell Tokens gestreamt werden. Testen Sie Ihre UI mit verschiedenen Streaming-Geschwindigkeiten, um flüssige Animationen sicherzustellen.

Schnell~50ms/token

Normal~100ms/token

Langsam~200ms/token

Profi-Tipp

Testen Sie mit verschiedenen Geschwindigkeiten, damit Ihre UI sowohl schnelles als auch langsames Streaming sauber verarbeitet. Echte LLM-APIs schwanken erheblich in der Antwortzeit.

Code-Beispiele

So nutzen Sie Ihren Mock-LLM-Endpoint mit gängigen SDKs und Bibliotheken.

OpenAI-SDK

Ersetzen Sie die baseURL durch Ihren Mock-Endpoint. Kein API-Schlüssel erforderlich!

import OpenAI from 'openai';

const openai = new OpenAI({
  baseURL: 'https://xyz789.mockapi.dog/llm',
  apiKey: 'dummy-api-key', // Mock endpoint doesn't check API keys
});

async function main() {
  const stream = await openai.chat.completions.create({
    model: 'gpt-4',
    messages: [{ role: 'user', content: 'Hello!' }],
    stream: true,
  });

  for await (const chunk of stream) {
    const content = chunk.choices[0]?.delta?.content || '';
    process.stdout.write(content);
  }
}

main();

Anthropic-SDK

Verwenden Sie das Anthropic-SDK, indem Sie eine eigene baseURL setzen.

import Anthropic from '@anthropic-ai/sdk';

const anthropic = new Anthropic({
  baseURL: 'https://xyz789.mockapi.dog/llm',
  apiKey: 'dummy-api-key', // Mock endpoint doesn't check API keys
});

async function main() {
  const stream = await anthropic.messages.stream({
    model: 'claude-3-opus-20240229',
    max_tokens: 1024,
    messages: [{ role: 'user', content: 'Hello!' }],
  });

  for await (const chunk of stream) {
    if (chunk.type === 'content_block_delta' && chunk.delta.type === 'text_delta') {
      process.stdout.write(chunk.delta.text);
    }
  }
}

main();

Generischer Fetch (SSE)

Verwenden Sie reines JavaScript/TypeScript für maximale Flexibilität.

async function streamResponse() {
  const response = await fetch('https://xyz789.mockapi.dog/llm/stream', {
    method: 'POST',
    headers: {
      'Content-Type': 'application/json',
    },
    body: JSON.stringify({
      prompt: 'Hello, world!',
      max_tokens: 500,
    }),
  });

  const reader = response.body?.getReader();
  const decoder = new TextDecoder();

  while (true) {
    const { done, value } = await reader.read();
    if (done) break;

    const chunk = decoder.decode(value);
    const lines = chunk.split('\n');

    for (const line of lines) {
      if (line.startsWith('data: ')) {
        const data = line.slice(6);
        if (data === '[DONE]') return;

        try {
          const json = JSON.parse(data);
          console.log(json.content);
        } catch (e) {
          // Skip invalid JSON
        }
      }
    }
  }
}

streamResponse();

So einfach ist das!

Ersetzen Sie einfach die baseURL und schon kann es losgehen. Ihr bestehender Code funktioniert ohne Anpassungen.

Reale Anwendungsfälle

Chatbot-Entwicklung

Bauen und testen Sie Chatbot-UIs ohne Ausgaben für API-Aufrufe. Testen Sie Nachrichten-Threads, Streaming-Animationen und Fehlerbehandlung.

Streaming-Animationen für Nachrichten testen
Konversations-Threading verifizieren
UI-Edge-Cases debuggen

Tests und QA

Führen Sie automatisierte Tests und manuelle QA ohne API-Kosten durch. Testen Sie verschiedene Antwortszenarien und Edge Cases konsistent.

Automatisierte E2E-Tests in CI/CD
Konsistente Testdaten
Schnelle Testausführung

Lernen und Tutorials

Lernen Sie KI-Integration ohne Geldausgaben. Ideal für Tutorials, Kurse und Lerninhalte.

Kein API-Schlüssel-Setup für Lernende
Kostenloses Üben
Sichere Lernumgebung

MVPs und Demos

Bauen Sie Proofs of Concept und Demos ohne Vorabkosten. Zeigen Sie Investoren und Stakeholdern Ihre Vision, bevor Sie in Produktions-APIs investieren.

Schnelles Prototyping
Investoren-Demos
Ideen günstig validieren

Erweiterte Funktionen

Eigene Header

Fügen Sie eigene Antwort-Header hinzu, um CORS, Authentifizierungsabläufe und andere header-basierte Logik in Ihrer LLM-Integration zu testen.

Konfigurierbare Verzögerungen

Simulieren Sie Netzwerklatenz und langsames Streaming, um Ladezustände und Timeout-Verhalten in Ihrer Anwendung zu testen.

Fehlersimulation

Testen Sie die Fehlerbehandlung, indem Sie Rate Limits, Authentifizierungsfehler und Streaming-Unterbrechungen simulieren.

Keine Authentifizierung

Mock-Endpoints benötigen weder API-Schlüssel noch Authentifizierung. Ideal für CI/CD-Pipelines und öffentliche Demos.

Fehlerbehebung

Streaming funktioniert nicht

Stellen Sie sicher, dass Sie das richtige Anbieterformat verwenden und Ihr Client Streaming unterstützt. Prüfen Sie, ob Sie die Antwort als Stream und nicht als komplette Antwort lesen.

// Make sure to set stream: true
const stream = await openai.chat.completions.create({
  stream: true, // This is required!
  // ...
});

Antwort zu schnell/langsam

Passen Sie die Streaming-Geschwindigkeit in Ihrer Endpoint-Konfiguration an. Verschiedene Geschwindigkeiten helfen, unterschiedliche Netzwerkbedingungen und Nutzererlebnisse zu testen.

SDK-Kompatibilitätsprobleme

Stellen Sie sicher, dass Sie eine aktuelle SDK-Version verwenden. Prüfen Sie, ob das Anbieterformat zu Ihrem SDK passt (OpenAI-SDK benötigt OpenAI-Format, Anthropic-SDK benötigt Anthropic-Format).

CORS-Fehler im Browser

Mock-Endpoints sind mit großzügigen CORS-Headern konfiguriert. Sollten dennoch CORS-Fehler auftreten, prüfen Sie Ihre Request-Header und stellen Sie sicher, dass Sie keine eingeschränkten Header senden.

Tipps und Best Practices

Mit verschiedenen Geschwindigkeiten testen

Echte LLM-APIs unterscheiden sich in der Geschwindigkeit. Testen Sie Ihre UI sowohl mit schnellem als auch mit langsamem Streaming, um eine gute Nutzererfahrung unter allen Bedingungen sicherzustellen.

Umgebungsvariablen verwenden

Speichern Sie Ihre baseURL in einer Umgebungsvariable. Wechseln Sie zwischen Mock- und Produktions-API über eine einzige Variable.

// .env.development
OPENAI_BASE_URL=https://xyz789.mockapi.dog/llm

// .env.production
OPENAI_BASE_URL=https://api.openai.com/v1

Fehlerszenarien testen

Testen Sie nicht nur den Happy Path. Nutzen Sie die Fehlersimulation, um Rate Limits, Netzwerkausfälle und fehlerhafte Antworten zu testen.

LLM-Entwicklungs-Workflow

Folgen Sie diesem Workflow für effiziente KI-Entwicklung:

UI und Streaming-Logik mit Mock-Endpoints bauen
Gründlich mit verschiedenen Inhaltsmodi und Geschwindigkeiten testen
Automatisierte Tests in CI/CD mit Mock-Endpoints ausführen
Erst für die finalen Integrationstests auf die echte API umsteigen
Mit Produktions-API-Schlüsseln deployen

Vor der Produktion validieren

Bevor Sie auf Produktions-APIs umsteigen, validieren Sie Ihre Implementierung in einer Staging-Umgebung mit der echten Anbieter-API, um Verhaltensunterschiede aufzudecken.

Glossar

LLM (Large Language Model)

KI-Modelle wie GPT-4 und Claude, die menschenähnliche Textantworten erzeugen. Beispiele: OpenAIs GPT-Reihe, Anthropics Claude, Googles Gemini.

Streaming-API

Eine API, die Daten in Chunks sendet, statt auf die vollständige Antwort zu warten. Ermöglicht die Echtzeit-Anzeige KI-generierter Texte während ihrer Erstellung.

Token

Die Grundeinheit eines Texts in LLMs. Entspricht ungefähr einem Wort oder Wortteil. LLM-Preise basieren in der Regel auf der Token-Anzahl.

SSE (Server-Sent Events)

Eine Technologie, mit der Server Daten in Echtzeit an Clients senden. Wird von LLM-APIs zum Streamen von Antworten verwendet.

baseURL

Die Basisadresse für API-Anfragen. Ersetzen Sie sie durch Ihre Mock-Endpoint-URL, um Anfragen statt an den echten Anbieter an MockAPI Dog zu leiten.

Anbieter

Unternehmen, die LLM-APIs anbieten, etwa OpenAI (GPT), Anthropic (Claude), Google (Gemini) usw.

Bereit, loszubauen?

Erstellen Sie Ihren ersten Mock-LLM-Streaming-Endpoint in Sekunden. Keine Anmeldung, keine Kreditkarte, kein Aufwand. Starten Sie mit dem Bau von KI-Funktionen, ohne Tausende für API-Aufrufe auszugeben.

LLM-Endpoint erstellen →← Zurück zur Doku