Guía de Mock LLM API

Crea endpoints LLM streaming gratis que imitan a OpenAI, Claude y otros proveedores de IA. Crea y prueba funcionalidades de IA sin gastar miles en llamadas a la API.

Primeros pasos

Crear un endpoint mock LLM en streaming lleva menos de 30 segundos. Sigue estos sencillos pasos:

  1. 1

    Visita la página de Mock LLM

    Ve a mockapi.dog/llm-mock. Se genera automáticamente un código único de 6 caracteres para tu endpoint.

  2. 2

    Elige el perfil del proveedor LLM

    Selecciona el formato de respuesta del proveedor que quieres emular:

    • OpenAI - Formato de la API Chat Completions (GPT-4, GPT-3.5)
    • Anthropic Claude - Formato de streaming de Claude
    • Stream genérico - Stream de tokens independiente del proveedor
    • JSON genérico - Respuesta JSON simple (sin streaming)
  3. 3

    Selecciona el modo de contenido

    Elige cómo se genera el contenido de la respuesta:

    • Generado - Genera automáticamente texto similar al de un LLM (estilo Chat, Técnico o Markdown)
    • Estático - Usa tu texto exactamente tal cual lo escribes
    • Híbrido - Tu texto seguido de una continuación generada
  4. 4

    Configura la generación de tokens (opcional)

    Para los modos Generado o Híbrido, define el mínimo y el máximo de tokens (se recomienda entre 100 y 300). La longitud del texto generado será aleatoria entre esos valores. No es necesario en modo Estático.

  5. 5

    Completa la verificación y guarda

    Completa la verificación de Turnstile y pulsa "Guardar endpoint mock". ¡La URL de tu endpoint se copia automáticamente!

    https://abc123.mockapi.dog/v1/chat/completions

¡Listo! Empieza a hacer streaming al instante

Tu endpoint está listo. Reemplaza tu baseURL de OpenAI/Claude por la de tu endpoint mock y empieza a probar. Sin autenticación ni claves de API.

El problema del coste

Las APIs LLM reales son caras. Durante el desarrollo, las pruebas y el prototipado, los costes pueden dispararse rápido. Esto es lo que pagarías con proveedores reales:

OpenAI GPT-4

Caro
Entrada10 $ / 1M tokens
Salida30 $ / 1M tokens

Ejemplo: Probar un chatbot con 1000 conversaciones (500 tokens de media cada una) = 20 $+

Anthropic Claude

Costoso
Entrada8 $ / 1M tokens
Salida24 $ / 1M tokens

Pipeline CI/CD: Ejecutar tests 100 veces al día = 300 $+/mes

Con MockAPI Dog: 0 $

Respuestas en streaming gratuitas para desarrollo y pruebas. Ahorra miles durante la fase de desarrollo. Cambia a APIs reales solo cuando estés listo para producción.

¿Por qué usar Mock LLM API?

Ahorra dinero

Evita gastar miles de dólares durante el desarrollo. Prueba tu UI, la lógica de streaming y el manejo de errores sin gastar créditos de API.

  • Sin claves de API ni configuración de facturación
  • Peticiones gratis durante el desarrollo
  • Perfecto para desarrolladores indie y startups

Pruebas instantáneas

Prueba respuestas en streaming, animaciones de UI y estados de error al instante. Sin esperar llamadas a APIs reales ni lidiar con límites de uso.

  • Velocidad de respuesta y tokens configurables
  • Prueba casos límite y escenarios de error
  • Funciona offline: no requiere internet

Múltiples proveedores

Prueba tu app con distintos proveedores LLM sin gestionar varias claves de API. Cambia entre OpenAI, Claude y formatos genéricos sin esfuerzo.

  • Endpoints compatibles con OpenAI
  • Soporte del formato Anthropic Claude
  • Formato de streaming SSE genérico

Integración con CI/CD

Ejecuta tests automatizados en tu pipeline CI/CD sin preocuparte por costes de API ni límites de uso. Prueba tus funcionalidades de IA en cada commit.

  • Sin necesidad de autenticación
  • Respuestas consistentes y predecibles
  • Ejecución rápida para feedback inmediato

Proveedores soportados

MockAPI Dog soporta los formatos de streaming de los proveedores LLM más populares. Solo tienes que poner tu endpoint como baseURL en el SDK que prefieras.

Formato OpenAI

GPT-4, GPT-3.5

Compatible con el SDK oficial de OpenAI. Soporta respuestas en streaming en el mismo formato que GPT-4 y GPT-3.5-turbo.

Modelos compatibles:
gpt-4gpt-4-turbogpt-3.5-turbogpt-4o

Formato Anthropic

Claude

Compatible con el SDK de Anthropic. Soporta respuestas en streaming en el mismo formato que Claude 3 Opus, Sonnet y Haiku.

Modelos compatibles:
claude-3-opusclaude-3-sonnetclaude-3-haikuclaude-2

Formato SSE genérico

Universal

Formato Server-Sent Events (SSE) estándar. Úsalo con cualquier cliente de streaming o crea tu propia integración personalizada.

Casos de uso:
  • Integraciones LLM personalizadas
  • Pruebas de implementaciones de EventSource
  • Aprender protocolos de streaming

Modos de contenido

Elige cómo genera el contenido de la respuesta tu endpoint mock LLM. Cada modo ofrece un control diferente sobre el texto que se envía.

Generado

Genera automáticamente texto similar al de un LLM en distintos estilos. Elige entre Chat (tono conversacional), Técnico (centrado en programación) o Markdown (con listas y bloques de código).

Ideal para: Pruebas realistas sin escribir contenido personalizado, animaciones de UI, prototipado en general

Estático

Usa el texto exacto que proporciones como respuesta. El texto se envía tal cual, sin generación ni modificación.

Ideal para: Escenarios de prueba concretos, respuestas esperadas exactas, pruebas de casos límite

Híbrido

Combina tu texto con una continuación autogenerada. Primero se envía tu texto, después contenido generado similar al de un LLM.

Ideal para: Inicio controlado con continuación realista, pruebas de respuestas parciales

Estilos de texto para contenido generado

Cuando uses los modos Generado o Híbrido, puedes elegir entre los estilos Chat (conversacional), Técnico (centrado en programación) o Markdown (con formato, listas y bloques de código).

Ajustes de generación de tokens

Ajusta finamente cómo genera y envía tokens tu endpoint mock LLM para que encaje con tus necesidades de prueba.

Número de tokens

Define el número de tokens (aproximadamente equivalente a palabras) que se generan. Útil para probar respuestas de distintas longitudes.

Respuesta corta50-100 tokens
Respuesta media200-500 tokens
Respuesta larga1000+ tokens

Velocidad de streaming

Controla la rapidez con la que se envían los tokens. Prueba tu UI con distintas velocidades de streaming para asegurar animaciones fluidas.

Rápido~50ms/token
Normal~100ms/token
Lento~200ms/token

Consejo

Prueba con distintas velocidades para asegurarte de que tu UI gestiona bien tanto streamings rápidos como lentos. Los tiempos de respuesta de las APIs LLM reales pueden variar mucho.

Ejemplos de código

Así puedes usar tu endpoint mock LLM con SDKs y librerías populares.

SDK de OpenAI

Reemplaza el baseURL por el de tu endpoint mock. ¡Sin clave de API!

import OpenAI from 'openai';

const openai = new OpenAI({
  baseURL: 'https://xyz789.mockapi.dog/llm',
  apiKey: 'dummy-api-key', // Mock endpoint doesn't check API keys
});

async function main() {
  const stream = await openai.chat.completions.create({
    model: 'gpt-4',
    messages: [{ role: 'user', content: 'Hello!' }],
    stream: true,
  });

  for await (const chunk of stream) {
    const content = chunk.choices[0]?.delta?.content || '';
    process.stdout.write(content);
  }
}

main();

SDK de Anthropic

Úsalo con el SDK de Anthropic configurando un baseURL personalizado.

import Anthropic from '@anthropic-ai/sdk';

const anthropic = new Anthropic({
  baseURL: 'https://xyz789.mockapi.dog/llm',
  apiKey: 'dummy-api-key', // Mock endpoint doesn't check API keys
});

async function main() {
  const stream = await anthropic.messages.stream({
    model: 'claude-3-opus-20240229',
    max_tokens: 1024,
    messages: [{ role: 'user', content: 'Hello!' }],
  });

  for await (const chunk of stream) {
    if (chunk.type === 'content_block_delta' && chunk.delta.type === 'text_delta') {
      process.stdout.write(chunk.delta.text);
    }
  }
}

main();

Fetch genérico (SSE)

Úsalo con JavaScript/TypeScript puro para máxima flexibilidad.

async function streamResponse() {
  const response = await fetch('https://xyz789.mockapi.dog/llm/stream', {
    method: 'POST',
    headers: {
      'Content-Type': 'application/json',
    },
    body: JSON.stringify({
      prompt: 'Hello, world!',
      max_tokens: 500,
    }),
  });

  const reader = response.body?.getReader();
  const decoder = new TextDecoder();

  while (true) {
    const { done, value } = await reader.read();
    if (done) break;

    const chunk = decoder.decode(value);
    const lines = chunk.split('\n');

    for (const line of lines) {
      if (line.startsWith('data: ')) {
        const data = line.slice(6);
        if (data === '[DONE]') return;

        try {
          const json = JSON.parse(data);
          console.log(json.content);
        } catch (e) {
          // Skip invalid JSON
        }
      }
    }
  }
}

streamResponse();

¡Así de fácil!

Solo reemplaza el baseURL y listo. Tu código existente funcionará sin cambios.

Casos de uso reales

Desarrollo de chatbots

Crea y prueba interfaces de chatbot sin gastar en llamadas a APIs. Prueba el hilo de mensajes, las animaciones de streaming y el manejo de errores.

  • Probar animaciones de mensajes en streaming
  • Verificar el hilo de la conversación
  • Depurar casos límite de la UI

Testing y QA

Ejecuta tests automatizados y QA manual sin costes de API. Prueba distintos escenarios de respuesta y casos límite de forma consistente.

  • Tests E2E automatizados en CI/CD
  • Datos de prueba consistentes
  • Ejecución de tests rápida

Aprendizaje y tutoriales

Aprende integración con IA sin gastar dinero. Perfecto para tutoriales, cursos y contenido educativo.

  • Sin configurar claves de API para el alumnado
  • Práctica gratis
  • Entorno de aprendizaje seguro

MVPs y demos

Crea pruebas de concepto y demos sin costes iniciales. Muestra tu visión a inversores y stakeholders antes de invertir en APIs de producción.

  • Prototipado rápido
  • Demos para inversores
  • Validar ideas a bajo coste

Funciones avanzadas

Cabeceras personalizadas

Añade cabeceras de respuesta personalizadas para probar CORS, flujos de autenticación y otra lógica basada en cabeceras de tu integración LLM.

Retardos configurables

Simula latencia de red y velocidades de streaming lentas para probar estados de carga y manejo de timeouts en tu aplicación.

Simulación de errores

Prueba el manejo de errores simulando límites de uso, errores de autenticación e interrupciones de streaming.

Sin autenticación

Los endpoints mock no requieren claves de API ni autenticación. Perfecto para pipelines CI/CD y demos públicas.

Resolución de problemas

El streaming no funciona

Asegúrate de usar el formato de proveedor correcto y de que tu cliente soporta streaming. Comprueba que estás leyendo la respuesta como un stream y no como una respuesta completa.

// Make sure to set stream: true const stream = await openai.chat.completions.create({ stream: true, // This is required! // ... });

La respuesta es demasiado rápida o lenta

Ajusta la velocidad de streaming en la configuración de tu endpoint. Las distintas velocidades ayudan a probar varias condiciones de red y experiencias de uso.

Problemas de compatibilidad con el SDK

Asegúrate de usar una versión reciente del SDK. Comprueba que el formato del proveedor coincide con tu SDK (el SDK de OpenAI necesita formato OpenAI, el de Anthropic necesita formato Anthropic).

Errores de CORS en el navegador

Los endpoints mock están configurados con cabeceras CORS permisivas. Si sigues recibiendo errores de CORS, revisa las cabeceras de tu petición y asegúrate de no enviar cabeceras restringidas.

Consejos y buenas prácticas

Prueba con distintas velocidades

La velocidad de las APIs LLM reales varía. Prueba tu UI con streamings rápidos y lentos para garantizar una buena experiencia en cualquier condición.

Usa variables de entorno

Guarda tu baseURL en variables de entorno. Cambia entre APIs mock y de producción modificando una sola variable.

// .env.development OPENAI_BASE_URL=https://xyz789.mockapi.dog/llm // .env.production OPENAI_BASE_URL=https://api.openai.com/v1

Prueba escenarios de error

No pruebes solo los flujos felices. Usa la simulación de errores para probar límites de uso, fallos de red y respuestas malformadas.

Flujo de desarrollo LLM

Sigue este flujo para un desarrollo de IA eficiente:

  1. Construye la UI y la lógica de streaming con endpoints mock
  2. Prueba a fondo con distintos modos de contenido y velocidades
  3. Ejecuta tests automatizados en CI/CD con endpoints mock
  4. Cambia a la API real solo en pruebas de integración finales
  5. Despliega con claves de API de producción

Valida antes de producción

Antes de cambiar a APIs de producción, valida tu implementación con la API real del proveedor en un entorno de staging para detectar diferencias de comportamiento.

Glosario

LLM (Large Language Model)

Modelos de IA como GPT-4 y Claude que generan respuestas de texto similares a las humanas. Ejemplos: la serie GPT de OpenAI, Claude de Anthropic, Gemini de Google.

API en streaming

Una API que envía datos en chunks en lugar de esperar a la respuesta completa. Permite mostrar texto generado por IA en tiempo real mientras se va creando.

Token

La unidad básica de texto en los LLMs. Aproximadamente equivalente a una palabra o un fragmento de palabra. Los precios de los LLMs suelen basarse en el número de tokens.

SSE (Server-Sent Events)

Una tecnología que permite a los servidores enviar datos al cliente en tiempo real. La usan las APIs LLM para enviar respuestas en streaming.

baseURL

La dirección base para las peticiones a la API. Reemplázala por la URL de tu endpoint mock para redirigir las peticiones a MockAPI Dog en lugar de al proveedor real.

Proveedor

Empresas que ofrecen APIs LLM, como OpenAI (GPT), Anthropic (Claude), Google (Gemini), etc.

¿Listo para empezar a construir?

Crea tu primer endpoint LLM en streaming en segundos. Sin registro, sin tarjeta de crédito, sin complicaciones. Empieza a crear funcionalidades de IA sin gastar miles en llamadas a la API.