blog.category.engineering22 de abril de 2026·9 blog.minRead

Por qué elegimos Anthropic Claude para nuestra operadora IA

Comparamos Claude, GPT-4o y Gemini en español natural, latencia y tool use real. Cuando la voz manda, la diferencia se nota.

Equipo OLISE

Ingeniería

Cuando construyes una operadora telefónica con IA, el modelo de lenguaje no es "una pieza más". Es la pieza. Si entiende mal, transfiere mal, agenda mal, todo lo demás —telefonía, voz, integraciones— pierde valor.

Pasamos tres meses comparando Claude (Anthropic), GPT-4o (OpenAI) y Gemini 1.5 (Google) en condiciones reales: llamadas de alquiler de coches, hoteles y restaurantes, en español de España, español de México y español rioplatense. Esto fue lo que encontramos.

El criterio: precisión > vocabulario

En voz no importa cuántas frases bonitas escupe el modelo. Importa que extraiga datos correctos del audio transcrito —fechas, números de teléfono, nombres de coche— y que decida bien cuándo transferir al humano.

Medimos cuatro cosas, en orden de importancia:

Precision en extracción de slots (fecha pickup, fecha return, tipo coche, nombre del cliente).
Latencia de primer token (cuánto tarda en empezar a hablar tras el último audio del cliente).
Tool calling correcto en el primer intento (¿llamó al tool adecuado con los argumentos correctos?).
Tasa de transferencia innecesaria (¿transfirió a humano cuando él solo podía resolver?).

Lo que vimos en español hablado

GPT-4o tiene mejor "estilo conversacional" en español, sin duda. Sus frases suenan más naturales en abstracto. Pero cuando el audio tiene ruido —y el audio telefónico siempre tiene ruido— Claude extrae los datos con más fiabilidad. En nuestro test set de 480 llamadas etiquetadas a mano, Claude Opus acertó 97% de los slots clave en alquiler de coches. GPT-4o, 91%. Gemini, 88%.

Seis puntos de precision parecen poco hasta que multiplicas por 1.000 llamadas/mes. A 91% son 90 llamadas con un dato incorrecto entrando al CRM. A 97%, son 30. Eso es la diferencia entre confianza y desconfianza operacional.

Tool use: donde Claude se separa

Aquí Claude juega en otra liga. Cuando el cliente dice "quiero un SUV mediano para el viernes y el sábado, lo pago con la tarjeta del año pasado", Claude:

1Llama a search_availability con category: 'SUV-medium', start_date: 2026-05-01, end_date: 2026-05-02.
2En paralelo, llama a get_customer_payment_methods.
3Espera ambas respuestas y compone la siguiente frase.

GPT-4o, en la misma transcripción, tiende a hacer un solo tool call y preguntar "¿cuál tarjeta?" sin mirar primero. Es un round-trip extra que en voz se traduce en 600-900ms más de silencio.

Latencia: empate técnico

En streaming, los tres modelos están razonablemente cerca para el primer token. La diferencia real la pone tu pipeline: ASR → LLM → TTS. Para mantener la sub-segundo response que prometemos, usamos:

ASR streaming (Twilio Stream + Deepgram Nova-3).
Claude con stream: true y max_tokens: 500 (frases cortas en voz).
ElevenLabs Flash 2.5 con caché de audio para frases comunes.

El cuello de botella casi nunca es el LLM. Es la red entre el proveedor de telefonía y nuestro edge.

Seguridad: lo que no se ve

Claude tiene la integración más limpia con sistemas de defensa contra prompt-injection vía mensaje system. Como el input público (audio del cliente) entra siempre como role: 'user', podemos blindar el comportamiento desde el system prompt sin que el cliente pueda sobrescribirlo. Lo escribimos a fondo en otro post.

Por qué decidimos

Mejor precision en extracción de datos en español hablado con ruido.
Tool use en paralelo, no secuencial.
Menos transferencias innecesarias a humano.
Política de uso aceptable más alineada con producto B2B regulado.

No es una decisión definitiva. Cada seis meses revisamos. Por ahora, Claude.

LLMClaudeVoz

blog.share X

blog.related

blog.category.engineering