Por qué elegimos Anthropic Claude para nuestra operadora IA
Comparamos Claude, GPT-4o y Gemini en español natural, latencia y tool use real. Cuando la voz manda, la diferencia se nota.
Equipo OLISE
Ingeniería
Cuando construyes una operadora telefónica con IA, el modelo de lenguaje no es "una pieza más". Es la pieza. Si entiende mal, transfiere mal, agenda mal, todo lo demás —telefonía, voz, integraciones— pierde valor.
Pasamos tres meses comparando Claude (Anthropic), GPT-4o (OpenAI) y Gemini 1.5 (Google) en condiciones reales: llamadas de alquiler de coches, hoteles y restaurantes, en español de España, español de México y español rioplatense. Esto fue lo que encontramos.
El criterio: precisión > vocabulario
En voz no importa cuántas frases bonitas escupe el modelo. Importa que extraiga datos correctos del audio transcrito —fechas, números de teléfono, nombres de coche— y que decida bien cuándo transferir al humano.
Medimos cuatro cosas, en orden de importancia:
- Precision en extracción de slots (fecha pickup, fecha return, tipo coche, nombre del cliente).
- Latencia de primer token (cuánto tarda en empezar a hablar tras el último audio del cliente).
- Tool calling correcto en el primer intento (¿llamó al tool adecuado con los argumentos correctos?).
- Tasa de transferencia innecesaria (¿transfirió a humano cuando él solo podía resolver?).
Lo que vimos en español hablado
GPT-4o tiene mejor "estilo conversacional" en español, sin duda. Sus frases suenan más naturales en abstracto. Pero cuando el audio tiene ruido —y el audio telefónico siempre tiene ruido— Claude extrae los datos con más fiabilidad. En nuestro test set de 480 llamadas etiquetadas a mano, Claude Opus acertó 97% de los slots clave en alquiler de coches. GPT-4o, 91%. Gemini, 88%.
Seis puntos de precision parecen poco hasta que multiplicas por 1.000 llamadas/mes. A 91% son 90 llamadas con un dato incorrecto entrando al CRM. A 97%, son 30. Eso es la diferencia entre confianza y desconfianza operacional.
Tool use: donde Claude se separa
Aquí Claude juega en otra liga. Cuando el cliente dice "quiero un SUV mediano para el viernes y el sábado, lo pago con la tarjeta del año pasado", Claude:
- 1Llama a
search_availabilityconcategory: 'SUV-medium',start_date: 2026-05-01,end_date: 2026-05-02. - 2En paralelo, llama a
get_customer_payment_methods. - 3Espera ambas respuestas y compone la siguiente frase.
GPT-4o, en la misma transcripción, tiende a hacer un solo tool call y preguntar "¿cuál tarjeta?" sin mirar primero. Es un round-trip extra que en voz se traduce en 600-900ms más de silencio.
Latencia: empate técnico
En streaming, los tres modelos están razonablemente cerca para el primer token. La diferencia real la pone tu pipeline: ASR → LLM → TTS. Para mantener la sub-segundo response que prometemos, usamos:
- ASR streaming (Twilio Stream + Deepgram Nova-3).
- Claude con
stream: trueymax_tokens: 500(frases cortas en voz). - ElevenLabs Flash 2.5 con caché de audio para frases comunes.
El cuello de botella casi nunca es el LLM. Es la red entre el proveedor de telefonía y nuestro edge.
Seguridad: lo que no se ve
Claude tiene la integración más limpia con sistemas de defensa contra prompt-injection vía mensaje system. Como el input público (audio del cliente) entra siempre como role: 'user', podemos blindar el comportamiento desde el system prompt sin que el cliente pueda sobrescribirlo. Lo escribimos a fondo en otro post.
Por qué decidimos
- Mejor precision en extracción de datos en español hablado con ruido.
- Tool use en paralelo, no secuencial.
- Menos transferencias innecesarias a humano.
- Política de uso aceptable más alineada con producto B2B regulado.
No es una decisión definitiva. Cada seis meses revisamos. Por ahora, Claude.
blog.related
blog.category.engineering
Cómo construimos defensa anti prompt-injection en producción
Tres capas de defensa, un filtro de salida con regex y por qué nunca confiamos en una sola línea de protección. Caso real con código.
blog.category.industry
La diferencia entre operadora IA y chatbot: por qué importa para hospitalidad luxe
No todos los canales son iguales. La voz tiene un coste cognitivo distinto, una expectativa de servicio distinta y una tolerancia al error distinta.
blog.category.industry
Caso de éxito: cómo un partner Founder Pricing escaló su atención telefónica
Operación de alquiler de coches en Florida. Llamadas perdidas antes y después de OLISE. Lecciones de los primeros 90 días.