El experto en inteligencia artificial Daniel Stilerman comparó el rendimiento de ChatGPT y Claude, explicó sus diferencias y dio recomendaciones para quienes empiezan a usar estas herramientas.
ChatGPT revolucionó la forma de trabajar de millones de personas y aceleró la adopción de la inteligencia artificial en tareas cotidianas y profesionales. Sin embargo, sus limitaciones, como las alucinaciones, las respuestas incompletas y ciertos patrones repetitivos en la redacción, impulsaron la aparición de nuevas alternativas para el uso corporativo.
En ese escenario, Claude, desarrollado por Anthropic, comenzó a ganar terreno frente a ChatGPT y Gemini. Pero, ¿cuál es la mejor opción para quienes recién comienzan? Para Daniel Stilerman, especialista en inteligencia artificial, la respuesta depende más de las necesidades del usuario que de una diferencia tecnológica decisiva.
“Los que estamos más o menos inmiscuidos en la IA sabemos que entre Claude, Gemini y ChatGPT, el primero parece ser el claro líder”, destaca Stilerman en declaraciones a Diario Popular.
Según el especialista, una buena forma de entender el salto de calidad de Claude es compararlo con un auto de Fórmula 1. “La pieza más importante de un auto de F1 es el motor, que en IA equivale al ‘modelo’”, explica. “Luego está el resto del auto (suspensión, alerones, frenos, ruedas) que en el idioma de IA le decimos el ‘arnés’ o el ‘andamiaje’”.
Durante años, las mejoras en los modelos de inteligencia artificial llegaron a partir de motores cada vez más potentes, entrenados con más datos y redes neuronales más grandes. Sin embargo, Stilerman sostiene que Anthropic apostó por optimizar la arquitectura que rodea al modelo. “En Claude se dieron cuenta de que había mucho para ganar si mejoraban el auto, no sólo el motor; y el resultado fue impresionante, principalmente para las personas que hacen software”, subraya.
“Empezó a pasar que le pedías una tarea grande y el sistema se iba a trabajar quizás por hasta una hora y volvía con una solución que jamás se había visto”. No obstante, aclara que el último modelo de ChatGPT ya logró equiparar esos resultados. “¿Cuál usar para empezar? El que quieran. Claude parece ser el mejor, pero yo honestamente uso más ChatGPT porque lo encuentro más veloz y fácil”, recomienda.
En la Argentina, además, ChatGPT continúa liderando el mercado, seguido por Gemini, mientras que Claude ocupa el tercer lugar.
Las alucinaciones siguen siendo una de las principales preocupaciones para quienes utilizan inteligencia artificial en tareas relevantes. Sobre este punto, Stilerman considera que Claude transmite una mayor sensación de precisión, aunque advierte que esa percepción no siempre refleja una diferencia real. “En realidad no es que tenga mayor precisión, sino que es mucho mejor en lograr que se perciba eso”, afirma.
El especialista explica que, en las pruebas de conocimiento, Claude suele registrar porcentajes de alucinaciones de un solo dígito y normalmente obtiene mejores resultados que sus competidores. Sin embargo, aclara que en evaluaciones más exigentes, como los benchmarks de conversación HalluHard, incluso los modelos más avanzados presentan errores con frecuencia.
“En benchmarks de conversación multi-turno más realistas como HalluHard, hasta el mejor modelo alucinó el 30% de las veces cuando le permitimos ir a buscar la respuesta exacta a la web, y más del 60% cuando no los dejamos”. Además, señala una diferencia en el comportamiento de ambos sistemas: “Claude está calibrado para negarse o decir ‘no sé’ antes que arriesgar, lo que baja las respuestas confiadas-incorrectas. GPT-5.5 tiende a dar una respuesta directa más seguido, lo cual es cómodo hasta que detectamos que contesta algo mal”.
Otro aspecto que distingue a Claude es su sistema de consumo de tokens, que limita rápidamente tanto la versión gratuita como la paga. Para aprovechar mejor esos recursos, Stilerman recomienda evitar el modelo más potente cuando no sea imprescindible. “El primero y principal es no usar el modelo más poderoso a menos que sea necesario. Por ejemplo, dentro de Claude si usamos Haiku los tokens van a durar cinco veces más que si usamos Opus y casi 10 veces más que si usamos Fable”, explica.
El especialista también aconseja iniciar una conversación nueva cada vez que se cambia de tema para evitar consumir contexto innecesario y mejorar la calidad de las respuestas.
Como tercer consejo, comparte un método para controlar el uso de tokens antes de que el modelo comience a trabajar durante largos períodos. “A veces hacemos una pregunta y la IA se inventa un plan que no tiene sentido, hace cualquier cosa y recién lo podemos corregir cuando vuelve a los 20 minutos habiendo consumido miles o millones de tokens”, señala. “El truco para evitar esto es muy simple: pedirle que lo único que tiene que hacer es contarte cómo va a encarar la preparación de la respuesta. Eso te permite supervisar si lo está encarando bien y agarrar los errores mucho antes de que te gaste todos los tokens”, concluye.
comentar