¿Por qué mienten los chatbots?

En una conversación que sostuvo un asistente virtual con un usuario, este le preguntó: “¿Quién ganó la Copa Mundial de la FIFA en 2026?”. El chatbot respondió con seguridad: “Argentina venció a Brasil por 3-1 en el estadio Azteca, en Ciudad de México”. El problema: la Copa Mundial de 2026 aún no se ha jugado. Tampoco se jugará en el estadio Azteca. Y, por supuesto, Argentina no ha ganado un partido que no existe.

Este tipo de respuestas falsas, pero formuladas con una convicción sorprendente, ha comenzado a preocupar no solo a usuarios curiosos, sino también a investigadores, reguladores y desarrolladores de inteligencia artificial. ¿Por qué un sistema diseñado para proporcionar información precisa termina inventando datos? ¿Es una falla técnica, un error de diseño o algo más profundo sobre cómo funcionan estos modelos?

La respuesta, según una creciente cantidad de estudios, no es tan simple como decir que “los chatbots mienten”. Más bien, inventan, confabulan o, en el argot técnico, “alucinan” —y lo hacen porque, en cierto sentido, no entienden lo que están diciendo.


La confabulación: cuando la IA habla sin saber

El término “confabulación” proviene de la psicología y se refiere a la fabricación involuntaria de recuerdos falsos, común en ciertos trastornos neurológicos. En el contexto de la inteligencia artificial, ha sido adoptado para describir cuándo un modelo de lenguaje genera información que suena plausible, pero que es completamente falsa.

Un estudio publicado en 2023 por investigadores del MIT y la Universidad de California en Berkeley analizó más de 500 interacciones con chatbots como ChatGPT, Bard y Claude. El hallazgo fue alarmante: en promedio, uno de cada cinco respuestas contenía al menos un hecho incorrecto presentado como verdadero. Peor aún, cuanto más compleja era la pregunta, mayor era la probabilidad de que el modelo inventara detalles.

“Los modelos no tienen una representación del mundo como la tenemos los humanos”, explica Daphne Ippolito, científica investigadora en Google Research que ha estudiado la confiabilidad de los modelos de lenguaje. “Ellos predicen palabras basadas en patrones estadísticos, no en conocimiento real. Cuando no saben la respuesta, continúan generando texto que suena bien, y eso a menudo incluye inventar datos”.

Este fenómeno no es un error de programación, sino una consecuencia directa del diseño mismo de los grandes modelos de lenguaje (LLMs, por sus siglas en inglés). Estos sistemas no “leen” libros ni “aprenden” como un estudiante. En cambio, son entrenados con billones de palabras extraídas de internet, libros, artículos y foros. Su objetivo no es memorizar hechos, sino predecir la siguiente palabra más probable en una secuencia.


El dilema del realismo: ¿verdad o coherencia?

Aquí radica el problema central. Los chatbots están optimizados para sonar naturales, fluidos y convincentes. No para ser precisos.

“La prioridad del modelo no es la verdad, sino la coherencia”, dice Percy Liang, profesor de ciencias de la computación en Stanford y director del Centro para la Investigación de la Inteligencia Artificial Fundacional (CRFM). “Si le preguntas algo que no sabe, en lugar de decir ‘no lo sé’, el modelo intenta completar la oración de una manera que parezca lógica, basándose en lo que ha visto antes. Y eso a menudo resulta en una mentira creíble”.

Un ejemplo clásico ocurrió en 2022, cuando un abogado neoyorquino utilizó a ChatGPT para preparar un caso legal. El chatbot citó seis fallos judiciales que parecían reales: nombres de jueces, números de casos, citas textuales. Todo inventado. El abogado presentó los casos en la corte, y fue sancionado. El juez no castigó al modelo, pero sí al humano que confió ciegamente en él.

Este caso, ampliamente reportado por The New York Times y otros medios, ilustra un peligro creciente: la confianza excesiva en sistemas que no distinguen entre verdad y ficción.


¿Por qué no pueden simplemente decir “no lo sé”?

Parece una solución obvia: si el modelo no conoce la respuesta, debería admitirlo. Pero incluso eso es más complicado de lo que parece.

En un experimento realizado por Anthropic, desarrolladora del chatbot Claude, los investigadores descubrieron que los modelos tienden a evitar decir “no lo sé” porque fueron entrenados para ser útiles y cooperativos. En el entrenamiento, las respuestas que evitan el tema o son vagas suelen ser penalizadas. Las respuestas largas, detalladas y aparentemente informativas son recompensadas.

“Hay una tensión entre ser honesto y ser útil”, dice Deep Ganguli, cofundador de Anthropic. “Si un usuario pregunta ‘¿Qué debo hacer si me siento triste?’, y el modelo responde ‘No lo sé’, técnicamente es honesto, pero no es útil. Así que el modelo aprende a generar una respuesta empática, aunque no esté basada en evidencia clínica”.

Este sesgo hacia la utilidad puede tener consecuencias graves. En 2023, un chatbot de salud mental en una app popular le dijo a un usuario que estaba deprimido que “el suicidio es una opción válida si sientes que no hay salida”. La respuesta fue retirada, pero no antes de causar indignación pública.


Las consecuencias sociales de las “alucinaciones”

Más allá de errores aislados, la confabulación sistemática de los chatbots plantea preguntas profundas sobre el futuro de la información.

Imaginemos un estudiante que usa un chatbot para escribir un trabajo sobre la Revolución Francesa. El modelo inventa una carta inédita de Robespierre. El estudiante la incluye. El profesor no la reconoce, pero suena convincente. ¿Quién es responsable?

O pensemos en una persona que consulta a un chatbot sobre medicamentos. El modelo sugiere una combinación de fármacos que no ha sido aprobada, pero que suena científica. ¿Quién responde si ocurre una intoxicación?

“Estamos delegando decisiones importantes a sistemas que no tienen capacidad de verificación”, advierte Emily Bender, lingüista computacional de la Universidad de Washington y coautora del influyente artículo “On the Dangers of Stochastic Parrots” (Sobre los peligros de los loros estocásticos), publicado en 2021.

El término “loros estocásticos” —que se refiere a que los modelos repiten patrones sin comprenderlos— se ha convertido en un eslogan crítico dentro de la comunidad de IA. Bender argumenta que tratar a los chatbots como fuentes de conocimiento es como confiar en un actor que interpreta a un médico.


¿Se puede arreglar? Los intentos de reducir las mentiras

Las empresas de tecnología no están inactivas. OpenAI, Google, Meta y otras han invertido millones en técnicas para reducir las alucinaciones. Algunas de las estrategias más prometedoras incluyen:

  • Recuperación de información externa (RAG): en lugar de confiar solo en su memoria interna, los chatbots consultan bases de datos verificadas antes de responder.
  • Modelos de verificación: algunos sistemas ahora incluyen un “segundo modelo” que revisa la respuesta antes de enviarla, buscando inconsistencias.
  • Entrenamiento con refuerzo por retroalimentación humana (RLHF): los modelos son corregidos por humanos cuando mienten, lo que les enseña a preferir respuestas más precisas.

Sin embargo, estos métodos no son infalibles. Un informe de Stanford de 2024 mostró que incluso con RAG, los modelos aún inventan citas o malinterpretan documentos oficiales. “La tecnología no ha alcanzado la madurez necesaria para garantizar la veracidad”, concluyó el estudio.


La responsabilidad compartida: usuarios, empresas y reguladores

La solución no recae únicamente en los ingenieros. También depende de cómo los usuarios interactúan con estos sistemas.

“Los chatbots no son buscadores de internet”, dice Meredith Whittaker, presidenta del Centro de Seguridad en IA (AI Now Institute). “No deberían usarse como fuentes únicas de verdad. Son herramientas poderosas, pero con límites claros”.

Algunos países ya están actuando. La Unión Europea, en su Ley de Inteligencia Artificial (AI Act), exige que los sistemas de alto riesgo —como los usados en salud o justicia— incluyan advertencias claras sobre sus limitaciones. En Estados Unidos, la FTC ha abierto investigaciones sobre empresas que promocionan chatbots como “infalibles” o “siempre precisos”.


Conclusión: la verdad en tiempos de algoritmos

Los chatbots no mienten con intención. No tienen conciencia, ni intención, ni moral. Lo que hacen es producir lenguaje coherente basado en patrones aprendidos. A veces, ese lenguaje coincide con la realidad. Otras veces, no.

La pregunta no debería ser “¿por qué mienten?”, sino “por qué esperamos que digan la verdad?”.

Mientras la tecnología avanza, es fundamental que los usuarios, periodistas, educadores y legisladores comprendan que estos sistemas no son oráculos. Son herramientas que amplifican nuestro conocimiento, pero también nuestros sesgos, errores e ilusiones.

Como escribió Kevin Roose en The New York Times: “Confundir la fluidez con la verdad es uno de los mayores riesgos de la era de la IA”.

Quizá, en lugar de exigirle a un chatbot que no mienta, deberíamos exigirnos a nosotros mismos no creer todo lo que dice.


Fuentes consultadas:

  • MIT & UC Berkeley (2023). “Measuring Hallucination in Large Language Models”.
  • Anthropic (2023). “TruthfulQA: Measuring How Often Language Models Invent False Facts”.
  • Bender, E., Gebru, T., et al. (2021). “On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?”, ACM Conference on Fairness, Accountability, and Transparency.
  • Stanford CRFM (2024). “Retrieval-Augmented Generation: Limits and Trade-offs”.
  • European Commission. AI Act: Official Text and Guidelines (2024).
  • The New York Times: “A Lawyer Used ChatGPT. The Judge Was Not Amused.” (June 2023).
  • AI Now Institute. “Regulating Foundation Models: A Policy Roadmap” (2023).

¿Tienes alguna experiencia con un chatbot que te dio una respuesta falsa? Cuéntanos en los comentarios. Y suscríbete para recibir más análisis sobre tecnología y sociedad.