La inteligencia artificial prefiere inventar antes que admitir que no sabe

La inteligencia artificial volvió a encender las alarmas. Un estudio de OpenAI advierte que los modelos de lenguaje actuales están diseñados para adivinar y generar respuestas plausibles, aunque sean falsas, en lugar de reconocer cuando no tienen la información. Dicho de otro modo: la IA prefiere alucinar antes que ser honesta.

El problema no es nuevo, pero sí estructural. El análisis señala que la raíz de estas “alucinaciones” no está únicamente en la complejidad técnica, sino en la forma en que se entrenan y evalúan los modelos. Los sistemas de puntuación más usados premian la precisión aparente y castigan la incertidumbre, lo que empuja a los modelos a inventar datos antes que admitir un “no lo sé”.

Por qué la IA se equivoca con tanta seguridad

En el lenguaje de la IA, “alucinación” significa presentar como verdadero algo que no lo es. El informe de OpenAI muestra que incluso con bases de datos limpias, los métodos de optimización llevan inevitablemente a errores. El riesgo crece cuando se trata de hechos raros o poco frecuentes: si solo un 20% de las fechas de nacimiento aparece una vez en el entrenamiento, los modelos tenderán a inventar al menos en ese 20% de los casos.

El estudio distingue entre dos tipos de errores: los intrínsecos, cuando el modelo contradice la propia pregunta del usuario, y los extrínsecos, cuando la respuesta choca con la realidad. En ambos casos, los incentivos actuales hacen que los sistemas arriesguen una respuesta falsa porque saben que la abstención recibirá una peor calificación.

Además, los benchmarks más influyentes en la industria —MMLU-Pro, GPQA, SWE-bench y HLE, entre otros— no contemplan la posibilidad de decir “no lo sé”. Incluso cuando lo permiten, esas respuestas suelen obtener menos puntaje que una respuesta inventada pero convincente.

La propuesta de OpenAI: premiar la honestidad

El informe plantea una solución simple pero disruptiva: cambiar la forma en que se evalúan los modelos. En lugar de castigar la incertidumbre, habría que darle crédito parcial. Los investigadores sugieren penalizar más severamente los errores cometidos con exceso de confianza y, al mismo tiempo, recompensar cuando el modelo expresa duda de manera adecuada.

De aplicarse, los sistemas podrían aprender a calibrar mejor su seguridad y ofrecer respuestas más útiles y honestas. Un umbral explícito de confianza —por ejemplo, solo contestar cuando la probabilidad de acierto supere cierto nivel— permitiría reducir drásticamente las alucinaciones.

OpenAI reconoce que no será sencillo. La industria está acostumbrada a clasificar modelos por su exactitud en exámenes, lo que alimenta la carrera por la “apariencia de perfección”. Mientras los rankings sigan premiando las conjeturas afortunadas, los modelos seguirán mintiendo con buena cara.

Un desafío para el futuro de México y el mundo

Para México, donde la adopción de la inteligencia artificial avanza en sectores como la educación, la banca y el periodismo, el reto es enorme. Si los sistemas que se integran en la vida cotidiana continúan inventando datos con seguridad absoluta, la confianza pública puede quebrarse. La cuestión no es solo tecnológica, sino cultural: ¿preferimos una IA que aparente saberlo todo o una que reconozca sus límites?

El informe de OpenAI concluye con una advertencia clara: solo un rediseño profundo de los criterios de evaluación permitirá avanzar hacia modelos más fiables. Las alucinaciones no desaparecerán de un día para otro, pero si se corrigen los incentivos, los sistemas podrán dejar de adivinar y empezar a ser realmente honestos.

Compartir
Author

kb4vlpcwk7gw@p3plzcpnl489463.prod.phx3.secureserver.net

No Comments

Leave A Comment