La IA sobresale en el "gaokao" de lengua y decepciona en matemáticas

Palabras clave: gaokao, IA

Spanish.china.org.cn | 21. 06. 2024

La inteligencia artificial (IA) ha obtenido buenos resultados en las asignaturas de literatura china y lengua inglesa, pero ha puntuado mal en matemáticas, reveló un estudio con diferentes chatbots de generación de respuestas para el examen nacional de ingreso a la universidad, o gaokao, de este año.

Investigadores del Laboratorio de IA de Shanghai hicieron que 6 modelos de código abierto, así como GPT-4o -la última versión de la empresa líder Open AI-, rindieran la prueba al igual que gran parte de alumnos chinos de secundaria.

Las conclusiones publicadas por el laboratorio el miércoles muestran que los programas consiguieron una precisión media del 67 % en lengua y literatura chinas y del 81 % en lengua inglesa. En matemáticas, sin embargo, solo respondieron correctamente al 36 % de las preguntas.

El mejor fue el último modelo lingüístico multilingüe de la firma nacional Alibaba, conocido como Qwen2-72B, que acertó cerca del 72 % de las interrogantes, seguido de GPT-4o y de un modelo del propio Laboratorio de IA de Shanghai el 4 de junio.

Los responsables del proyecto indicaron que los exámenes no solo incluyen secciones de opción múltiple, para rellenar espacios en blanco y con una sola respuesta correcta, sino también apartados de respuesta abierta, como los que piden escribir un breve ensayo basado en un tema. Cada hoja fue revisada por al menos tres tutores, que no fueron informados de la identidad especial de los postulantes hasta que terminaron de calificarlos.

Luego, comentaron que las herramientas de IA parecían más aptas de comprender textos chinos escritos en un estilo contemporáneo, pero les costaba entender pasajes premodernos y clásicos. Pocos podían utilizar técnicas como citar proverbios en su redacción.

"En la parte de matemáticas, las soluciones subjetivas tendían a ser desorganizadas y confusas, y podían ser correctas pese a los errores en el proceso. También mostraron una gran capacidad de memorización de fórmulas, pero no pudieron aplicarlas con rapidez".

Los modelos de IA también obtuvieron notas mediocres en la ronda preliminar del Concurso Mundial de Matemáticas Alibaba 2024. Los organizadores dijeron que la puntuación media de los más de 500 equipos fue de 18 sobre 120, y que la más alta fue solo de 34, en comparación con el récord entre los humanos de 113.

Cao Sanxing, vicedecano del Instituto de Investigación de la Información en Internet de la Universidad de Comunicaciones de China, anotó que el mal rendimiento en matemáticas no es necesariamente una señal de debilidad en las capacidades de razonamiento y cálculo.

"En la actualidad, la formación en IA relacionada con preguntas de números no es el principal objetivo del sector, y la mayoría de los recursos se han dedicado a alimentar los modelos con materiales de lengua, de ahí su mayor puntuación en chino e inglés", explicó.

A pesar de las altas calificaciones de la IA en cursos vinculados con el lenguaje, Cao sostuvo que los contenidos generados siguen presentando fallos evidentes, como afirmaciones contradictorias, y muestran una falta de pensamiento crítico.

Xu Yi, estudiante de posgrado de la Escuela de IA Gaoling de la Universidad Renmin de China, manifestó que la fortaleza actual de la IA es hacer resúmenes mediante el análisis de grandes cantidades de datos, lo que explica su excelente rendimiento en generación de textos.

"No obstante, es menos capaz de pensar lógicamente o de crear contenidos completamente novedosos", añadió.

Xiong Bingqi, director del Instituto de Investigación Educativa del Siglo XXI, también atribuyó la deficiencia en matemáticas a la escasez de programación relacionada con este campo.

"Mientras tanto, la aparición de la IA revela que ahora es vital que los alumnos no solo memoricen conocimientos, sino que también aprendan a innovar e incentiven la capacidad de pensamiento crítico", concluyó.