share
spanish.china.org.cn | 02. 04. 2025 | Editor:Teresa Zheng [A A A]

Directriz para desarrollar una base de datos en chino respaldada por IA

Palabras clave: IA, chino, lengua
Spanish.china.org.cn | 02. 04. 2025

La digitalización de textos antiguos fomenta el patrimonio cultural y el aprendizaje del mandarín

China está acelerando la digitalización de textos antiguos e impulsando el acceso a los datos de escritura de huesos de oráculo, con el objetivo de integrar el patrimonio cultural con el chino digital, según informaron el lunes fuentes oficiales.

El Ministerio de Educación, la Comisión Nacional de la Lengua y la Administración del Ciberespacio de China publicaron una directriz para promover la digitalización de la lengua y los caracteres chinos. El objetivo es desarrollar recursos lingüísticos nacionales y modelos lingüísticos chinos a gran escala para apoyar la inteligencia artificial.

La directriz pretende establecer un corpus nacional y una base de datos de información de recursos lingüísticos estratégicos para 2027. Y para 2035, el país espera haber ampliado significativamente la presencia de la lengua china en los escenarios globales digitales y de IA generativa.

Liu Peijun, jefe del Departamento de Gestión de la Información Lingüística del Ministerio de Educación, dijo que la directriz aboga por la digitalización del patrimonio lingüístico y cultural, al tiempo que promueve la construcción de un museo nacional digital de la lengua y la escritura.

La directriz hace hincapié en el avance de las tecnologías clave para la digitalización de textos antiguos, la mejora de la accesibilidad de los datos de escritura de hueso de oráculo y el lanzamiento de un programa de educación digital multilingüe para facilitar el aprendizaje de la lengua china en todo el mundo, declaró Liu en una conferencia de prensa.

Un aspecto clave de esta iniciativa es el desarrollo de recursos de datos lingüísticos a gran escala. La directriz esboza un plan para construir un corpus nacional con amplios conjuntos de datos en lengua china que sirvan de apoyo a las aplicaciones de IA.

Entre los proyectos piloto, la Universidad Pedagógica de Beijing (BNU, por sus siglas en inglés) ha lanzado un modelo de chino clásico a gran escala, una iniciativa impulsada por la IA que establece un nuevo punto de referencia en este campo, dijo Liu.

Kang Zhen, vicepresidente de la BNU, dijo que la universidad ha desarrollado una serie de bases de datos lingüísticos digitales, incluida una completa base de datos de caracteres chinos holográficos, un recurso digital del antiguo diccionario chino Shuowen Jiezi y depósitos de inscripciones antiguas y textos manuscritos.

Estos recursos han desempeñado un papel crucial en la investigación lingüística y la preservación cultural, añadió Kang.

La IA Taiyan de la universidad, un gran modelo lingüístico de chino clásico entrenado con 1800 millones de parámetros, se ha diseñado para interpretar textos antiguos con gran precisión, y para tareas como la explicación de palabras y frases, así como la traducción del chino clásico al moderno.

China también está liderando la construcción de un nuevo corpus nacional para reforzar la infraestructura lingüística en la era de la IA, declaró Wang Hui, subdirector del Departamento de Aplicación y Administración Lingüísticas del Ministerio de Educación.

«En la actualidad, la mayoría de los conjuntos de datos lingüísticos se limitan a formatos de un solo texto y a ámbitos académicos específicos, por lo que carecen de la escala y la diversidad necesarias para las aplicaciones de IA», explicó Wang.

El departamento ha empezado a planificar el corpus para este año, con el objetivo de lanzar dos bases de datos emblemáticas: el corpus de civilización china para la enseñanza y la investigación asistidas por IA, y el corpus del gran sistema de lectura chino, explicó Wang.