UNAM emplea inteligencia artificial para salvar lenguas originarias en peligro de extinción

La UNAM despliega inteligencia artificial en la batalla por salvar las lenguas originarias de México

En un esfuerzo pionero por preservar el patrimonio lingüístico nacional, especialistas del Departamento de Ciencias de la Computación del Instituto de Investigaciones en Matemáticas Aplicadas y en Sistemas de la Universidad Nacional Autónoma de México (UNAM) están utilizando inteligencia artificial para crear registros digitales de las lenguas originarias. Esta iniciativa tecnológica busca mantener vivas, aunque sea de manera artificial, las 68 lenguas nacionales reconocidas en el país, muchas de las cuales carecen de hablantes activos y se encaminan hacia la extinción.

Una crisis lingüística que se agrava

El investigador Iván Vladimir Meza Ruiz, experto en la intersección entre lenguaje humano y cómputo, alertó sobre la alarmante disminución en el uso de estas lenguas. "Del 15 por ciento de hablantes que existía en 1930, hemos caído a apenas un 6.2 por ciento de la población nacional en 2020", explicó durante su participación en la sexta sesión de la Cátedra Extraordinaria de Bioética, organizada por el Programa Universitario de Bioética de la UNAM.

La situación es particularmente crítica porque quienes aún utilizan estas lenguas son, en su mayoría, personas mayores, mientras que las generaciones más jóvenes prácticamente no las practican. México cuenta con 11 familias lingüísticas y 364 variantes, pero muchas están cayendo en desuso aceleradamente.

El desafío de los datos masivos

Uno de los principales obstáculos que enfrenta este proyecto es la escasez de datos digitales sobre las lenguas originarias. Meza Ruiz reveló que, según Wikipedia, existen cantidades mínimas de contenido en estas lenguas:

Náhuatl clásico: 4,272 artículos
Maya yucateco: 1,201 artículos
Náhuatl central: 224 artículos
Mixteco: 113 artículos
Hñahñu: 90 artículos
Purépecha: 12 artículos
Mixe del norte: 10 artículos

"Los datos existentes están sesgados hacia la música y hay escasos registros del habla, la cual es además un punto de contacto para la discriminación", señaló el investigador. Agregó que muchas de estas lenguas son predominantemente orales, lo que complica aún más su registro digital.

Dilemas éticos y científicos

El proyecto se enfrenta a un dilema ético significativo. Mientras existe una preferencia académica por la ciencia abierta, numerosas obras y documentos en estas lenguas están sujetos a derechos de autoría, tanto morales como patrimoniales. "Tecnológicamente sabemos cómo crear versiones paralelas de forma masiva y digital, pero dependemos de reunir suficiente información", reconoció Meza Ruiz.

El especialista destacó que las lenguas originarias en México no están bien representadas en términos de datos lingüísticos. El siguiente paso crucial es crear el ecosistema necesario para recolectar estos datos de manera sistemática y ética, permitiendo así su conservación digital.

Impacto más allá de la preservación

Meza Ruiz consideró que una estrategia digital exitosa podría tener beneficios que trascienden la mera preservación lingüística. "Ayudaría a comunidades hablantes a tener acceso a salud, justicia, educación, autonomía económica y a una lectura y plática en sus lenguas", afirmó.

Este enfoque tecnológico representa una esperanza para revertir la tendencia hacia la desaparición de estas lenguas, pero requiere de un esfuerzo coordinado que involucre no solo a expertos en inteligencia artificial, sino también a comunidades indígenas, lingüistas y autoridades culturales.