“Hoy tenemos una injusticia epistémica, una injusticia de representación”, expresó, en diálogo con la diaria, Gabriela Arraigada, académica de la Pontificia Universidad Católica de Chile y del Centro Nacional de Inteligencia Artificial, al referirse al “colonialismo” que existe en los modelos de lenguaje.
“Las tecnologías actuales no toman en cuenta a América Latina ni al Sur global y el modelo de lenguaje perpetúa estereotipos y sesgos de discriminación”, explicó la catedrática chilena en diálogo con la diaria.
Arriagada, integrante del equipo de ética del primer modelo de lenguaje de inteligencia artificial creado en Chile en alianza con Brasil llamado Latam-GPT, consideró que “las epistemologías de Latinoamérica y del Sur global, que representan nuestra historia, nuestra cultura, en general, no están representadas en los grandes debates que se llevan adelante sobre el uso de la inteligencia artificial”.
La especialista, quien habló sobre el “Ética de los LLMs (Modelos de Lenguaje de Gran Escala): el caso de Latam-GPT” en CICADA, el primer Congreso Regional de Ciencia de Datos, Aprendizaje Automático e Inteligencia Artificial,que se realizó en la Facultad de Ingeniería (Udelar) entre el miércoles y viernes pasado, sostuvo que el origen de los modelos de lenguaje de la IA nunca estuvieron “diseñados” para la inclusión de otros idiomas que no fueran el inglés. Dijo que tampoco contemplan realidades como las dictaduras que vivió la región, los estilos de música, la esclavitud o el feminicidio.
¿Cómo evalúa la importancia de este tipo de congresos académicos para el debate sobre la ética sobre la IA en América Latina?
Una de las características más importantes que tiene el congreso CICADA es que es interdisciplinario. Es un congreso de ciencia de datos, de aprendizaje de máquinas y al mismo tiempo tiene esta dimensión de discusión social y ética, y creo que es muy necesario, porque la naturaleza y el desarrollo que está tomando la tecnología de la IA, tiene una dimensión social de alto impacto, y ya no es opcional que esto esté en la discusión, porque es parte de su diseño, desarrollo y aplicación, por lo que me parece que es fundamental que ya todo congreso tenga al menos una parte de discusión o dimensión social en el debate público y también académico.
En su ponencia, durante este congreso, usted habló sobre la ética y el caso de la Latam-GPT. ¿En qué consiste este proyecto y qué desafíos éticos específicos surgen de este modelo de lenguaje, pensándolo sobre todo en el contexto latinoamericano?
La ética de los grandes modelos de lenguaje es una subdisciplina que está bastante incipiente. Estamos aprendiendo en la marcha y el tema viene evolucionando muy rápidamente. En particular, el proyecto de investigación Latam-GPT tiene como fin generar un modelo abierto que sea creado con datos latinoamericanos.
Una de las grandes deficiencias que tenemos hoy en día es que la mayoría de los sets de datos que se utilizan para entrenar grandes modelos de lenguaje utilizan información que ya está en la web, predominantemente en inglés, lo que hace que no se encuentre una representación auténtica de muchas características de nuestra región.
¿Cuáles son las principales diferencias que podemos observar dentro de la región?
Si bien nos une el idioma español, hablamos diferentes españoles y tenemos el portugués también. Podemos tener una especie de pasado histórico similar, porque todos somos países colonizados, pero al mismo tiempo lo vivimos de maneras diferentes, con enfoques distintos, tanto culturales, políticos como económicos, y esto se refleja en el lenguaje, en cómo hablamos del mundo.
En Latam-GPT hemos podido colaborar a través de una serie de alianzas estratégicas con universidades, instituciones y organizaciones sin fines de lucro, que nos han permitido armar fuentes de datos que muchas veces ni siquiera estaban digitalizadas, lo cual le da una riqueza cultural muy interesante al modelo. Por supuesto que no es exhaustivo, pero lo que se busca es sentar un precedente, que haya una cierta gobernanza, un diseño que provenga de Latinoamérica para Latinoamérica, y sea capaz de reflejar esas pequeñas sutilezas propias de nuestra región. Esa es la meta, y yo creo que ha sido una experiencia muy interesante y muy agradable de poder convocar diferentes conocimientos y perspectivas latinoamericanas en su diseño.
Además del idioma, ¿hay alguna cuestión cultural o social que no esté lo suficientemente representada en los modelos de lenguaje con respecto a Latinoamérica?
Muchísimas. O sea, esto tiene que ver con cuestiones culturales respecto a cómo nos referimos a procesos políticos. Hay que tener mucho cuidado, por ejemplo, sobre cómo hablamos de la dictadura, de un estilo de música, de la esclavitud, de realidades latinoamericanas como el feminicidio.
Hay temas muy difíciles de configurar, y a mí me parece que no tenemos los mismos genes de lenguaje, lo hemos visto también con el equipo de desarrollo, no están entrenados con esos datos ni con esos contextos, porque aquí no se trata únicamente de datos, sino que nosotros también estamos trabajando en desarrollar pruebas de evaluación que nos permitan ver cómo rinden en contextos de lenguaje latinoamericano.
No nos interesa no solamente el dato de origen, que sería cuál es el set de datos con el que vamos a entrenar el modelo, sino que también generar pruebas de rendimiento, de evaluación, que nos van a permitir poder generar mejores procesos de lenguaje, mejores procesamientos, mejores productos o aplicaciones que usen este modelo base para poder entender los contextos latinoamericanos de mejor manera.
¿Se puede decir que Latinoamérica es una de las regiones más olvidadas en los modelos de lenguaje?
Yo creo que no solo estaba olvidada, sino que simplemente no era visible, así como tampoco lo es África, el Sur global en general, aquí tenemos una injusticia epistémica, una injusticia de representación, las epistemologías del Sur global, que son aquellas que también muestran nuestra historia, nuestra cultura, en general no están representadas en los grandes debates de inteligencia artificial.
En los últimos años recién hemos visto cómo sistemáticamente diferentes académicos, expertos y expertas han estado poniendo esto en la discusión, pero no se originó ahí. Su origen nunca fue, por así decirlo, diseñada para esa inclusión de otros lenguajes.
¿Cuánto incide la presencia dominante del idioma inglés?
Mucho. Todo esto funcionó primordialmente en inglés, porque las dinámicas de publicación académica, las mayores conferencias y las más grandes compañías funcionan en inglés, entonces, siempre en Latinoamérica y otros idiomas han sido una cuestión secundaria, como por así decirlo, un pensamiento después del hecho, y yo creo que esto viene a mostrar que hay una necesidad, no solo por la cantidad de hispanohablantes, sino que también por representar a una gran parte de la población mundial.
Es como una especie de colonialismo, de alguna manera.
De todas las maneras. Me ha tocado trabajar mucho el tema de descolonizar la ética de la inteligencia artificial, las métricas de justicia, reducir o minimizar el sesgo. Todas estas discusiones se dan sobre cómo funciona el modelo, pero no nos estamos cuestionando algo de fondo, que es que no tenemos buenos datos, que no tenemos contextos de entrenamiento ni tampoco estamos destinando recursos a esto. Entonces, es muy notable lo que se ha logrado hacer con Latam-GPT, porque aunamos y coordinamos esfuerzos colectivos de organizaciones en Latinoamérica que justamente están apuntando a eso, encontrar representación a través de nuevos mecanismos de fuentes de datos abiertos, de representación regional que, de alguna manera, juegan o tratan de destruir esos pilares fundacionales de la IA que eran necesariamente colonialistas.
¿Cree que es clave que América Latina y Uruguay piensen en una ley de IA?
Sí. La discusión regulatoria en Latinoamérica ya está avanzada en diferentes países de manera paralela. Sin embargo, a mí me parece que esa discusión todavía requiere mayor decantación. Nos hemos ido apurando un poco en este debate, se ha hecho mucho trabajo derivado de lo que se tenía en Europa y en Estados Unidos, entonces es muy importante que podamos bajar esto a nuestra realidad, tanto legislativa como cultural.
¿Cuáles son los pasos que hace falta dar?
Hay preguntas más profundas que nos tenemos que hacer. Es importante tener una regulación, porque es la que nos permite establecer normativas claras para la toma de decisiones en temas de política pública o en temas relacionados con cuestiones de impacto gubernamentales. Sin embargo, me parece que también esa discusión legislativa tiene que tener un poco de pausa, puede ser un poco más reflexiva y, por sobre todo, participativa, tiene que tener la participación de diferentes comunidades, y ahí la discusión que se está generando en Latinoamérica me parece esencial para poder lograr eso en el mediano plazo.
¿Cuáles cree que son los más urgentes riesgos éticos de la inteligencia artificial en este momento?
Un riesgo ético que a mí me parece que es fundamental y que usualmente no se incluye en la discusión transversal, incluso legislativa, tiene que ver justamente con el impacto ambiental. O sea, a mí me parece que gran parte de la discusión, por supuesto que se tiene que centrar en los criterios éticos que están en el diseño, en el desarrollo, en el impacto, todo lo que tiene que ver con responsabilidades asociadas, pero acá también hay un tema, y es el costo ambiental, ecosistémico que llega a tener la producción.
Y no solo nos tiene que importar a nivel mundial, sino que gran parte de los recursos necesarios para la constitución del hardware que se utiliza en inteligencia artificial está acá en Latinoamérica. Tenemos, por ejemplo, el triángulo de los salares, que está entre Bolivia, Chile y Argentina. Es muy importante, porque esos salares, son los que están proveyendo la mayor cantidad de litio, la mayor cantidad de de recursos que se necesitan para poder mantener vivo esto y, además, el tema del agua.
Necesitamos agua para regular la temperatura de estas grandes máquinas. Muchas veces yo creo que el problema ético de fondo que está relacionado con esto es que nos olvidamos también como usuarios, qué está detrás de la IA. Se habla de la IA como si fuese esta cosa que existe a través de una interfaz, pero en realidad tiene un componente físico que es muy costoso y que yo creo que va a generar un impacto mucho antes de que quizás lleguen estos riesgos existenciales que muchas veces se hablan. Creo que va a llegar el impacto ecológico antes que ese riesgo existencial.
De hecho, hay una explosión de data centers que hemos visto que también están implementando en la Patagonia, y eso claramente tiene un impacto que no es menor. Yo creo que acá, de nuevo, se están generando dinámicas colonialistas, y es importante empezar a dar esta discusión incluso con la conversación regulatoria, o sea, cuál es esa fina línea que hay de diferencia entre una soberanía o gobernanza autónoma, y nuevamente una explotación a través de estos grandes sistemas que, básicamente, se están implementando en Latinoamérica nuevamente. Debemos preguntarnos: ¿Cuál va a ser el costo real?
¿Qué significa la inteligencia artificial para la humanidad?
Para mí es una oportunidad de ver reflejado en esta automatización de procesos esos egos, esas ambiciones que nos están llevando a una autodestrucción, a olvidarnos del estar aquí, del convivir con un otro y de lo que significa que somos seres naturalmente sociales.
Sin embargo, también que hay un tema con ese ego herido, ese afán de avance científico tecnológico, que buscaba una cuestión sin muchos valores, que fuera objetiva, que nos diera resultado, pero toda esta inmediatez nos hizo perder el sentido de qué significa ser humanos.
¿Cree que los ciudadanos deberían de ser más cautos en el uso de la inteligencia artificial?
Uno de los grandes problemas que tenemos es que somos pocos cautos. Y particularmente en Latinoamérica tenemos una cultura de adopción bastante fácil. Tengo colegas con los que he conversado en países como Alemania o Bélgica, que tienen una cuestión cultural mucho más aversa a la tecnología, donde todavía pagan con efectivo porque le tienen cerrada la tarjeta de crédito, el nivel de adopción transversal es mucho menor, en cambio acá, si sale algo tecnológico, la gente dice ‘que divertido veamos que es’. Y eso tiene sus pros y sus contras, somos culturas que de alguna manera nos ha permitido poder atrevernos y llevarnos a conocimientos que quizás no habrían salido si no fuese por ese rasgo cultural, pero creo que en este caso también hay que tener más cautela, hay que tener a una población educada.
No hay que generar pánico pero sí cautela, prudencia, entendiendo que todavía no somos capaces de asegurar cuál es un riesgo directo e indirecto de la IA, lo estamos descubriendo en el camino, riesgos de impacto psicológico, epistémicos, políticos, entonces a mí me parece que ese llamado de atención es transversal a todo ciudadano y a toda persona porque apela mucho más a cuál va a ser nuestro futuro conjunto, entonces a mí me parece que va más allá de una simple alfabetización y de saber cómo funciona, tenemos que entender de lo que es capaz.