Si bien las tecnologías nunca son neutras, sí es cierto que tendrán efectos más benéficos o perjudiciales para el conjunto de la sociedad en función del uso que les demos. El clásico ejemplo es el del cuchillo: puede emplearse para auxiliarnos en la alimentación, en su versión sofisticada del bisturí puede salvar una vida, pero también puede ser el arma blanca que ayude a perpetrar un delito o cometer un asesinato. La inteligencia artificial (IA) no es una excepción.
Podemos pasarnos horas haciéndole preguntas perezosas a ChatGPT, o buscando formas de incrementar las ganancias de una empresa precarizando con algoritmos el trabajo de los deliveries, o haciendo trampa en los estudios. O podríamos aplicarla para desatar la curiosidad y el razonamiento, para abatir la inequidad en la sociedad o como punto de partida para un trabajo profundamente personal que deje boquiabierto al cuerpo docente.
Ejemplo de este uso virtuoso de la IA es el proyecto Cruzar, impulsado por investigadoras e investigadores, docentes y estudiantes de las facultades de Ingeniería, Información y Comunicación y Ciencias Sociales de la Universidad de la República (Udelar) y del Centro Interdisciplinario en Ciencia de Datos y Aprendizaje Automático (Cicada), también de la Udelar, que trabajan en colaboración con la organización Madres y Familiares de Uruguayos Detenidos Desaparecidos.
IA para el procesamiento de archivos documentales y su aplicación al caso de los archivos del pasado reciente llevaba por título el proyecto presentado por Lorena Etcheverry, Aiala Rosá y Gregory Randall, de la Facultad de Ingeniería, y Elina Gómez, de la Facultad de Ciencias Sociales, y que resultara uno de los cuatro financiados de la convocatoria de la Agencia Nacional de Investigación e Innovación (ANII) de proyectos de investigación y desarrollo en IA de 2022. En ejecución desde 2023, Cruzar viene logrando una serie de interesantes avances.
Abordando desafíos de los archivos mediante IA
El objetivo de Cruzar es “procesar diferentes colecciones documentales” del pasado reciente “y, mediante el análisis de esos documentos, contribuir al esclarecimiento de muchas preguntas que están sin respuesta hasta nuestros días”.
¿Por qué recurrir a la IA? Porque, como dicen, “el procesamiento de colecciones documentales presenta diversos desafíos”, como “la clasificación automática de documentos según su tipo, la transcripción de imágenes a texto, o la extracción e identificación de entidades y relaciones presentes en el texto”, entre otros. Para todo ello, la IA y el procesamiento del lenguaje son grandes aliados. “Este proyecto propone profundizar en algunos de los problemas de aplicación de IA en este contexto, en particular en la mejora de la transcripción y la extracción de información”, señala el grupo de investigación.
La tarea que tienen por delante requiere cualquier auxilio disponible, dado que existen millones de páginas de documentos de la dictadura uruguaya que aún no se han analizado en su totalidad. Según reseñan a la diaria, una de las colecciones documentales con las que han trabajado fue el archivo Berrutti, que consiste en unos tres millones de páginas de diverso material producido por los organismos de seguridad durante y después de la dictadura. Cabe señalar que estas páginas son escaneos de documentos guardados en microfilms, es decir, microfotografías de diversa documentación, como “recortes de prensa, listas de personas y lugares, fichas personales de integrantes de diversos colectivos o generadas por organismos, fotografías, pasaportes y afiliaciones políticas”. Por tanto, en ellos la información no puede buscarse por palabras o claves, ya que se trata de imágenes que, en algunos casos, no son de la mejor calidad ya que presentan manchas y letras borroneadas.
Cruzar también trabajó con colecciones “parcialmente digitalizadas”, como es el caso del Archivo Histórico de la ex Dirección Nacional de Información e Inteligencia y el Archivo del Cuerpo de Fusileros Navales. El trabajo con este tipo de materiales implicó un primer paso de digitalización, es decir, pasar de los microfilms, que son archivos analógicos, a archivos con información que pueda ser procesada computacionalmente, que se viene haciendo desde antes de Cruzar. Esos archivos digitalizados son luego pasados por herramientas de reconocimiento óptico de caracteres, conocidas como OCR, que justamente pasan las letras de una imagen a archivos de texto, lo que permite luego su procesamiento. En ese sentido, ya se han procesado “más de 2,2 millones de imágenes” e incluso se desarrolló en 2019 la plataforma Luisa (Leyendo Unidos para Interpretar loS Archivos), que permitió que la comunidad colaborara realizando la transcripción manual de pasajes en los que el reconocimiento óptico de caracteres fallaba.
En 2023 la Udelar inauguró el repositorio Luisa Cuesta, al que se puede acceder en el campus universitario Luisi-Janicki, en el predio de la ex Facultad de Veterinaria, con el objetivo de que la población en general, e investigadores e investigadoras en particular, puedan consultar el archivo en un lugar físico, bajo protocolos que eviten filtraciones o un mal uso de los documentos. Allí las transcripciones se almacenaron con el sistema operativo Luz, desarrollado por investigadores de la Facultad de Ingeniería, que permite “realizar búsquedas más rápidas”, y el software Amalia, desarrollado por la Facultad de Ciencias Sociales con apoyo de la de Ingeniería, que no sólo permite buscar y analizar textos, sino también encontrar relaciones entre los términos usados y averiguar el contexto en que aparecen en los archivos. Ahora llega el turno de la IA.
“A lo largo del proyecto, que comenzó en 2018, hemos usado diversas técnicas y hemos ido explorando el uso de innovaciones”, señala Lorena Etcheverry, corresponsable del proyecto junto con Aiala Rosá, docente de la Facultad de Ingeniería e integrante del Grupo Coordinador de Cicada. “Comenzamos usando herramientas de OCR basadas en redes neuronales, y ahora estamos probando con modelos multimodales. Lo mismo pasa con la extracción de información. Comenzamos usando técnicas más tradicionales para identificar entidades nombradas, como personas, lugares, etcétera, y las relaciones entre ellas, y en los últimos dos años exploramos y evaluamos el uso de modelos extensos del lenguaje para estas tareas”, agregó.
Durante el desarrollo del proyecto también se fue consolidando “una red regional de investigación en IA y derechos humanos” que abarca a instituciones de Argentina, Chile, México y nuestro país. Más aún, según señalan, los resultados obtenidos permiten pensar que este “enfoque potenciado por la IA y distintas herramientas que se desarrollan” podría aplicarse también en otros archivos documentales. Al respecto señalan que estas herramientas, “mediadas por la supervisión humana”, pueden contribuir a “preservar y estudiar el patrimonio histórico desde una perspectiva innovadora”.
¿Para qué precisamos un Centro Interdisciplinario en Ciencias de Datos y Aprendizaje Automático? Como queda claro, para proyectarnos al futuro siendo lo más conscientes posible del pasado que cargamos.
Congreso regional
El Cicada está organizando su primer congreso regional sobre Ciencia de datos, aprendizaje automático e inteligencia artificial con el objetivo de “unir a la comunidad y compartir conocimiento en estas disciplinas”. Será del 5 al 7 de noviembre en la Facultad de Ingeniería; hay un llamado a pósteres abierto hasta el 15 de agosto y pronto abrirán las inscripciones generales. Más información aquí.