Cada vez más, la inteligencia artificial es parte de nuestras vidas, a menudo de manera imperceptible. Ya no se trata de utopías tecnológicas sobre el futuro, sino de un presente muy concreto. Pero detrás de avances que incluyen desde diagnósticos médicos hasta vigilancia masiva están los algoritmos, cuyos “sesgos” amenazan con perpetuar e incluso profundizar las desigualdades del presente. Poner el foco en los datos, los modelos y las personas puede servir para construir una inteligencia artificial más “justa”.

La expresión “inteligencia artificial” dejó de ser propiedad exclusiva de las novelas de ciencia ficción y de los libros de computación. Noticias sobre avances fascinantes –como computadoras capaces de asistir al personal médico en tareas de diagnóstico o de manejar automáticamente vehículos no tripulados– aparecen cada vez con más frecuencia y se vinculan cada vez más con nuestras vidas. Sin embargo, no todas las noticias son tan alentadoras. Durante los últimos años, hemos visto desde sistemas para reconocimiento facial que alcanzan un peor rendimiento en mujeres de piel negra que en hombres blancos hasta traductores de inglés a español que perpetúan estereotipos de género. Estos ejemplos ilustran un fenómeno conocido como “sesgo algorítmico”: sistemas cuyas predicciones benefician sistemáticamente a un grupo de individuos frente a otro, con lo que resultan injustas o desiguales. Pero ¿cuáles son las razones que llevan a estos sistemas a generar predicciones sesgadas? Para entenderlo, comencemos por definir algunos conceptos que nos serán útiles a lo largo de este ensayo: “inteligencia artificial” y “aprendizaje automático”.

Cuando la inteligencia deviene artificial y el aprendizaje, automático

Existen muchas definiciones de “inteligencia artificial”. Aquí usaremos una definición general ofrecida en uno de los libros fundamentales del campo, que describe la inteligencia artificial como la disciplina que se encarga de comprender y construir entidades inteligentes (pero artificiales). Esta definición es muy amplia y abarca conceptos que van desde los sistemas de razonamiento deductivo basados en reglas lógicas hasta algoritmos de aprendizaje automático que buscan detectar automáticamente patrones en conjuntos de datos y luego usarlos para realizar predicciones. Un elemento central para este último subcampo de la inteligencia artificial son, entonces, los datos, que constituyen la materia prima utilizada para automatizar el proceso de aprendizaje en el que los sistemas son entrenados para realizar predicciones.

Los datos pueden ser imágenes, sonidos, texto escrito, redes, posiciones de un GPS, tablas o cualquier representación que se nos ocurra. En todo caso, la idea central es que los modelos de aprendizaje automático aprenden a partir de los datos. Esta noción resulta central en la actualidad, dado que la gran mayoría de las tecnologías disruptivas adoptadas masivamente en el siglo XXI y que son presentadas como inteligencia artificial utilizan en realidad métodos de aprendizaje automático. Pero ¿cómo aprenden estos sistemas?

Existen distintos paradigmas de aprendizaje. Uno de los más utilizados es el del aprendizaje supervisado, en el que los sistemas son sometidos a un proceso de entrenamiento que es guiado por anotaciones o etiquetas. La idea es simple: se intenta asociar características o patrones propios de los datos con las correspondientes etiquetas. Es decir, se analizan los datos en busca de patrones distintivos que permitan separar una categoría de la otra. Tomemos un ejemplo: imaginemos que queremos entrenar un sistema para que pueda decirnos si el contenido de una imagen corresponde a un perro o a un gato. Bajo el paradigma del aprendizaje supervisado, lo que necesitaremos es una base de datos compuesta por imágenes de perros y gatos, con la correspondiente etiqueta asociada a cada una. Durante el proceso de entrenamiento, el algoritmo tomará esas imágenes y comenzará a hacer predicciones a partir de ellas, asociando características (información de la imagen) con etiquetas. De forma simplificada, podemos pensar que estas características están dadas por diferentes patrones presentes en la imagen, como el color, el brillo, la cantidad de patas, el tamaño del cuerpo o la forma de las orejas. Si nos detenemos a pensar en estas características, algunas serán más útiles que otras para distinguir entre perros y gatos. Por ejemplo, la cantidad de patas no parece ser una característica útil para diferenciarlos; sin embargo, el tamaño del cuerpo sí podría serlo. La idea es que, por medio del entrenamiento, los sistemas aprendan a asociar patrones en estas características con las correspondientes categorías. Al principio estas asociaciones serán seguramente incorrectas; pero a medida que avance el proceso de entrenamiento, el modelo se irá ajustando y mejorando su desempeño en la tarea asignada.

Esta idea que ilustramos con imágenes es extrapolable a otros tipos de datos sobre los que hablábamos: si quisiéramos entrenar un sistema para aprender a traducir texto de inglés a español, necesitaríamos muchos textos escritos en ambos idiomas. Para inferir el estado de ánimo de una persona a partir de su voz, necesitaríamos grabaciones de audio de personas hablando, y la correspondiente etiqueta que indique si se encuentran alegres o tristes. Si pensáramos en un sistema que detecte patologías automáticamente a partir de imágenes radiográficas, necesitaríamos pares de imágenes con su correspondiente diagnóstico médico. O si quisiéramos entrenar un modelo para detectar rostros en imágenes, necesitaríamos una base de datos de fotografías de personas, con etiquetas que indiquen en qué lugar se encuentra el rostro de cada una.

Como vemos, los datos juegan un rol esencial en el entrenamiento de sistemas por medio de aprendizaje automático, dado que son la fuente de información que le indicará al sistema cuándo ha llegado a conclusiones correctas y cuándo no. Algo que resulta fundamental en este proceso, y que no siempre es tenido en cuenta, es que un sistema raramente se construye para realizar predicciones con los datos con que fue entrenado. Por el contrario, se espera que los modelos puedan sacar conclusiones acertadas sobre datos nunca vistos durante el “aprendizaje” –los datos de prueba– y cuyas etiquetas no se conocen. Esta capacidad de generalización es un rasgo primordial, dado que de nada serviría un modelo predictivo que sólo acertara en situaciones conocidas. Imaginemos un detector de patologías en imágenes radiográficas que puede predecir si una persona tiene o no neumonía utilizando solamente imágenes de esa misma persona. O un traductor de inglés a español que sólo puede traducir textos que ya estaban traducidos. En general, la hipótesis de trabajo de estos sistemas es que los datos de prueba serán de alguna manera similares a los datos de entrenamiento, pero no los mismos. Por ejemplo, si entrenamos un modelo para detectar neumonía en humanos, el modelo será utilizado en otros humanos, pero no en animales. O si entrenamos un sistema para traducir del español al inglés, los textos de prueba serán distintos de los de entrenamiento, pero estarán siempre escritos en español, y no en francés. En este caso, resulta evidente que un sistema que aprendió utilizando textos en español no podrá generalizar al francés. ¿O acaso le pediríamos a un intérprete de francés que traduzca mandarín? Sin embargo, existen variaciones entre los datos de entrenamiento y prueba que pueden ser más sutiles que el cambio de español a francés o de humanos a animales, pero que igualmente producen un efecto devastador en la calidad de las predicciones.

Los sistemas de inteligencia artificial están diseñados por personas con sus propias visiones del mundo, prejuicios, valoraciones de los hechos y sesgos adquiridos.

Volvamos a imaginar el caso del sistema para distinguir entre imágenes de perros y gatos, pero con una pequeña variación: nuestra base de datos sólo está compuesta por perros negros y gatos blancos. En este caso, el color del animal será una característica sumamente útil para distinguir entre ambas clases. De hecho, nos dará una predicción perfecta: si el color predominante en el cuerpo del animal es negro, será un perro; y si es blanco, será un gato. Ahora imaginemos que en nuestro conjunto de prueba hay una sutil diferencia: aparecen perros de color blanco. ¿Qué creen que sucederá con las predicciones sobre los perros blancos? El sistema seguramente les asignará la etiqueta «gato» de forma incorrecta, lo que redundará en un rendimiento más bajo para este subconjunto de la población objetivo. Tomar en cuenta estos factores al entrenar sistemas de inteligencia artificial basados en aprendizaje automático es clave si queremos evitar el sesgo algorítmico en varios sentidos. Veamos algunos ejemplos.

Sobre datos, modelos y personas

Los modelos de inteligencia artificial pueden ser sexistas y racistas. En otras palabras, pueden adquirir un sesgo que los lleve a presentar un rendimiento dispar en grupos caracterizados por distintos atributos demográficos, lo que redunda en un comportamiento desigual o discriminatorio. Y una de las razones detrás de este comportamiento son justamente los datos que usan para entrenarlos.

Los ejemplos de sesgo algorítmico adquirido a través de los datos son variados y muchas veces tienen que ver con bases de datos que no representan en realidad al conjunto de la población. Por ejemplo, al analizar ImageNet, una de las bases de datos de imágenes etiquetadas más grandes del mundo, que ha sido motor del desarrollo de los modelos más populares de clasificación de imágenes, se constata que, pese a que es utilizada mundialmente, más de 45% de las imágenes provienen de Estados Unidos y reflejan una realidad localizada en el hemisferio norte y que encarna representaciones propias de la cultura occidental.

Otro ejemplo está dado por los traductores automáticos como Google Translate, donde se encontró que el sistema asignaba un género específico al traducir palabras que son neutras en un idioma y no en otro, perpetuando así estereotipos de género como la asignación del género femenino a la palabra “nurse” y masculino a “doctor”, palabras que en inglés valen para ambos géneros. Es posible que en los textos utilizados para entrenar el modelo la probabilidad de encontrar la palabra “nurse” traducida como “enfermera” ciertamente fuera más alta, y por tanto el modelo minimiza las chances de error al asignar ese género en situaciones de incerteza, y lo mismo vale con “doctor”.

Un caso relacionado es el de los sistemas de puntuación para la asignación de préstamos bancarios o límites de gasto en tarjetas de crédito: frente a una pareja con ingresos, gastos y deudas similares, la empresa de tarjetas de crédito estableció un límite para la mujer de casi la mitad del límite del esposo. La brecha salarial entre hombres y mujeres es una realidad del mundo desigual en que vivimos, y probablemente los datos con los que fue entrenado el modelo la reflejaran, por lo que su recomendación era asignarle mayor límite de gasto al hombre que a la mujer. Es decir, los datos son un reflejo (acotado) de la realidad actual. Sin embargo, en estas situaciones cabe preguntarse: ¿realmente queremos que el modelo perpetúe (y hasta en ocasiones amplifique) las desigualdades por el solo hecho de que vivimos en una sociedad desigual? ¿O queremos modificar esta realidad? El recorte que se hace de estos datos, la población utilizada para construir las muestras, las variables que se miden: todas son decisiones humanas que están lejos de ser neutrales. El aura de neutralidad que muchas veces se atribuye a los sistemas automáticos se desvanece en el instante mismo en que comprendemos la relación entre los datos, los modelos y las personas. Y la necesidad de auditar la equidad de nuestros modelos tomando en cuenta una perspectiva interseccional se vuelve sumamente relevante.

En ocasiones, cuando detectamos posibles sesgos o rendimientos dispares en estos modelos, es posible pensar en soluciones para mitigarlos. Una de ellas sería balancear de alguna forma los datos, para evitar que los modelos resulten discriminatorios o injustos, dependiendo de la situación que estamos modelando. Otra opción podría ser inducir al sistema a que utilice representaciones “justas” de los datos, en el sentido de que no estén asociadas a las características que son fuente de discriminación. O, directamente, obligarlo a ignorar estos atributos protegidos, como el género u otras características demográficas, al momento de tomar una decisión. Sin embargo, debemos ser cuidadosos al diseñar estas soluciones: aunque ocultemos ciertos atributos a un sistema, como el género o el grupo étnico al que pertenece una persona, la correlación entre esos atributos y otras variables seguirá existiendo. Recordemos que si hay algo que los modelos de aprendizaje automático hacen bien es encontrar patrones y también correlaciones. Por eso, si bien la comunidad académica de investigación en equidad algorítmica (fairness) ha trabajado arduamente durante los últimos años en pos de construir modelos justos y que no discriminen, el factor humano en el diseño de estos sistemas resulta primordial.

No alcanza, entonces, con generar bases de datos representativas o modelos justos en algún sentido específico. Los sistemas de inteligencia artificial están diseñados por personas con sus propias visiones del mundo, prejuicios, valoraciones de los hechos y sesgos adquiridos a lo largo de su experiencia de vida, que pueden filtrarse en el diseño y la definición de criterios de evaluación para estos modelos. Si esos grupos de trabajo no son lo suficientemente diversos como para reflejar una amplia variedad de visiones, muy probablemente no lleguen siquiera a darse cuenta de la existencia de los sesgos, y por tanto a corregirlos.

Enzo Ferrante es doctor en Informática e investigador adjunto del Consejo Nacional de Investigaciones Científicas y Técnicas de Argentina. Una versión más extensa de este artículo fue publicada originalmente en Nueva Sociedad.