La regla de Bayes, primera parte: aprendiendo de la experiencia

Una forma de aprender de la experiencia es utilizada en campos de los más variados, entre los que destaca, por su novedad e impacto en nuestra vida cotidiana, la llamada inteligencia artificial. Gracias a ella tu casilla de correo filtra el correo basura, tus redes sociales te sugieren contenidos, los coches de Google y de Tesla que no requieren conductor se desplazan sin provocar tantos accidentes como los pilotados por humanos. Pero tiene muchos más usos. La investigación en genética, por ejemplo, se ha beneficiado enormemente de su aplicación. Se trata de la regla de Bayes o teorema de Bayes.

No existe acuerdo acerca de quién fue el padre de la criatura. Una versión se atribuye al reverendo Thomas Bayes, quien la formuló en la década de 1740. En su honor el teorema lleva su nombre. La solución de Bayes fue descubierta tras su muerte y publicada por su amigo Richard Price en 1763. El artículo incluyó mejoras del propio Price a aquella primera versión que el mismo llamó “una imperfecta solución a uno de los problemas más difíciles de la doctrina de las probabilidades”. En 1812 la versión que hoy conocemos fue publicada por Pierre-Simon Laplace, quien más adelante la desestimaría. Se cree que el propio Laplace había llegado a esta solución, de modo independiente, en la misma época en que Bayes lo había hecho.

Mas allá de las anécdotas (los grandes descubrimientos suelen tener un origen bastardo), el teorema constituye un ejemplo contemporáneo del devenir de lo herético. Fue condenado por la ortodoxia de la estadística, que tuvo en el genio de Laplace a uno de sus fundadores, durante dos siglos. Otro de los gigantes de la estadística moderna, RA Fisher, se refirió a él como la “única equivocación (tal vez la única equivocación con la que el mundo de la matemática se haya implicado jamás a fondo) [...] fundada en un error y ha de ser rechazada por entero”. Pero permaneció viva en pequeños grupos, e incluso fue utilizada en secreto por integrantes del bando oficial para resolver enigmas a los que el enfoque “frecuentista” no encontraba respuesta.

Antes de presentar la propuesta, veamos el tipo de problemas que permite resolver.

Una extraña enfermedad

Este es uno de los ejemplos más utilizados para introducir al lector en el mundo bayesiano. Imagina que existe una enfermedad con una prevalencia baja (digamos que la contrae 1% de la población) pero de desenlace fatal.

Se ha desarrollado un test que permite identificar tempranamente la enfermedad. Pero el test no es infalible: identifica correctamente como enfermos a 99 de cada 100 que padecen la enfermedad (su sensibilidad es de 99%) y correctamente como sanos a 90 de cada 100 que no la padecen (su especificidad es de 90%).

La prevalencia de la enfermedad se obtiene de dividir el número de enfermos en una población por el número total de sus integrantes; y tanto la sensibilidad como la especificidad del test, de dividir los números de aciertos por el número total de personas sanas y de personas enfermas, en cada caso.

Estamos familiarizados con este procedimiento. Se lo conoce como la regla de Laplace, y para quienes gustan de las fórmulas, puede formularse del siguiente modo:

Foto del artículo 'La regla de Bayes, primera parte: aprendiendo de la experiencia'

Ahora te realizas ese test. Da positivo. ¿Cuál sería tu reacción? La primera que tuve al enfrentarme al ejemplo fue: “Estoy en problemas”. Es altamente probable que tenga esa enfermedad. ¿Cuán probable? 99%, ya que esa es la sensibilidad del test.

En este punto un amigo bayesiano llega para consolarte. No sugiere que le restes importancia al resultado del test, sino más bien que lo consideres un motivo para continuar recogiendo evidencia sobre tu supuesta enfermedad, ya que antes de realizártelo la probabilidad de estar enfermo era de 1% y luego haber obtenido un resultado positivo se elevó a 9%.

Pero ¿cómo es posible?

Tu amigo te propone considerar el problema en estos términos: supón que integras una comunidad de 100 individuos. Recordemos que para este ejemplo, la prevalencia de la enfermedad es de 1%, lo que cuenta como tu creencia a priori. Todos deciden realizarse el test. Tras obtener los 100 resultados, ¿cuántos habrán sido positivos?

Asumiendo como cierta tu creencia a priori (antes de realizarte el test) acerca de la probabilidad estar enfermo, de los 100 integrantes de tu comunidad uno estará enfermo y los otros 99, sanos. Dadas las probabilidades de acierto del test, tras aplicarlo a los 100 individuos obtendrás 11 resultados positivos: uno de ellos corresponde a una persona que efectivamente tiene la enfermedad (estrictamente 0,99, pero redondeemos para no mutilar al enfermo) y los otros diez, a personas sanas (9,9 sin redondear) para las cuales el test reportó falsos positivos.

Al haber obtenido un resultado positivo, eres uno de los 11 individuos entre 100 que habrían obtenido tal resultado: 1/11 = 0,09, o 9%. Esa es tu probabilidad a posteriori (una vez que tu test dio positivo) de estar enfermo. Tienes aquí al enfoque bayesiano en acción.

El ejemplo es correcto para el caso de testeos masivos (se aplica el test a los 100 integrantes de tu comunidad). Esta estrategia se suele utilizar sobre muestras aleatorias para estimar la prevalencia de enfermedades en grandes poblaciones. En ese escenario, al total de resultados positivos obtenidos se restan las estimaciones de falsos positivos y todo cierra. Si en su lugar un médico te indicó hacerte el test, la probabilidad de encontrarte enfermo tras haber resultado positivo es mucho mayor que 9%. Esto es así porque generalmente los médicos prescriben la realización de un test que identifica cierta patología luego de haber constatado síntomas asociados a ella. En ese otro escenario es necesario estimar la probabilidad de estar enfermo, dado que presentas síntomas asociados a la enfermedad y dado que resultaste positivo en el test.

El teorema

Tenemos una fórmula para este tipo de problemas. Te presento el teorema de Bayes:

La probabilidad de que ocurra A dado que ocurrió B, o probabilidad condicional, se obtiene de multiplicar la probabilidad de que ocurra B dado que ocurrió A por la probabilidad que ocurra A, y dividir el resultado por la probabilidad de que ocurra B.

En nuestro ejemplo, la probabilidad de estar enfermo dado que se obtuvo un test positivo resulta de multiplicar la probabilidad de obtener un test positivo si estuvieras enfermo por la probabilidad de estar enfermo, y dividir por la probabilidad de dar positivo.

Contamos con los valores para el numerador en este caso: sabemos que la probabilidad de obtener un test positivo si estuvieras enfermo, o P(B|A), es 0,99. Se trata de la sensibilidad del test. Y sabemos que P(A) es 0,01. Es la prevalencia de la enfermedad en toda la población. Respecto del denominador, como la probabilidad de dar positivo es distinta para los sanos que para los enfermos, debemos considerar ambas. Cuando operas con todas esos valores, el teorema reporta como probabilidad de estar enfermo, dado que obtuviste un test positivo, el valor 0,09, al que llegamos gráficamente en el apartado anterior[1].

Aprendizaje bayesiano

Recuerdas la sugerencia de tu amigo. La situación no parece tan grave, pero sí lo suficiente como para continuar acumulando evidencia. Una buena idea es ir por un segundo test. Lo haces y obtienes nuevamente un resultado positivo.

¿Qué cambia respecto de tu situación tras haberte realizado el primer test? Pues que luego del primer resultado positivo tu probabilidad de estar enfermo pasó de 0,01 a 0,09.

Puedes volver al teorema de Bayes utilizando ese valor como tu probabilidad a priori de estar enfermo. Si lo haces, tras un segundo resultado positivo tu probabilidad de estar enfermo asciende a 0,44 (o 44%).

Si te realizaras un tercer test y también diera positivo, debieras volver a calcular Bayes, esta vez comenzando con P(Enfermo) = 0,44. Y obtendrías como resultado 0,88. Y con un cuarto test positivo, 0,99.

El teorema permite ir aumentando los grados de creencia respecto de algo, conforme vamos acumulando evidencia favorable, en contextos en que tanto la creencia como la evidencia son meramente probables. En esto radica su utilidad.

También es interesante por dos aspectos a los que regresaremos en una segunda parte de este artículo. Por un lado, Bayes no tiene nada para aportarte si asignas a tu creencia de partida una probabilidad 0 (nunca sucede) o 1 (siempre sucede). Si estas completamente seguro que algo sucederá o que no sucederá, los resultados de la fórmula siempre devuelven un valor idéntico a tu creencia de partida.

El segundo aspecto importante es que por más evidencia que acumules en una misma dirección, nunca obtendrás una probabilidad igual a 0 o a 1. Cada evidencia favorable posterior aporta menos al resultado, no llegando a devolver nunca una certeza en favor o en contra de nuestra creencia.

Incertidumbre

“La estadística se desarrolló históricamente bajo dos supuestos diferentes. Al principio [...] supuso que el error era enteramente un atributo del observador; pero más tarde, y con muchas más consecuencias, supuso que el ‘error’ –en el sentido de la variación con cierto grado de aleatoriedad– era en sí mismo un atributo inherente de la realidad”. John Goldthorpe

El enfoque bayesiano es útil para realizar inferencias en escenarios inciertos. En nuestro ejemplo, existe una enfermedad que ocurre pocas veces. Y contamos con un instrumento que permite identificar la mayoría de las veces la presencia de la enfermedad.

En la vida real las cosas se pueden poner peor. Imagina un mundo en el que la incertidumbre no sea consecuencia del error de un observador (como un test que no acierta todas las veces) sino que forme parte misma de su naturaleza. Y un mundo en que los objetos de nuestras creencias (como la prevalencia de una enfermedad) también varíen en el tiempo.

La afirmación de Goldthorpe es de la mayor relevancia en ese sentido y seguramente ayude a comprender las resistencias que durante dos siglos tuvo el enfoque bayesiano. Ni Quetelet, ni Laplace, ni Fisher, ni ninguno de los padres de la estadística de frecuencias desconocía el problema del error. Al contrario: diseñaron estrategias eficientes para lidiar con él. Los intervalos de confianza constituyen uno de los grandes logros de ese abordaje. Pero el error solía ser entendido como ruido que producen nuestros instrumentos (error de medición) o consecuencia de trabajar con muestras en lugar de poblaciones totales (error estadístico). Esos ruidos debían ser disminuidos lo más posible y, especialmente, cuantificados para aproximarnos a lo que la realidad, establemente, era.

Para nuestra enfermedad teníamos una prevalencia que, sin ser absoluta, era estable en su proporción de ocurrencias. Y un test que, no siendo absolutamente fiable, nos ofrecía un grado de confianza conocido y también estable en el tiempo. ¿Qué cosa podría ser tanto más incierta que ni siquiera nos ofreciera ese tipo de seguridad?

Tienes para elegir. Por ejemplo, la evolución. Las mutaciones son aleatorias. Prevalecerán aquellas variantes que mejor se adapten a su ambiente. Pero el ambiente, en muchos casos, se modifica también de modo aleatorio. La actual situación de pandemia por SARS-CoV-2 es ilustrativa al respecto. El virus muta, pero también lo hace el ambiente en que se propaga (variaciones de la interacción humana). Tenemos dos sistemas, sustantivamente inciertos, interactuando. Por eso, con la llegada de las vacunas, nuestras certezas acerca de su efectividad (que no es del 100%) definen un escenario mucho más seguro que el de la incertidumbre sustantiva.

Un ejemplo más cercano para la mayoría de nosotros: el tránsito. La proporción de conductores que se detienen en un cruce que espera atravesar un peatón es incierta en un sentido sustantivo. Se puede calcular para un lugar y un momento dado, pero varía en el tiempo y en el espacio. En algunos momentos del día los conductores son más o menos corteses; en algunas ciudades, incluso en algunos barrios, lo son más que en otros. En un día soleado seguramente se obtengan proporciones distintas que en uno lluvioso (a propósito, el clima es otro buen ejemplo de incertidumbre sustantiva). Del mismo modo, la proporción de peatones que, viendo aproximarse un coche en trayectoria de colisión, cruzan, también es incierta. Y tampoco nuestros instrumentos para medir ese caos son totalmente fiables. Con todos sus sensores de altísima precisión, uno de los problemas a los que se enfrentan los programadores de coches sin conductor es el de identificar cuándo un peatón parado en la esquina que el coche va a cruzar tiene intención de cruzar y cuándo permanecerá quieto hasta que cruce el coche. Los “sensores” de los conductores humanos parecerían ser, al menos por el momento, más precisos al llevar adelante esa tarea. Pero también fallan.

Si en lugar de una única creencia a priori estable (como la probabilidad de estar enfermo del ejemplo) y una única evidencia con error estable (como la probabilidad de nuestro test con resultado positivo) operamos simultáneamente con muchas de las primeras y muchas de las segundas, con probabilidades variables, ingresamos en el mundo de las redes bayesianas.

Un coche sin conductor se traslada sin accidentarse (la mayoría de las veces) porque su computadora de a bordo ha sido cargada con muchas creencias a priori (por ejemplo, probabilidad que un peatón cruce la esquina que el coche está a punto de atravesar) y dispone de múltiples sensores que recogen evidencia acerca de lo que efectivamente sucede. Conforme el coche recorre las calles, sus sensores van registrando evidencia que actualiza las creencias a priori. De este modo aprende a desplazarse. No se trata de un aprendizaje de una vez para siempre, como al que podría aspirar quien sueñe con un mundo determinista; es siempre variable, porque la variabilidad forma parte sustantiva del universo en el que se desplaza.

La racionalidad

“En algún punto de nuestras vidas adultas (dejemos a los bebés fuera de esto), tenemos muchas opiniones y varios grados de creencias acerca de nuestras opiniones. La pregunta no es si estas opiniones son “racionales”. La pregunta es si somos racionales al modificar esas opiniones a la luz de nuevas experiencias y nueva evidencia”. Ian Hacking

A muchos nos sigue pareciendo de ciencia ficción que un coche se traslade sin conductor. Sin embargo, coches sin conductor existen hace mucho tiempo. Puedes visitarlos en el parque de diversiones. Circulan con energía eléctrica, sobre una pista ovalada, desplazándose sobre rieles. Un operador regula el voltaje y todos los coches, ubicados a una distancia prudencial unos de otros, aumentan o disminuyen su velocidad a lo largo de su riel. Allí no se requieren conductores. Y no hay accidentes. Recuerdo la escena: cuando el parque de diversiones cerraba, el operador movía todos los coches desde su puesto de comando, hasta colocarlos uno detrás de otro, para cubrirlos con una lona. Era para mí, siendo niño, una mezcla de fascinación por ver cómo funcionaba el dispositivo completo, operado a distancia, y un sentimiento de haber sido engañado, al recordar que había montado de uno de esos coches, creyendo que era yo quien lo pilotaba.

La imagen de un mundo dirigido por un Dios que hace las veces de operador de la pista del parque de diversiones constituye una buena caricatura del universo determinista que supuso la ciencia durante largo tiempo. Uno regido por leyes inmutables, a cuyo conocimiento nos iríamos aproximando conforme redujéramos el error de nuestras mediciones. En este mundo poco tiene para aportar el enfoque bayesiano.

Bayes es útil en un mundo creado por un Dios, digamos, algo más creativo. Uno azaroso, incierto, y por tanto, variable. Para habitar este otro mundo, propone también Hacking, “todo lo que necesitamos es un modelo de cambio racional de nuestras creencias. Esto es suficiente para que seamos agentes racionales en un mundo cambiante”.

Nota al pie

La cual, con la información que manejamos es: