Estetoscopios en remojo: respuestas dadas por chatbot a consultas online resultaron más empáticas que las de doctores

“Algo anda mal en la medicina”, decía parafraseando al Hamlet de Shakespeare el médico Álvaro Díaz Berenguer en la introducción de su libro El narcisismo en la medicina contemporánea, editado en 2010. Allí agregaba una frase del expresidente estadounidense Bill Clinton, que habría dicho ante la Asociación Americana de Medicina que “algo anda mal cuando los médicos pasan más tiempo con el contador que con sus pacientes”.

Para Álvaro la frase del exmandatario ponía de manifiesto un problema que ya entonces, en 2010, era “una realidad dolorosa” también en nuestro país: “La pérdida de confianza en el médico que surge al dar por supuesto que pone más interés en los aspectos económicos, administrativos y comerciales que en ayudar al prójimo”. Esta percepción, según Álvaro, tenía “un trasfondo de verdad” y además afirmaba que la medicina estaba “trastornada por la interferencia de factores vinculados con los profundos cambios de las últimas décadas que han alejado al médico de su paciente y que se acompaña de la expansión de los intereses individuales frente a los del congénere”.

En la sociedad contemporánea “la figura del otro ha desaparecido como referencia moral, y más que un fin en sí mismo, el otro es un medio para conseguir otras cosas”, nos decía Álvaro al entrevistarlo en 2010 respecto de su libro. Pero cuidado: ese cambio del que hablaba no afectaba sólo a los médicos y médicas, sino también a los pacientes, que entran a la consulta con una actitud del tipo solucioname-el-problema-porque-yo-soy-quien-te-está-pagando-el-sueldo. “De lo que trata el libro es de la influencia de la sociedad en el ámbito de una relación humana particular, que es la relación entre médico y paciente”, afirmaba, agregando que esas relaciones se han mercantilizado. “Entonces el que da el servicio, en vez de darlo porque tenía una vocación, está pensando en la remuneración. Y la otra persona está exigiendo como quien compra un paquete de fideos y exige que no venga con gusanos adentro. La medicina está deshumanizada como lo está la sociedad”, remataba.

Para entonces estábamos en 2010. Faltaba una década para la llegada de la pandemia, que impactaría aún más en la relación entre médicos y pacientes, y de los chats que, utilizando inteligencia artificial y aprendizaje automatizado, podrían generar textos que en coherencia y gramática podrían hacerse pasar como escritos por humanos. Recordar los textos de Álvaro Díaz y pensar qué sería una medicina menos deshumanizada es pertinente al leer el artículo “Comparación de respuestas de médicos y chatbots de inteligencia artificial a preguntas de pacientes publicadas en un foro público de redes sociales”. Curiosamente, el artículo salió publicado en una revista que pertenece a la Asociación Americana de Medicina, la misma a la que se dirigió Bill Clinton diciendo que había problemas. Así que hablemos de medicina, inteligencia artificial y el mundo que queremos mientras vemos pormenores de lo que dice este artículo.

¿Por qué recurrir a ChatGPT?

Hablar de ChatGPT está de moda. Mientras hay gente que se maravilla y otra que anuncia un cataclismo civilizatorio, un grupo de médicos de Estados Unidos, liderados por John Ayers, del Instituto Qualcomm de la Universidad de California, se propusieron explorar el tema para ver si ayudaba a resolver un intríngulis.

Según dicen en el trabajo, la pandemia “aceleró la adopción de la atención médica virtual, concomitante con un aumento de 1,6 veces en los mensajes electrónicos de pacientes, agregando cada mensaje 2,3 minutos de trabajo en el registro de salud electrónico y más trabajo fuera de horario”. A eso suman que mientras 62% de los médicos de Estados Unidos han reportado al menos un síntoma de agotamiento (burnout el término) el pasado año, todo indica que un aumento de los mensajes no hará más que empeorar ese número ya de por sí elevado.

Sobre los mensajes de los pacientes, sostienen que algunos consisten en “preguntas que solicitan asesoramiento médico, cuya respuesta también requiere más habilidad y tiempo que los mensajes genéricos” como podrían ser agendar una consulta o acceder a los resultados de análisis. Para frenar un poco esta andanada de mensajes, allá en el norte han incursionado por varias alternativas, desde cobrar por mensaje, limitar su cantidad o hacer que los responda “personal asistente menos calificado”, lo que, a entender de los autores del artículo, podría “limitar el acceso a la atención de salud de calidad”. ¿Y entonces? “Los asistentes de inteligencia artificial son un recurso inexplorado para abordar la carga de mensajes”, dicen, y entonces entra en escena ChatGPT.

“ChatGPT representa una nueva generación de tecnologías de inteligencia artificial impulsadas por avances en modelos de lenguajes extensos”, definen. Agregan que ese chat programado para responder como si fuera un humano (de ahí chatbot, de chat + robot) de la empresa OpenIA “llegó a 100 millones de usuarios dentro de los 64 días posteriores a su lanzamiento, el 30 de noviembre de 2022”, y que es “ampliamente reconocido por su capacidad para escribir texto de calidad casi humana sobre una amplia gama de temas”. ¿Serviría para auxiliar en contestar estos mensajes pese a no haber sido desarrollado para brindar atención médica? Eso es lo que se propusieron averiguar.

¿Cómo fue la competencia entre ChatGPT y los médicos de carne y hueso?

Con el objetivo de probar “la capacidad de ChatGPT para responder con respuestas empáticas y de alta calidad a las preguntas de atención médica de los pacientes”, los investigadores buscaron la mejor manera de hacerlo. La idea es sencilla: buscaron un lugar en línea donde hubiera preguntas médicas realizadas por personas y que hubieran sido respondidas por médicos. “Por razones de necesidad, practicidad y para potenciar el desarrollo de una base de datos de preguntas de los pacientes que se pueda compartir y que esté disponible rápidamente, recopilamos las preguntas del público y pacientes y las respuestas de los médicos publicadas en un foro en línea”.

El foro que eligieron fue el de “Pregúntele a un doctor”, del sitio Reddit. Allí tenían preguntas reales de gente real y respuestas reales dadas por médicos certificados (los moderadores del foro marcan las respuestas que dan aquellos usuarios que acreditan sus saberes médicos, y que también puede responder cualquier usuario del foro), así que seleccionaron 195 preguntas con sus correspondientes 195 respuestas de profesionales de la salud formuladas durante octubre de 2022. Pacientes y humanos a bordo, luego fueron por la inteligencia artificial.

Las mismas 195 preguntas formuladas por los usuarios del foro fueron ingresadas en sesiones con ChatGPT, en su versión 3,5, durante el 22 y el 23 de diciembre de 2022. Las respuestas brindadas por el chat fueron guardadas. Inteligencia artificial a bordo. ¿Y ahora? A comparar.

“La pregunta original, la respuesta del médico y la respuesta del chatbot fueron revisadas por tres miembros de un equipo de profesionales de la salud con licencia que trabajan en pediatría, geriatría, medicina interna, oncología, enfermedades infecciosas y medicina preventiva”, señala el trabajo. Para que no hubiera interferencias que arruinaran los resultados –¡los humanos se dejan interferir mucho!– “las respuestas se ordenaron al azar como respuesta 1 o 2”, ya fueran humanas o no, y sacando “información reveladora”, como por ejemplo las frases del tipo “soy una inteligencia artificial” con las que ChatGPT suele arrancar sus peroratas, con el objetivo de “cegar a los evaluadores a la identidad del autor” –¡los humanos ven cosas que no deben!–. Sin embargo, he aquí uno de los grandes problemas de este trabajo: los cinco evaluadores eran médicos (y terminaron siendo autores del artículo). Ya retomaremos este obstáculo. Pero ahora vemos qué se les pidió a los tres evaluadores de cada una de las duplas para las 195 preguntas.

“Se instruyó a los evaluadores para que leyeran toda la pregunta del paciente y ambas respuestas antes de responder a las preguntas sobre la interacción”, señalan. “Primero, se preguntó a los evaluadores “qué respuesta es mejor”, si la 1 o la 2. Más adelante, se les pidió que puntuaran las respuestas del 1 al 5 (muy mala, mala, aceptable, buena o muy buena), “la calidad de la información brindada”, así como “la empatía o trato brindado” (en este caso, no empático, levemente empático, moderadamente empático, empático y muy empático). Los humanos entonces juzgaron las respuestas de sus colegas reales y del chatbot. Por otro lado, los investigadores midieron la cantidad de palabras escritas tanto por humanos como por ChatGPT. ¿Qué sucedió entonces?

Mejores respuestas y más empáticos

Las cosas no pintan bien para los médicos humanos. De las 585 evaluaciones (tres evaluaciones para cada una de las 195 respuestas) los evaluadores humanos prefirieron mayormente (78%) las respuestas del chatbot a las de los médicos. No sólo eso, también dijeron que fueron de mejor calidad: la calificación media de las respuestas del chatbot fue de 4,13, es decir, mejor que buena, mientras que el promedio de las respuestas de los médicos del foro fue de 3,26 puntos, es decir, aceptable. Otro dato: 27,2% de las respuestas de los médicos de carne y hueso fueron calificadas de menos que aceptables, mientras que ese porcentaje en el chatbot fue de apenas 2,6%. Finalmente a este respecto, el trabajo señala que “la proporción de respuestas calificadas de buena o muy buena calidad fue mayor para el chatbot que para los médicos”, siendo 78,5% y 22,1%, respectivamente, lo que “representó una prevalencia 3,6 veces mayor de respuestas buenas o muy buenas para el chatbot”.

Bien. La inteligencia artificial maneja grandes volúmenes de información con mayor rapidez... pero no tiene sentimientos. Seguro que en la empatía los médicos superaron al chatbot. Pero no: “Las respuestas del chatbot se calificaron significativamente más empáticas que las respuestas de los médicos”, reportan. En efecto, las respuestas del ChatGPT obtuvieron en promedio 3,65 puntos en esta categoría, mientras que los médicos humanos promediaron apenas 2,15 puntos. “Las respuestas de los médicos fueron 41% menos empáticas que las respuestas del chatbot, lo que generalmente equivalía a que las respuestas de los médicos eran ligeramente empáticas y las del chatbot empáticas”. O, dicho con otros números, “la proporción de respuestas calificadas de empáticas o muy empáticas fue mayor para el chatbot que para los médicos”, lo que implica 45,1% y 4,6%, respectivamente. “Esto representó una prevalencia 9,8 veces mayor de respuestas empáticas o muy empáticas para el chatbot”, reportan. Glup. O no tan glup: si la medicina está deshumanizada, hasta una inteligencia artificial puede simular que le interesa más el paciente –en un foro, aclaremos– que un médico humano.

Al analizar el largo de las repuestas, los médicos cumplieron con el estereotipo de, además de no ser muy empáticos, ser extremadamente parcos: las respuestas de los humanos fueron más cortas, con un promedio de 52 palabras, contra un promedio de 211 palabras de parte de ChatGPT.

Por todo esto, los investigadores concluyen que en su estudio “un chatbot generó respuestas empáticas y de calidad a las preguntas de pacientes planteadas en un foro en línea”, así como también que “los evaluadores del estudio, profesionales de la atención médica, prefirieron las respuestas generadas por el chatbot a las respuestas de los médicos en una relación de 4 a 1”. Por todo eso, los autores afirman que “se justifica una mayor exploración de esta tecnología en entornos clínicos, como el uso de chatbot para redactar respuestas que luego los médicos podrían editar”, aunque aclaran que hacen falta más “ensayos aleatorizados” para evaluar mejor “si el uso de asistentes de inteligencia artificial podría mejorar las respuestas, reducir el agotamiento de los médicos y mejorar los resultados de los pacientes”.

Prontos, listos, reflexiones

Al leer los resultados pueden sacarse conclusiones rápidas y livianas. Para quienes piensen que los médicos son personas frías que no dan bola a las personas que tienen delante, este trabajo puede usarse como ciencia que confirma una apreciación de la vida cotidiana. Para quienes hablan loas de la inteligencia artificial, la publicación sería una muestra más de qué tan maravillosa es esta tecnología y qué tan cerca está de ser como somos y hacer lo que hacemos (quedándose hasta con trabajos tan calificados como asesorar en medicina a una persona preocupada). Pero lo cierto es que este trabajo no debería usarse ni para uno ni para lo otro.

Los autores, más allá de que tienen un sesgo propio del lugar donde están y la medicina que allí se ejerce, son cautos. Dicen cosas como la siguiente: “No sabemos cómo responderán los chatbots a las preguntas de los pacientes en un entorno clínico”. También señalan que “el presente estudio debería motivar la investigación sobre la adopción de asistentes de inteligencia artificial para la mensajería” y proponen que “los chatbots podrían ayudar a los médicos cuando se comunican con los pacientes, al redactar un mensaje basado en la consulta del paciente para que los médicos o el personal de apoyo lo editen”, lo que podría ayudar a “desbloquear la productividad sin explotar para que el personal clínico pueda usar el ahorro de tiempo para tareas más complejas”. Volviendo al principio y a Álvaro Díaz Berenguer, los chatbots podrían ayudar a los médicos a sacarse de encima las preguntas molestas de los pacientes de manera de poder dedicarse a lo que verdaderamente importa... como si esa interacción con el paciente no fuera el centro mismo de la medicina.

Los investigadores igual no son tan ingenuos y listan una serie de limitaciones del trabajo. Por ejemplo, dicen que “la principal limitación del estudio fue el uso de un foro en línea de intercambio de preguntas y respuestas. Es posible que dichos mensajes no reflejen las preguntas típicas entre el médico y el paciente”, así que, señor encargado de personal de una mutualista, no utilice este trabajo para su próxima tanda de despidos.

También señalan como limitación que “los evaluadores del estudio, a pesar de estar cegados a la fuente de las respuestas y cualquier resultado inicial, también eran coautores, lo que podría haber sesgado sus evaluaciones”. Y en este punto, la verdad, el castillo de naipes se derrumba bastante. Porque sin que ninguno de ustedes o yo tengamos la velocidad de análisis de una inteligencia artificial, es evidente que las respuestas humanas y las de ChatGPT son identificables a cuadras de distancia.

ChatGPT tiene una gran tendencia a la perorata. Los médicos, a ser (bastante) concisos. Les muestro un ejemplo de respuestas sobre un paciente que preguntaba si tenía “riesgo de morir” tras tragarse un escarbadientes y apuesto mi próximo sueldo a que todos ustedes identificarán quién (o qué) escribió cuál.

Respuesta 1: “Si ha superado las 2-6 h, es probable que haya pasado a sus intestinos. Lo que significa que no se puede recuperar fácilmente. Muchas personas pueden tragar hojas de afeitar y palillos de dientes sin problemas. En caso de que desarrolle dolor de estómago, no dude en buscar una sala de emergencias y recuerde señalar el escarbadientes que se tragó. Por ahora, no le hará mucho”.

Respuesta 2: “Es natural preocuparse si ha ingerido un objeto extraño, pero en este caso, es muy poco probable que el palillo que tragó le cause algún daño grave. Los escarbadientes están hechos de madera, que no es tóxica y no causará envenenamiento. Sin embargo, es posible que un escarbadientes cause lesiones si se atasca en la garganta o si perfora el tracto digestivo. Sin embargo, es poco probable que esto suceda con un palillo cocido y desafilado de solo dos centímetros de largo. Si experimenta alguna molestia o síntoma como dolor abdominal, dificultad para tragar o vómitos, es importante que se comunique con un proveedor de atención médica para una evaluación adicional. Sin embargo, si no experimenta ningún síntoma, es seguro asumir que el palillo ha pasado a través de su sistema digestivo y no necesita preocuparse. Siempre es una buena idea tener cuidado al consumir alimentos y quitar cualquier objeto extraño antes de comer. Es comprensible que te sientas paranoico, pero trata de no preocuparte demasiado. Es muy poco probable que el palillo te cause algún daño grave”.

¡Hablame de “cegar a los evaluadores a la identidad del autor”! ¡Ninguna persona dedica tanto tiempo escribiendo cada cosa que leyó sobre un tema ante una consulta rápida en un foro! ¿Por qué habría de ser distinto un médico? ¿Qué se está midiendo acá? ¿Acaso que el tiempo del ChatGPT vale distinto? La respuesta 2, del bot, obviamente, fue preferida por 100% de los médicos que evaluaron las respuestas y se consideró más empática. Siendo los evaluadores también médicos, aquí hay un dato alarmante: ¿qué nos dice que médicos, que el propio trabajo revela que tienden a ser menos empáticos, consideren que un chatbot es más empático que un colega? ¿Acaso no debería importar, en el caso de la empatía, lo que dirían pacientes humanos? Si la inteligencia artificial es tan buena aprendiendo, ¿no se equivocó al contestar de una forma tan distinta a la que lo hicieron los médicos humanos?

Todo esto nos lleva al fondo del asunto. Y allí la inteligencia artificial no pincha ni corta. ¿Hay médicos que no tienen tiempo de atender a sus pacientes (por el medio que sea)? ¿Hay pacientes que no logran acceder a un médico que tenga tiempo para atenderlos?

“La relación médico-paciente está compuesta por seres humanos que tienen una riqueza particular que no se agota en su consideración como objetos científicos, punto de discordia en la medicina actual. La intervención de la fe, de la esperanza, de la necesidad del otro, de las imposiciones del pensamiento mágico, de las supersticiones, de la angustia, del miedo y otros sentimientos hacen de la relación médico-paciente algo sólo comprensible cuando nos introducimos en el problema, desprovistos del carácter de observador para ser parte del problema mismo. No se puede tratar adecuadamente a un paciente sin involucrarse, sin infundirle a la vez y en grados variables, seguridad y temor. Es mentira que se puede hacer medicina aséptica de sentimientos, basada exclusivamente de aspectos científicos”, decía Álvaro Díaz Berenguer en su mencionado y recomendado libro.

“Vivimos en una sociedad que ha perdido la fe en el otro, en su calidad de prójimo, de existencia paralela confiable, base de la integración social, lo que corroe el fundamento mismo de la ética. También está en crisis la razón, como herramienta fundamental para alcanzar la verdad que depende en última instancia de mi relación con el congénere: se revive un período de oscurantismo en donde la verdad surge de la imposición de los deseos individuales, al mismo tiempo que en paralelo se desarrolla la ciencia por unos pocos. Se ha perdido la verdad como producto del conjunto, para convertirse en algo que se posee en soledad”, señalaba. Sólo una humanidad completamente deshumanizada es capaz de mirar con esperanza que un algoritmo evacue las dudas de un ser humano que no se está sintiendo bien.

Artículo: Comparing Physician and Artificial Intelligence Chatbot Responses to Patient Questions Posted to a Public Social Media Forum
Publicación: JAMA Internal Medicine (abril de 2023)
Autores: John Ayers, Adam Poliak, Mark Dredze et al.