Por Jessica Kent
Octubre 02, 2020 – Si bien el potencial de la analítica de big data en la atención sanitaria ha sido bien documentado en innumerables estudios, los posibles riesgos que podrían derivarse del uso de estas herramientas han recibido la misma atención.
Las tecnologías de análisis de big data han demostrado ser prometedoras para mejorar múltiples áreas de la atención, desde el diagnóstico por imagen y la gestión de enfermedades crónicas hasta la salud de la población y la medicina de precisión. Estos algoritmos podrían aumentar la eficiencia de la prestación de cuidados, reducir las cargas administrativas y acelerar el diagnóstico de enfermedades.
A pesar de todo lo bueno que estas herramientas podrían lograr, el daño que estos algoritmos podrían causar es casi igual de grande.
Las preocupaciones sobre el acceso y la recopilación de datos, el sesgo implícito y explícito, y los problemas de confianza de los pacientes y los proveedores en las tecnologías de análisis han obstaculizado el uso de estas herramientas en la prestación diaria de cuidados.
Los investigadores sanitarios y las organizaciones de proveedores están trabajando para encontrar soluciones a estos problemas, facilitando el uso de la analítica de big data en la atención clínica para mejorar la calidad y los resultados.
Proporcionar datos de formación completos y de calidad
LEER MÁS: Cómo los modelos de Big Data Analytics pueden impactar en la toma de decisiones sanitarias
En la sanidad, se entiende ampliamente que el éxito de las herramientas de big data analytics depende del valor de la información utilizada para entrenarlas. Los algoritmos entrenados con datos inexactos y de baja calidad arrojarán resultados erróneos, lo que conducirá a una prestación de atención inadecuada.
Sin embargo, obtener datos de entrenamiento de calidad es un esfuerzo difícil y que requiere mucho tiempo, lo que deja a muchas organizaciones sin los recursos necesarios para construir modelos eficaces.
Los investigadores de todo el sector están trabajando para superar este desafío. En 2019, un equipo de la Biblioteca de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT desarrolló un sistema automatizado que puede recopilar más datos de imágenes utilizadas para entrenar modelos de aprendizaje automático, sintetizando un conjunto de datos masivo de ejemplos de entrenamiento distintos.
El conjunto de datos puede utilizarse para mejorar el entrenamiento de los modelos de aprendizaje automático, permitiéndoles detectar estructuras anatómicas en nuevas exploraciones.
«Esperamos que esto haga que la segmentación de imágenes sea más accesible en situaciones realistas en las que no se dispone de muchos datos de entrenamiento», afirma Amy Zhao, estudiante de posgrado del Departamento de Ingeniería Eléctrica y Ciencias de la Computación (EECS) y del CSAIL.
LEER MÁS: ¿Está la sanidad más cerca de alcanzar las promesas de la analítica de Big Data?
«En nuestro enfoque, se puede aprender a imitar las variaciones de las exploraciones no etiquetadas para sintetizar de forma inteligente un gran conjunto de datos para entrenar la red»
La actual crisis sanitaria también ha impulsado a los líderes sanitarios a desarrollar conjuntos de datos limpios y de calidad para el desarrollo de algoritmos. En marzo, la Oficina de Política Científica y Tecnológica de la Casa Blanca hizo un llamamiento a la acción para que los expertos construyeran herramientas de IA que pudieran aplicarse a un nuevo conjunto de datos COVID-19.
El conjunto de datos es una extensa colección de literatura sobre coronavirus legible por máquina, que incluye más de 29.000 artículos.
«Es difícil para la gente revisar manualmente más de 20.000 artículos y sintetizar sus hallazgos. Los recientes avances en la tecnología pueden ser útiles aquí», dijo Anthony Goldbloom, cofundador y director ejecutivo de Kaggle, una comunidad de aprendizaje automático y ciencia de datos propiedad de Google Cloud.
«Estamos poniendo versiones legibles por máquina de estos artículos frente a nuestra comunidad de más de 4 millones de científicos de datos. Nuestra esperanza es que la IA pueda utilizarse para ayudar a encontrar respuestas a un conjunto de preguntas clave sobre la COVID-19.»
Eliminar el sesgo en los datos y los algoritmos
LEER MÁS: Las estrategias de análisis de Big Data están madurando rápidamente en la atención sanitaria
A medida que las organizaciones sanitarias dependen cada vez más de los algoritmos de análisis para ayudarles a tomar decisiones de atención, es fundamental que estas herramientas estén libres de sesgos implícitos o explícitos que podrían impulsar aún más las desigualdades en materia de salud.
Con las disparidades existentes que impregnan la industria de la salud, el desarrollo de algoritmos impecables y libres de sesgos suele ser un desafío. En un estudio de 2019, investigadores de la Universidad de California Berkeley descubrieron un sesgo racial en una plataforma de análisis predictivo que remitía a los pacientes de alto riesgo a programas de gestión de la atención.
«Los algoritmos pueden hacer cosas terribles, o los algoritmos pueden hacer cosas maravillosas. Cuál de esas cosas hagan depende básicamente de nosotros», dijo Ziad Obermeyer, profesor asociado interino de política y gestión de la salud en la UC Berkeley y autor principal del estudio. «Cuando entrenamos un algoritmo tomamos muchas decisiones que parecen técnicas y pequeñas. Pero estas elecciones marcan la diferencia entre un algoritmo que es bueno o malo, sesgado o imparcial».
Para eliminar el sesgo de las herramientas de análisis de big data, los desarrolladores pueden trabajar con expertos y usuarios finales para entender qué medidas clínicas son importantes para los proveedores, dijo Philip Thomas, PhD, MS, profesor asistente en la facultad de información y ciencias de la computación en la Universidad de Massachusetts Amherst, a HealthITAnalytics.
«No estamos promoviendo cómo equilibrar la precisión frente a la discriminación. No estamos diciendo cuáles son las definiciones correctas de justo o seguro. Nuestro objetivo es dejar que la persona que es experta en ese campo decida», dijo.
Aunque la comunicación con los proveedores y los usuarios finales durante el desarrollo del algoritmo es extremadamente importante, a menudo este paso es sólo la mitad de la batalla. Recopilar los datos de alta calidad necesarios para desarrollar herramientas de análisis imparciales es una tarea difícil que requiere mucho tiempo.
Para acelerar este proceso, los investigadores de la Universidad de Columbia han desarrollado un algoritmo de aprendizaje automático que identifica y predice las diferencias en los efectos adversos de los medicamentos entre hombres y mujeres mediante el análisis de 50 años de informes en una base de datos de la FDA.
«En esencia, la idea es corregir los sesgos de género antes de realizar cualquier otro análisis estadístico mediante la construcción de un subconjunto equilibrado de pacientes con partes iguales de hombres y mujeres para cada medicamento», dijo Payal Chandak, estudiante de último año de informática biomédica en la Universidad de Columbia y la otra coautora del trabajo.
Desarrollar herramientas de calidad preservando la privacidad de los pacientes
En el desarrollo de algoritmos, la cuestión de la privacidad y la seguridad de los datos ocupa un lugar destacado en la lista de preocupaciones. Los obstáculos legales, de privacidad y culturales pueden impedir que los investigadores accedan a los grandes y diversos conjuntos de datos necesarios para entrenar las tecnologías de análisis.
Recientemente, un equipo de la Universidad de Iowa (UI) se propuso desarrollar una solución a este problema. Con una subvención de un millón de dólares de la Fundación Nacional de Ciencias (NSF), los investigadores de la UI crearán una plataforma de aprendizaje automático para entrenar algoritmos con datos de todo el mundo.
El grupo desarrollará una solución descentralizada y asíncrona llamada ImagiQ, que se basa en un ecosistema de modelos de aprendizaje automático para que las instituciones puedan seleccionar los modelos que mejor funcionan para sus poblaciones. Las organizaciones podrán cargar y compartir los modelos, no los datos de los pacientes, entre sí.
«Los métodos tradicionales de aprendizaje automático requieren una base de datos centralizada en la que se pueda acceder directamente a los datos de los pacientes para entrenar un modelo de aprendizaje automático», dijo Stephen Baek, profesor asistente de ingeniería industrial y de sistemas en la UI.
«Estos métodos se ven afectados por cuestiones prácticas como la privacidad de los pacientes, la seguridad de la información, la propiedad de los datos y la carga que suponen para los hospitales, que deben crear y mantener estas bases de datos centralizadas»
Investigadores de la Escuela de Medicina Perelman de la Universidad de Pensilvania también han desarrollado recientemente una solución para proteger la confidencialidad de los pacientes. En un estudio publicado en Scientific Reports, el equipo describió una nueva técnica que permite a los clínicos entrenar modelos de aprendizaje automático preservando la privacidad de los datos de los pacientes.
Utilizando un enfoque emergente llamado aprendizaje federado, los clínicos podrían entrenar un algoritmo a través de múltiples dispositivos o servidores descentralizados que contienen muestras de datos locales sin intercambiarlos.
«Cuantos más datos vea el modelo computacional, mejor aprenderá el problema y mejor podrá abordar la pregunta para la que fue diseñado», dijo el autor principal Spyridon Bakas, PhD, instructor de Radiología y Patología & Medicina de Laboratorio en la Escuela de Medicina Perelman de la Universidad de Pensilvania.
«Tradicionalmente, el aprendizaje automático ha utilizado datos de una sola institución, y luego se ha hecho evidente que esos modelos no rinden ni generalizan bien en datos de otras instituciones».»
Asegurar que los proveedores confían y apoyan las herramientas analíticas
Así como es esencial que los pacientes confíen en que los algoritmos analíticos pueden mantener sus datos seguros, es crucial que los proveedores confíen en que estas herramientas pueden ofrecer información de forma útil y fiable.
En un informe reciente de la Asociación Americana de Hospitales (AHA), la organización señaló que una forma en que las organizaciones podrían asegurar la confianza de los proveedores en estas herramientas es utilizar la IA para gestionar las cargas de trabajo insostenibles.
Además, los líderes podrían aprovechar las herramientas de IA para aumentar la toma de decisiones clínicas en el punto de atención, afirmó la AHA. Permitir que los proveedores revisen y perfeccionen las herramientas de IA también podría ayudar a garantizar que los médicos estén de acuerdo con la tecnología.
Investigadores del CSAIL del MIT también han trabajado para aumentar la confianza de los proveedores en las herramientas de análisis. Un equipo ha desarrollado recientemente una herramienta de aprendizaje automático que puede adaptar cuándo y con qué frecuencia se remite a los expertos humanos en función de factores como la disponibilidad y el nivel de experiencia del experto.
«Hay muchos obstáculos que, comprensiblemente, prohíben la automatización total en entornos clínicos, incluidos los problemas de confianza y responsabilidad», dijo David Sontag, profesor asociado Von Helmholtz de Ingeniería Médica en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación.
«Esperamos que nuestro método inspire a los profesionales del aprendizaje automático a ser más creativos en la integración de la experiencia humana en tiempo real en sus algoritmos.»
Cuando las organizaciones sanitarias aprovechan cada vez más las herramientas de análisis de big data para obtener mejores conocimientos y agilizar los procesos de atención, la superación de los problemas de sesgo, privacidad y seguridad, y la confianza de los usuarios será fundamental para el uso exitoso de estos modelos en la atención clínica.
A medida que la investigación siga evolucionando en torno a la IA, el aprendizaje automático y otros algoritmos de análisis, el sector seguirá perfeccionando estas herramientas para mejorar la atención al paciente.