Google y empresas emergentes como Qure.ai, Aidoc y DarwinAI están desarrollando inteligencia artificial y sistemas de aprendizaje automático que clasifican las radiografías de tórax para ayudar a identificar afecciones como fracturas, pulmones colapsados y fracturas. Varios hospitales, incluido Mount Sinai, han estado experimentando con algoritmos de visión por computadora que analizan escaneos de pacientes con el nuevo coronavirus. Pero la investigación de la Universidad de Toronto, el Vector Institute y el MIT revela que los conjuntos de datos de rayos X de tórax utilizados para entrenar modelos de diagnóstico muestran un desequilibrio, polarizándolos contra ciertos grupos de género, socioeconómicos y raciales.
En parte debido a la renuencia a publicar códigos, conjuntos de datos y técnicas, gran parte de los datos que se utilizan hoy en día para entrenar algoritmos de IA para el diagnóstico de enfermedades pueden perpetuar las desigualdades. Un equipo de científicos británicos descubrió que casi todos los conjuntos de datos de enfermedades oculares provienen de pacientes en América del Norte, Europa y China, lo que significa que es menos probable que los algoritmos de diagnóstico de enfermedades oculares funcionen bien para grupos. raciales de países subrepresentados. En otro estudio, investigadores de la Universidad de Stanford dijeron que la mayoría de los datos estadounidenses para los estudios que involucran usos médicos de la IA provienen de California, Nueva York y Massachusetts. Un estudio sobre un algoritmo del grupo UnitedHealth determinó que podría subestimar a la mitad el número de pacientes negros que necesitan más atención. Y un creciente cuerpo de trabajo sugiere que los algoritmos de detección de cáncer de piel tienden a ser menos precisos cuando se usan en pacientes negros, en parte porque los modelos de IA se forman principalmente a partir de imágenes de pacientes de piel clara.
Los coautores de este último artículo buscaron determinar si los clasificadores de IA de última generación formados en conjuntos de datos de imágenes médicas públicas eran justos en todos los subgrupos de pacientes. Analizaron específicamente MIMIC-CXR (que contiene más de 370.000 imágenes), CheXpert de Stanford (más de 223.000 imágenes), Chest-Xray de los Institutos Nacionales de Salud de EE. UU. más de 129.000 pacientes combinados están etiquetados con el sexo y el grupo de edad de cada paciente. MIMIC-CXR también tiene datos sobre raza y tipo de seguro; Excluyendo 100,000 imágenes, el conjunto de datos especifica si los pacientes son asiáticos, negros, hispanos, blancos, nativos americanos u otros y si están cubiertos por Medicare, Medicaid o un seguro privado.
Después de proporcionar a los clasificadores conjuntos de datos para demostrar que lograron un rendimiento de clasificación cercano al estado de la técnica, lo que descartó la posibilidad de que cualquier disparidad simplemente reflejara un rendimiento general deficiente, los investigadores calcularon e identificaron las disparidades entre etiquetas, conjuntos de datos y atributos. Descubrieron que los cuatro conjuntos de datos contenían patrones “significativos” de sesgo y desequilibrio, y que las pacientes mujeres sufrían la mayor disparidad a pesar de que la proporción de mujeres era solo ligeramente inferior a la de los hombres. Los pacientes blancos, la mayoría con el 67,6% de todas las imágenes de rayos X, fueron el subgrupo más favorecido, donde los pacientes hispanos fueron los menos favorecidos. Y hubo sesgos sobre los pacientes asegurados por Medicaid, la población minoritaria con solo el 8,98 por ciento de las imágenes de rayos X. Los clasificadores a menudo les daban a los pacientes de Medicaid diagnósticos erróneos.
Los investigadores señalan que su estudio tiene limitaciones derivadas de la naturaleza de las etiquetas en los conjuntos de datos. Cada etiqueta se extrajo de los informes de radiología utilizando técnicas de procesamiento del lenguaje natural, lo que significa que algunas de ellas podrían haber estado equivocadas. Los coautores también admiten que la calidad de los propios dispositivos de imágenes, la región de la recopilación de datos y las características demográficas de cada sitio de recopilación pueden haber confundido los resultados.
Sin embargo, afirman que incluso la implicación del sesgo es suficiente para justificar una mirada más cercana a los conjuntos de datos y modelos entrenados en ellos. “Los subgrupos con infradiagnóstico crónico son los que experimentan los determinantes sociales más negativos de la salud, en particular, las mujeres, las minorías y los de nivel socioeconómico bajo. Estos pacientes pueden utilizar los servicios de salud menos que otros “, escribieron los investigadores.” Hay varias razones por las que el conjunto de datos puede inducir disparidades en los algoritmos, desde conjuntos de datos desequilibrados hasta diferencias en el ruido estadístico en cada grupo para diferencias en el acceso a la atención médica para los pacientes de diferentes grupos … Aunque las técnicas de “eliminación de sesgos” pueden reducir las disparidades, no deben ignorar los importantes sesgos inherentes a los grandes conjuntos de datos públicos existentes. “
Más allá de los desafíos básicos de los conjuntos de datos, los clasificadores sin suficiente revisión por pares pueden enfrentar obstáculos inesperados cuando se implementan en el mundo real. Los científicos de Harvard descubrieron que los algoritmos entrenados para reconocer y clasificar las tomografías computarizadas podrían sesgarse a los formatos de escaneo de algunos fabricantes de máquinas de tomografía computarizada. Mientras tanto, un libro blanco publicado por Google reveló desafíos en la implementación de un sistema de predicción de enfermedades oculares en hospitales tailandeses, incluidos problemas con la precisión del escaneo. Y los estudios de compañías como Babylon Health, una startup de telemedicina bien financiada que afirma poder clasificar una variedad de enfermedades a partir de mensajes de texto, han sido cuestionados repetidamente.
Los investigadores de este estudio recomiendan que los profesionales apliquen un análisis de equidad “riguroso” antes de la distribución como una solución al sesgo. También sugieren que las renuncias claras sobre el proceso de recopilación del conjunto de datos y el sesgo algorítmico potencial resultante podrían mejorar las evaluaciones para el uso clínico.
El problema del audio:
Descubra cómo las nuevas soluciones de API basadas en la nube resuelven el audio frustrante y defectuoso en las videoconferencias. Entre aquí