Aplicación de técnicas de minería de datos para la identificación de factores de envejecimiento sano y patológico
En este breve comentario primero se aportan unas definiciones necesarias para fijar los conceptos, en particular, Big Data y Machine Learning. A continuación se hace un breve estado del arte comentando algunos avances relevantes de dichas técnicas en el amplio sector de la biomedicina, para acabar con una notas finales acerca de la aplicación y uso de técnicas de Machine Learning en el estudio del envejecimiento en estudios poblacionales. Se mencionan además modelos predictivos de demencia tardía utilizando un índice de riego de enfermedad.
Definiciones
El término Big Data se refiere a datos que cuentan con características que les hacen inapropiados para ser tratados con técnicas tradicionales de procesamiento de datos. Aunque no existe una especificación formal que distinga entre Big Data vs Non Big Data, la complejidad es sin duda el factor determinante. Aunque existe una definición matemática de complejidad algorítmica [1], el término complejidad tiende a usarse de forma liberal, pudiendo significar cosas muy distintas en función del contexto.
Big Data también puede entenderse como disciplina o marco metodológico en el que se hace uso de técnicas predictivas en conjuntos de datos (datasets) de gran complejidad, dicha complejidad puede residir en al menos tres dimensiones: tamaño (número de filas x número de columnas), heterogeneidad (variabilidad en los tipos de datos) y velocidad (frecuencia con la que nuevos datos se añaden). El aprendizaje automático (machine learning) es, en esencia, una forma de estadística aplicada que trata fundamentalmente de estimar funciones complicadas. Cabe notar que ésto lo diferencia de la estadística inferencial clásica que trata de proporcionar intervalos de confianza en torno a esas funciones. El aprendizaje automático no sólo es interesante desde el punto de vista de la ingeniería (fabricar un sistema con un comportamiento deseado), sino también desde el punto de vista de la psicología, pues el aprendizaje automático (machine learning) sigue un enfoque basado en principios de funcionamientos inspirados en los procesos que subyacen a la inteligencia humana.
Estado del Arte en Machine Learning en Bio medicina
Los datos biomédicos son notoriamente complejos y difíciles de interpretar. Las técnicas de Inteligencia Artificial (IA) han demostrado ser de gran ayuda en la interpretación de datos multidimensionales. Por ejemplo: la proteómica (estudio a gran escala de estructura y función de proteínas), el procesamiento de imágenes médicas, el descubrimiento de fármacos o los estudios de asociación genómica (GWAS) son sólo algunas de las aplicaciones más destacadas del aprendizaje automático a las que nos referiremos brevemente en el resto de esta sección.Los algoritmos de aprendizaje automático en proteómica tienen como entrada la secuencia de aminoácidos y su objetivo es predecir, por ejemplo, la estructura de la proteína [2].
Podría decirse que la imagen médica es la aplicación más efectiva de las técnicas de aprendizaje automático en biomedicina. La razón es doble, primero la IA se viene empleando desde sus orígenes en tareas relacionadas con el reconocimiento de imágenes, tales como la detección de objetos, seguimiento o la clasificación. Estas tareas fueron adaptadas y reutilizadas de forma exitosa en el contexto de la imagen médica. En segundo lugar, las redes neuronales convolucionales (CNN) [3], [4], [5] han demostrado ser una arquitectura de gran efectividad gracias al uso de sucesivos filtros (kernel) convolutivos. En matemáticas, una convolución es una operación de dos funciones que produce una tercera que viene a expresar el efecto de aplicar uno de los operadores a modo de filtro. Por ejemplo, un filtro matriz de convolución usaría una primera matriz que sería la imagen a filtrar mediante otra matriz kernel para finalmente conseguir el efecto deseado, por ejemplo detectar los bordes de la imagen.
Las redes neuronales convolucionales y otros algoritmos de aprendizaje profundo han superado en algunos casos a los expertos humanos, por ejemplo, en un estudio reciente publicado en JAMA, algoritmos de aprendizaje profundo fueron capaces de diagnosticar el cáncer de mama metastásico de forma mas óptima que un grupo de radiólogos expertos [6]. En otro estudio reciente [7] los investigadores entrenaron una CNN para identificar infecciones bacterianas potencialmente letales con una tasa de precisión del 95 por ciento.
Un enfoque novedoso y prometedor para el descubrimiento de fármacos - relación cuantitativa estructura-actividad (QSAR) y las predicciones de bioactividad basadas en ligandos- consiste en el uso de redes neurales profundas (DNN) para predecir la bioactividad de determinadas moléculas [8]. La cuestión más apremiante en genética es modelar la interacción genotipo-fenotipo. Las redes neurales profundas (DNN) están a la vanguardia de la próxima generación de tecnologías de secuenciación. Las DNNs pueden ser entrenadas utilizando tanto la secuencia del genoma como los perfiles moleculares para predecir el efecto de la variante genética. Los DNNs también pueden utilizarse con datos de mutagénesis los que, sin embargo, son más costosos de obtener. La secuenciación genética de segunda generación podría cambiar ésto [9].
Ensayos de secuenciación masiva y en paralelo podrían en un futuro próximo medir los efectos funcionales de la variación genética en genes humanos, superando el problema de las "variantes de significado incierto". La dificultad para predecir las consecuencias de las variantes individuales dentro de los genes implicados es el núcleo del problema, mientras que una salida plausible es hacer uso del enorme poder computacional disponible hoy en día para cuantificar el riesgo de todas las variantes potenciales, por ejemplo, en los genes que se cree predisponen a desarrollar cáncer.
Finalizamos esta sección comentando avances con una muy estrecha relación con las técnicas y objetivos de este Subprograma. Aunque aplicación del aprendizaje automático para el diagnóstico precoz de los trastornos neurodegenerativos está en sus fases iniciales, el progresivo avance y posterior implantación en el ámbito clínico es inevitable además de deseable [10]. La enorme cantidad, heterogeneidad y complejidad de los conjuntos de datos recolectados desafía la capacidad humana de evaluación cualitativa. A pesar del inexorable avance en la calidad del diagnóstico basado en la IA, especialmente en imagen médica, todavía existe la idea que la predicción humana es el estándar contra el que medir la calidad de los diagnósticos y demás predicciones. Esta creencia necesita ser reevaluada y reformulada si se comprueba que no se corresponde con los hechos. Por ejemplo, en [11] análisis postmortem de autopsias mostró graves errores de diagnóstico cometidos por radiólogos entrenados hasta en un 20 % de los casos. Por último cabe reseñar que este tipo de herramientas asistidas por IA no sólo podrían proporcionar diagnósticos más precisos, sino también aliviar la escasez de personal en ciertas áreas con gran demanda de profesionales como los microbiólogos clínicos (Figura 1, Figura 2).
Figura 1. Distintos niveles de automatización a esperar en la medicina y el tratamiento clínico. El objetivo último es combinar los puntos fuertes de los profesionales clínicos y la IA, no reemplazar humanos por máquinas [12].
Figura 2. La figura muestra los avances de las técnicas de IA en diversos campos. En rojo, aplicaciones en las que la IA consigue mejores resultados que humanos, por ejemplo detectar autismo o neumonía. En verde aplicaciones en los que los humanos siguen siendo mejores que la IA y en colores entre rojo y verde aplicaciones donde aún no hay un claro ganador [13].
Machine Learning y Big Data para la predicción de la enfermedad de Alzheimer
Los centenarios son la prueba viviente de que la enfermedad de Alzheimer y otras formas de demencia senil no son parte del envejecimiento normal. La pregunta que debemos hacernos es: ¿Puede un estilo de vida saludable ayudar a prevenir la enfermedad de Alzheimer? Y si es así, ¿Podemos predecir la demencia basándonos en factores modificables como la dieta, el ejercicio, los hábitos de sueño, etc.?
Estudios poblacionales como el realizado en el Proyecto Vallecas representan una formidable oportunidad para la prevención y mejora de la atención. Los estudios epidemiológicos y poblacionales tienen como objetivo integrar la evidencia disponible dentro de un marco que pueda ser extrapolado a toda la población. Los estudios de población, a diferencia de los estudios clínicos que se basan en uno o unos pocos casos, estudian la distribución de las condiciones de salud y enfermedad en las poblaciones.
Para que los estudios de población sean efectivos, en lugar de buscar una sola característica de la enfermedad, deben centrarse en la complejidad y heterogeneidad de las pruebas recopiladas. Es importante destacar que los estudios epidemiológicos suelen tener en cuenta la variación temporal de la muestra, es decir, la recopilación de información de expande a lo largo de diferentes puntos temporales puede ayudarnos a caracterizar patrones y trayectorias de salud/enfermedad aplicables a toda la población.
Existe evidencia en estudios epidemiológicos que muestran que el envejecimiento sin demencia es posible [14], [15]. Curiosamente, como se muestra en [16] la prevalencia de la enfermedad de Alzheimer y la demencia vascular aumentan con la edad, pero menos después de los 90 años. Además, el Framingham Heart Study [17] muestra que la incidencia de la demencia en los países desarrollados ha disminuido en los últimos años. Esencialmente esto nos viene a decir que el riesgo de demencia en la vejez es hasta cierto punto modificable [18]. Sin embargo, la opinión de que la demencia está disminuyendo en los países occidentales no es unánime, un estudio epidemiológico a gran escala en países de Europa occidental (Suecia, los Países Bajos, el Reino Unido[Inglaterra] y España) mostró cambios no significativos o una reducción muy pequeña en la incidencia global de la demencia durante los últimos 20 años [19].
El Informe de la Asociación de Alzheimer 2017 destaca que entre 2000 y 2014, las muertes por accidente cerebrovascular se redujo en un 21%, enfermedad cardíaca - 14% y el cáncer de próstata -9%, mientras que las muertes por EA aumentaron +89%. La tendencia en la incidencia de la EA en los países desarrollados - positiva (aumento) o negativa (disminución)- aún debe ser dirimida, en cualquier caso, hay cada vez más indicios de que las estrategias de intervención que abordan el bienestar en general y la salud vascular en particular, incluyendo una dieta saludable, ejercicio físico, así como el aumento de la reserva cognitiva, contribuyen al envejecimiento libre de demencia [20]. En cualquier caso, cabe resaltarse que no existe una teoría de envejecimiento cerebral, se trata sin duda de un objetivo muy ambicioso.
El objetivo final de una caracterización mecanicista satisfactoria del envejecimiento cerebral en la población humana parece aún lejano. La selección de biomarcadores significativos de la EA requiere la integración de toda la evidencia disponible dentro de un corpus teórico que tenga poder predictivo [21].
Una vía prometedora es la construcción de modelos de predicción de riesgos con técnicas de aprendizaje automático. El estudio poblacional finlandés CAIDE [22], construyó un modelo predictivo de demencia tardía utilizando un índice de riego de enfermedad. En un nuevo estudio basado en la población australiana [23], se desarrolló el índice LIfestyle for BRAIN health (LIBRA) para cuantificar el riesgo de conversión a demencia. De forma similar al Vallecas Index que están siendo desarrollando en la Fundación CIEN, el índice LIBRA se centra en los factores modificables de riesgo y protección que pueden ser abordados en sujetos de mediana edad. En Taiwan se ha realizado un estudio con un gran tamaño de muestra (27540 pacientes de diabetes tipo 2 de entre 50 y 94 años de edad [24]. Estudios previos mostraron que los pacientes con diabetes tipo 2 tienen el doble de probabilidad de desarrollar demencia [25]. Exalto et al. [26] crearon una puntuación de riesgo de demencia basada en una serie de factores: enfermedad microvascular, pie diabético, enfermedad cerebrovascular, enfermedad cardiovascular, eventos metabólicos agudos, depresión, edad y educación. El estudio asumió de manera poco realista que la puntuación de riesgo de demencia es una función lineal de esas características. Otras puntuaciones de riesgo para la demencia se pueden encontrar en [27], un estudio longitudinal con 1409 individuos estudiados en la mediana edad y reexaminados 20 años más tarde para detectar signos de demencia, [28] un estudio de 3.375 participantes con una edad media al inicio del estudio de 76 años que construye un índice de riesgo utilizando la regresión logística para la demencia en un plazo de 6 años, en [29] Jessen et al. construyen una puntuación de predicción basada en datos de atención primaria en 3055 individuos no dementes mayores de 75 años, y por último en [30] Reitz et al. definieron una puntuación de riesgo en un estudio con 1051 residentes de la ciudad de Nueva York libres de demencia (beneficiarios de Medicare) de 65 años o más.
Las nuevas técnicas de aprendizaje automático que aquí se describen están llamadas a jugar un papel predomínate en el futuro. El objetivo de una medicina predictiva, preventiva y personalizada pasa por ser capaces de integrar gran cantidad de conjuntos de datos y de extraer patrones no lineales existentes en dichos datos. En el proyecto PILEP+90 (ImageH) esperamos realizar avances importantes en esta dirección.
Referencias
[1] M. Li and P. Vitányi, An Introduction to Kolmogorov Complexity and Its Applications, 3rd ed. New York: Springer-Verlag, 2008.
[2] P. C. Havugimana et al., “A Census of Human Soluble Protein Complexes,” Cell, vol. 150, no. 5, pp. 1068–1081, Aug. 2012.
[3] Y. L. Cun et al., “Handwritten zip code recognition with multilayer networks,” in 10th International Conference on Pattern Recognition [1990] Proceedings, 1990, vol. ii, pp. 35–40 vol.2.
[4] A. Krizhevsky, I. Sutskever, and G. E. Hinton, “ImageNet Classification with Deep Convolutional Neural Networks,” in Proceedings of the 25th International Conference on Neural Information Processing Systems - Volume 1, USA, 2012, pp. 1097–1105.
[5] Y. LeCun, Y. Bengio, and G. Hinton, “Deep learning,” Nature, vol. 521, no. 7553, pp. 436–444, May 2015.
[6] B. E. Bejnordi et al., “Diagnostic Assessment of Deep Learning Algorithms for Detection of Lymph Node Metastases in Women With Breast Cancer,” JAMA, vol. 318, no. 22, pp. 2199–2210, Dec. 2017.
[7] K. P. Smith, A. D. Kang, and J. E. Kirby, “Automated Interpretation of Blood Culture Gram Stains by Use of a Deep Convolutional Neural Network,” J. Clin. Microbiol., vol. 56, no. 3, pp. e01521-17, Mar. 2018.
[8] I. Wallach, M. Dzamba, and A. Heifets, “AtomNet: A Deep Convolutional Neural Network for Bioactivity Prediction in Structure-based Drug Discovery,” ArXiv151002855 Cs Q-Bio Stat, Oct. 2015.
[9] J. Shendure and S. Fields, “Massively Parallel Genetics,” Genetics, vol. 203, no. 2, pp. 617–619, Jun. 2016.
[10] N. P. Oxtoby, D. C. Alexander, and EuroPOND consortium, “Imaging plus X: multimodal models of neurodegenerative disease,” Curr. Opin. Neurol., vol. 30, no. 4, pp. 371–379, 2017.
[11] M. A. Bruno, E. A. Walker, and H. H. Abujudeh, “Understanding and Confronting Our Mistakes: The Epidemiology of Error in Radiology and Strategies for Error Reduction,” RadioGraphics, vol. 35, no. 6, pp. 1668– 1676, Oct. 2015.
[12] E. J. Topol, “High-performance medicine: the convergence of human and artificial intelligence,” Nat. Med., vol. 25, no. 1, p. 44, Jan. 2019.
[13] “AI vs. Doctors,” IEEE Spectrum: Technology, Engineering, and Science News, 26-Sep-2017. [Online]. Available: https://spectrum.ieee.org/static/ai- vs-doctors. [Accessed: 24-Jan-2019].
[14] T. Perls et al., “Survival of Parents and Siblings of Supercentenarians,” J.Gerontol. A. Biol. Sci. Med. Sci., vol. 62, no. 9, pp. 1028–1034, Sep. 2007.
[15] C. H. Kawas, “Diet and the risk for Alzheimer’s disease,” Ann. Neurol., vol. 59, no. 6, pp. 877–879, 2006.
[16] K. A. Jellinger and J. Attems, “Prevalence and pathology of vascular dementia in the oldest-old,” J. Alzheimers Dis. JAD, vol. 21, no. 4, pp. 1283– 1293, 2010.
[17] C. L. Satizabal, A. S. Beiser, V. Chouraki, G. Chêne, C. Dufouil, and S. Seshadri, “Incidence of Dementia over Three Decades in the Framingham Heart Study,” N. Engl. J. Med., vol. 374, no. 6, pp. 523–532, Feb. 2016.
[18] B. Winblad et al., “Defeating Alzheimer’s disease and other dementias: a priority for European science and society,” Lancet Neurol., vol. 15, no. 5, pp. 455–532, Apr. 2016.
[19] Y.-T. Wu et al., “Dementia in western Europe: epidemiological evidence and implications for policy making,” Lancet Neurol., vol. 15, no. 1, pp. 116–124, Jan. 2016.
[20] C. Qiu and L. Fratiglioni, “Aging without Dementia is Achievable: Current Evidence from Epidemiological Research,” J. Alzheimers Dis., vol. 62, no. 3, pp. 933–942.
[21] T. C. Russ, “Intelligence, Cognitive Reserve, and Dementia: Time for Intervention?,” JAMA Netw. Open, vol. 1, no. 5, pp. e181724–e181724, Sep. 2018.
[22] T. Pekkala et al., “Development of a Late-Life Dementia Prediction Index with Supervised Machine Learning in the Population-Based CAIDE Study,” J. Alzheimers Dis., vol. 55, no. 3, pp. 1055–1067.
[23] A. Pons, H. M. LaMonica, L. Mowszowski, S. Köhler, K. Deckers, and S. L. Naismith, “Utility of the LIBRA Index in Relation to Cognitive Functioning in a Clinical Health Seeking Sample,” J. Alzheimers Dis. JAD, vol. 62, no. 1, pp. 373–384, 2018.
[24] C.-I. Li et al., “Risk score prediction model for dementia in patients with type 2 diabetes,” Eur. J. Neurol., vol. 25, no. 7, pp. 976–983, 2018.
[25] A.-M. Tolppanen, “Prediction of dementia in people with diabetes,” Lancet Diabetes Endocrinol., vol. 1, no. 3, pp. 164–165, Nov. 2013.
[26] L. G. Exalto et al., “Risk score for prediction of 10 year dementia risk in individuals with type 2 diabetes: a cohort study,” Lancet Diabetes Endocrinol., vol. 1, no. 3, pp. 183–190, Nov. 2013.
[27] M. Kivipelto, T. Ngandu, T. Laatikainen, B. Winblad, H. Soininen, and J. Tuomilehto, “Risk score for the prediction of dementia risk in 20 years among middle aged people: a longitudinal, population-based study,” Lancet Neurol., vol. 5, no. 9, pp. 735–741, Sep. 2006.
[28] D. E. Barnes, K. E. Covinsky, R. A. Whitmer, L. H. Kuller, O. L. Lopez, and K. Yaffe, “Predicting risk of dementia in older adults: The late-life dementia risk index,” Neurology, vol. 73, no. 3, pp. 173–179, Jul. 2009.
[29] F. Jessen et al., “Prediction of dementia in primary care patients,” PloS One, vol. 6, no. 2, p. e16852, Feb. 2011.
[30] C. Reitz, M.-X. Tang, N. Schupf, J. J. Manly, R. Mayeux, and J. A. Luchsinger, “A summary risk score for the prediction of Alzheimer disease in elderly persons,” Arch. Neurol., vol. 67, no. 7, pp. 835–841, Jul. 2010.