Aplicación de técnicas de minería de datos para la identificación de factores de envejecimiento sano y patológico
Progreso y resultados obtenidos
ImageH trata del diseño, desarrollo y explotación de técnicas de aprendizaje automático con el propósito de construir un sistema de inferencia estadística alimentada con una amplia y heterogénea base de datos recabada en el ámbito geográfico de Iberia (MADRID+90 y BRAGA+90) y que incluya entre otros, datos demográficos, de estilo de vida, clínicos, cognitivos y de neuroimagen.
El objetivo es estudiar la combinación de factores predictores de envejecimiento sano así como la consecución de un método computacional que ayude a pronosticar a aquellos individuos en riesgo de desarrollar una demencia. Para ello se desarrollan diferentes modelos basados tanto en los métodos paramétricos clásicos como en algoritmos de aprendizaje automático.
La experiencia y los datos acumulados por la Fundación CIEN en el Proyecto Vallecas mediante el seguimiento longitudinal de una cohorte de voluntarios mayores de 70 años permite plantear este proyecto de forma ambiciosa. Así, se abre la posibilidad de contrastar diferentes hipótesis relacionadas con la identificación de factores de protección frente al envejecimiento y de marcadores de detección precoz de la enfermedad de Alzheimer. En la actualidad, el proyecto se encuentra hacia la mitad de la séptima vista e iniciando la novena. ImageH se beneficiará del dataset y de la metodología desarrollada para el Proyecto Vallecas, permitiendo una óptima utilización de recursos así como la delineación de objetivos realistas en base a la experiencia conseguida durante el Proyecto Vallecas. En esencia, tanto los objetivos como la metodología de análisis propuesta en el Proyecto Vallecas constituyen un sólido punto de partida sobre para ImageH.
En ImageH nos centramos en el estudio de un sector de población que hasta el momento está escasamente caracterizado en al literatura científica. Se necesitan estudios longitudinales que sean capaces de poner de manifiesto el funcionamiento del cerebro a lo largo del proceso de envejecimiento. La población target de PILEP+90 es de particular interés aquí. ImageH supone una oportunidad para estudiar los patrones de conectividad en el cerebro de sujetos nonagenarios, además de las propiedades de red extraídas a partir de la matriz de covarianza. Uno de lo soportes teóricos en el que nos basamos en ImageH es la conceptualización del cerebro como un sistema adaptativo en un entorno cambiante, el modelado de la capacidad de dicho órgano para utilizar los recursos disponibles en respuesta a demandas metabólicas e informacionales puede sernos de gran utilidad a la hora de entender el sustrato neurológico de una vida larga y sana.
En colaboración con la Oficina de Estadística del Ayuntamiento de Madrid, se está realizando un muestreo aleatorio estratificado por unidades censales de un total de 692 personas mayores de 90 años empadronadas en el municipio de Madrid. A lo hora de escribir este informe, nuestro proyecto se encuentra en la fase de recogida de formularios, a posteriori, se seleccionarán en torno a la cincuentena de individuos para someterse a una exploración clínica detallada en la que se incluye resonancia magnética estructural, perfusión y funcional (T1, 3D ASL y FMRI).
Además se ha realizado de forma exitosa la contratación de un investigador postdoctoral asociado al proyecto. Dicho investigador esta siendo formado en técnicas de adquisición y modelado de imagen de resonancia magnética.
2.1. Objetivos, hitos y grado de cumplimiento
A continuación se describen las actividades realizadas en el contexto de ImageH y asociadas a cada objetivo específico y a cada hito concreto. Tabla 1 presenta el recordatorio del grado de cumplimiento de los hitos definidos en el proyecto.
Tabla 1. Objetivos, hitos y grado de cumplimiento 15/10/2019
2.2. Actividades realizadas
Tabla 2 contiene la descripción de las actividades programadas en el proyecto junto con su actual situación en el momento de escribir este informe.
2.3. Problemas y cambios en el plan de trabajo
Como subproyecto integrado dentro de PILEP+90, la marcha de ImageH depende del avance en MADRID+90 y BRAGA+90. Así pues, los retrasos acontecidos durante la ejecución del plan de trabajo inicialmente previsto en MADRID+90 han condicionado el inicio de las actividades en ImageH. Dichos retrasos se detallan en el informe del Proyecto MADRID+90 por lo que no es necesario reiterarlos aquí. Sí cabe señalar que se espera poder comenzar con los estudios de neuroimagen dentro de los próximos dos meses. Además, hemos identificado en torno a la veintena de voluntarios del Proyecto Vallecas que son ya nonagenarios o próximos a serlo, ya hemos comenzado a estudiar los análisis de volumetría cerebral de dicho conjunto de sujetos (A.10).
3. Resultados preliminares
El cambio demográfico registrado en las últimas décadas, así como el aumento constante de la esperanza de vida son dos factores que condicionan el mantenimiento de los estándares de calidad de vida y bienestar. Los resultados esperados dentro de ImageH tendrán un retorno en forma de nuevo conocimiento que se podrá aplicar posteriormente al resto de la población.
Con respecto a los factores asociados con el envejecimiento saludable, se pretende obtener información no solo de aquellos factores que individualmente caractericen a los individuos longevos, sino que también se persigue determinar la mejor combinación de todos ellos por medio de técnicas de minería de datos. La aplicación de este tipo de técnicas de aprendizaje automático ayudará a descubrir relaciones poco intuitivas entre los datos.
Los resultados preliminares se pueden agrupar en los siguientes puntos:
Proceso de selección y contratación de un investigador postdoctoral. Training en técnicas de adquisición y modelado de neuroimagen.
Generación de pipeline integrando datos heterogéneos (demográficos, estilo de vida, cognitivos y de neuroimagen). Se ha prestado especial atención a la planificación de la generación de secuencias de resonancia ajustadas a las necesidades y limitaciones de la población nonagenaria.
Segmentación volumétrica de un grupo de 20 sujetos de más de 85 anos. Se ha estimado la volumetría de estructuras subcorticales además e estimaciones de grosor cortical y de girificación.
Diseño, implementación y validación de algoritmos de machine learning. Los algoritmos de tipo ensemble (conjunto de N clasificadores) se han mostrado como superiores para la predicción de transición a deterioro cognitivo leve entrenados en la muestra del Proyecto Vallecas. Los algoritmos se validarán con la muestra de ImageH.
Uno de las mayores desafíos de las técnicas de machine learning es la explicabilidad de los resultados. La habitual caracterización de machine learning como un black-box system no es necesariamente correcta, existen técnicas que permiten estimar la importancia relativa de las variables en la predicción. Hemos implementado un sistema de determinación de importancia de variables mediante técnicas de permutación (SHAP values). Dicho trabajo se puede consultar libremente en http://dx.doi.org/10.1101/785519. Las técnicas de evaluación de importancia de variables jugarán un papel fundamental en la construcción de modelos epistemológicamente plausibles en ImageH.