Aplicação de técnicas de mineração de dados para a identificação de fatores de envelhecimento saudável e patológico
Progressos e resultados alcançados
A ImageH trata da concepção, desenvolvimento e exploração de técnicas de aprendizagem automática com o objetivo de construir um sistema de inferência estatística alimentado por uma base de dados ampla e heterogénea recolhida na área geográfica da Península Ibérica (MADRID+90 e BRAGA+90) e incluindo, entre outros, dados demográficos, de estilo de vida, clínicos, cognitivos e de neuroimagem.
O objetivo é estudar a combinação de preditores do envelhecimento saudável e a obtenção de um método computacional para ajudar a predizer os indivíduos em risco de desenvolver demência. Para issom desenvolvem-se diferentes modelos com base em métodos paramétricos clássicos e algoritmos de aprendizagem automática.
A experiência e os dados acumulados pela Fundação CIEN no Projeto Vallecas através do acompanhamento longitudinal de uma coorte de voluntários com mais de 70 anos de idade permitem que este projeto seja abordado de forma ambiciosa. Assim, abre a possibilidade de contrastar diferentes hipóteses relacionadas à identificação de fatores protetores contra o envelhecimento e marcadores de detecção precoce da doença de Alzheimer. Atualmente, o projeto está no meio da sétima visão e começando na nona. O ImageH irá beneficiar do conjunto de dados e da metodologia desenvolvidos para o Projecto Vallecas, permitindo uma utilização ótima dos recursos, bem como a definição de objetivos realistas baseados na experiência adquirida durante o Projecto Vallecas. Em essência, tanto os objetivos quanto a metodologia de análise proposta no Projeto Vallecas constituem um sólido ponto de partida para o ImageH.
Em ImageH focamos no estudo de um setor da população que até agora é pouco caracterizado na literatura científica. Há necessidade de estudos longitudinais que sejam capazes de revelar o funcionamento do cérebro ao longo do processo de envelhecimento. A população-alvo do PILEP+90 é particularmente interessante neste contexto. ImageH oferece uma oportunidade para estudar padrões de conetividade no cérebro de nonagenários, bem como propriedades de rede extraídas da matriz de covariância. Um dos suportes teóricos sobre os quais nos apoiamos no ImageH é a conceituação do cérebro como um sistema adaptativo num ambiente em mudança, a modelagem da capacidade desse órgão de utilizar os recursos disponíveis em resposta às demandas metabólicas e informacionais pode ser muito útil para a compreensão do substrato neurológico de uma vida longa e saudável.
Em colaboração com o Serviço de Estatística da Câmara Municipal de Madrid, está a ser efectuada uma amostragem aleatória estratificada por unidades de recenseamento de um total de 692 pessoas com mais de 90 anos registadas no município de Madrid. No momento da elaboração deste relatório, o nosso projeto encontra-se em fase de recolha de formulários, a posteriori, sendo seleccionados cerca de cinquenta indivíduos para serem submetidos a um exame clínico detalhado que inclui ressonância magnética estrutural, perfusão e funcional (T1, ASL 3D e FMRI).
Além disso, foi concluído com sucesso a contratação de um investigador de pós-doutorado associado ao projeto. Este investigador está a ser treinado em técnicas de aquisição e modelagem de ressonância magnética.
2.1 Objectivos, marcos e grau de cumprimento
As atividades realizadas no contexto do ImageH e associadas a cada objetivo específico e a cada marco específico são descritas a seguir. A Tabela 1 apresenta o lembrete do grau de cumprimento dos marcos definidos no projeto.
Tabla 1. Objetivos, hitos e graus de cumprimento 15/10/2019
2.2. Atividades realizadas
A Tabela 2 contém a descrição das atividades programadas no projeto e sua situação atual no momento da elaboração deste relatório.
2.3 Problemas e mudanças no plano de trabalho
Como um sub-projeto integrado no PILEP+90, o progresso do ImageH depende do progresso no MADRID+90 e BRAGA+90. Assim, os atrasos ocorridos durante a execução do plano de trabalho inicialmente previsto no MADRID+90 condicionaram o início das atividades no ImageH. Estes atrasos são detalhados no relatório do projecto MADRID+90, pelo que não é necessário reiterá-los aqui. Note-se que os estudos de neuroimagem devem começar dentro dos próximos dois meses. Além disso, identificamos cerca de vinte voluntários do Projeto Vallecas que já estão na casa dos noventa ou perto, e começamos a estudar a análise volumétrica cerebral deste grupo de sujeitos (A.10).
3. Resultados preliminares
A evolução demográfica registada nas últimas décadas, bem como o aumento constante da esperança de vida são dois factores que condicionam a manutenção dos padrões de qualidade de vida e bem-estar. Os resultados esperados dentro do ImageH terão um retorno na forma de novos conhecimentos que poderão ser posteriormente aplicados ao resto da população.
Com relação aos fatores associados ao envelhecimento saudável, pretende-se obter informações não apenas sobre os fatores que caracterizam individualmente os indivíduos de vida longa, mas também determinar a melhor combinação de todos eles por meio de técnicas de data mining. A aplicação de tais técnicas de aprendizagem automática ajudará a descobrir relações pouco intuitivas entre os dados.
Os resultados preliminares podem ser agrupados nos seguintes pontos:
Processo de seleção e contratação de um investigador de pós-doutorado. Formação em técnicas de aquisição e modelação de neuroimagens.
Geração de condutas integrando dados heterogéneos (demografia, estilo de vida, cognitivos e neuroimagem). Especial atenção ao planeamento da geração de sequências de ressonância ajustadas às necessidades e limitações da população nonagenária.
Segmentação volumétrica de um grupo de 20 indivíduos com mais de 85 anos de idade. A volumetria das estruturas subcorticais foi estimada, bem como as estimativas da espessura cortical e da girorificação.
Concepção, implementação e validação de algoritmos de machine learning. Os algoritmos do tipo conjunto (conjunto de classificadores N) demonstraram ser superiores para a previsão da transição para o comprometimento cognitivo leve treinados na amostra do Projeto Vallecas. Os algoritmos serão validados com a amostra ImageH.
Um dos maiores desafios das técnicas de machine learning é a explicabilidade dos resultados. A caracterização usual de machine learning como um black-box system não é necessariamente correta, existem técnicas que permitem estimar a importância relativa das variáveis na previsão. Implementamos um sistema para determinar a importância das variáveis utilizando técnicas de permutação (valores SHAP). Este trabalho pode ser livremente consultado em http://dx.doi.org/10.1101/785519. As técnicas de avaliação da importância das variáveis desempenharão um papel fundamental na construção de modelos epistemologicamente plausíveis em ImageH.