Aplicação de técnicas de mineração de dados para a identificação de fatores de envelhecimento saudável e patológico
Neste breve comentário, primeiro fornecemos algumas definições necessárias para fixar os conceitos, em particular, Big Data e Machine Learning. Segue-se um breve estado da arte comentando alguns avanços relevantes destas técnicas no sector biomédico em geral, para terminar com uma nota final sobre a aplicação e utilização de técnicas de Machine Learning no estudo do envelhecimento em estudos populacionais. Também se mencionam modelos preditivos de demência tardia usando um índice de risco de doença.
Definições
O termo Big Data refere-se a dados que têm características que o tornam inapropriado para ser tratado com técnicas de processamento de dados tradicionais. Embora não exista uma especificação formal que distinga entre Big Data vs Non Big Data, a complexidade é, sem dúvida, o fator determinante. Embora exista uma definição matemática de complexidade algorítmica [1], o termo complexidade tende a ser usado liberalmente e pode significar coisas muito diferentes dependendo do contexto.
Big Data também pode entender-se como uma disciplina ou estrutura metodológica na qual são utilizadas técnicas preditivas em conjuntos de dados (datesets) de grande complexidade. Essa complexidade pode residir em pelo menos três dimensões: tamanho (número de linhas x número de colunas), heterogeneidade (variabilidade nos tipos de dados) e velocidade (frequência com que novos dados são adicionados). A autoaprendizagem (machine learning) é essencialmente uma forma de estatística aplicada que tenta fundamentalmente estimar funções complicadas. Note-se que isto a diferencia das estatísticas inferenciais clássicas que tentam fornecer intervalos de confiança em torno destas funções. A aprendizagem automática não é interessante apenas do ponto de vista da engenharia (fazer um sistema com um comportamento desejado), mas também do ponto de vista da psicologia, uma vez que a aprendizagem automática (machine learning) segue uma abordagem baseada em princípios de funcionamento inspirados nos processos subjacentes à inteligência humana.
Estado da Arte em Machine Learning em Biomedicina
Os dados biomédicos são notoriamente complexos e difíceis de interpretar. As técnicas de Inteligência Artificial (IA) provaram ser de grande ajuda na interpretação de dados multidimensionais. Por exemplo, proteómica (estudo em larga escala da estrutura e função da proteína), imagem médica, descoberta de drogas, ou estudos de associação genómica (GWAS) são apenas algumas das aplicações mais proeminentes da aprendizagem automática que vamos referir brevemente no resto desta seção. Os algoritmos de aprendizagem automática em proteómica têm como entrada a sequência de aminoácidos e o seu objetivo é prever, por exemplo, a estrutura da proteína [2].
Pode-se dizer que a imagem médica é a aplicação mais eficaz das técnicas de aprendizagem automática em biomedicina. A razão é dupla: primeiro, a IA tem sido usada desde as suas origens em tarefas relacionadas ao reconhecimento de imagens, como detecção, rastreamento ou classificação de objetos. Estas tarefas foram adaptadas e reutilizadas com sucesso no contexto da imagem médica. Em segundo lugar, as redes neurais convolucionais (CNN) [3], [4], [5] provaram ser uma arquitetura altamente eficaz graças ao uso de filtros convolucionais sucessivos (kernel). Na matemática, uma convolução é uma operação de duas funções que produz uma terceira função que expressa o efeito de aplicar um dos operadores como um filtro. Por exemplo, um filtro de matriz de convolução usaria uma primeira matriz que seria a imagem a ser filtrada através de outra matriz de kernel para finalmente alcançar o efeito desejado, por exemplo detectando as bordas da imagem.
Redes neurais convolucionais e outros algoritmos de aprendizado profundo têm, em alguns casos, superado o desempenho de especialistas humanos, por exemplo, num estudo recente publicado na JAMA, os algoritmos de aprendizado profundo foram capazes de diagnosticar cancro de mama metastático de forma mais otimizada do que um grupo de radiologistas especialistas [6]. Num outro estudo recente [7], investigadores treinaram uma CNN para identificar infecções bacterianas potencialmente letais com uma taxa de precisão de 95%.
Uma abordagem inovadora e promissora à descoberta de medicamentos - relação quantitativa estrutura-actividade (QSAR) e previsões de bioactividade baseadas em ligantes - envolve a utilização de redes neurais profundas (DNN) para prever a bioactividade de certas moléculas [8]. A questão mais premente em genética é modelar a interação genótipo-fenótipo. As redes neurais profundas (DNN) estão na vanguarda da próxima geração de tecnologias de sequenciamento. Os DNNs podem ser treinados usando tanto a sequência do genoma quanto os perfis moleculares para prever o efeito da variante genética. As DNNs também podem ser utilizadas com dados mutagénicos que, no entanto, são mais dispendiosos de obter. O sequenciamento genético de segunda geração pode mudar isto [9].
Os ensaios de sequenciação em massa e paralela poderão, num futuro próximo, medir os efeitos funcionais da variação genética nos genes humanos, ultrapassando o problema das "variantes de significância incerta". A dificuldade em prever as consequências de variantes individuais dentro dos genes envolvidos é o cerne do problema, enquanto uma saída plausível é fazer uso do enorme poder computacional disponível atualmente para quantificar o risco de todas as variantes potenciais, por exemplo, em genes que se acredita predisporem ao desenvolvimento de cancro.
Terminamos esta secção comentando os avanços com uma relação muito próxima com as técnicas e objectivos deste Subprograma. Embora a aplicação da aprendizagem automática para o diagnóstico precoce de distúrbios neurodegenerativos esteja nos seus estágios iniciais, o avanço progressivo e posterior implante no ambiente clínico é inevitável e desejável [10]. A enorme quantidade, heterogeneidade e complexidade dos conjuntos de dados recolhidos desafia a capacidade humana para a avaliação qualitativa. Apesar do avanço inexorável na qualidade do diagnóstico baseado em AI, especialmente na imagem médica, ainda existe a ideia de que a predição humana é o padrão contra o qual medir a qualidade dos diagnósticos e outras predições. Esta crença precisa de ser reavaliada e reformulada se se provar que não corresponde aos factos. Por exemplo, na [11], análise post mortem de autópsias mostrou graves erros de diagnóstico cometidos por radiologistas treinados em até 20% dos casos. Finalmente, deve-se notar que tais ferramentas assistidas por IA não só poderiam fornecer diagnósticos mais precisos, mas também aliviar a escassez de pessoal em certas áreas com alta demanda de profissionais como microbiologistas clínicos (Figura 1, Figura 2).
Figura 1. Diferentes níveis de automação a esperar na medicina e no tratamento clínico. O objetivo final é combinar os pontos fortes dos profissionais clínicos e da IA, e não substituir humanos por máquinas. [12].
Figura 2. A figura mostra os avanços nas técnicas de IA em vários campos. Em vermelho, aplicações em que a IA obtém melhores resultados do que os humanos, por exemplo, a detecção de autismo ou pneumonia. Em verde, aplicações onde os seres humanos ainda são melhores que a IA, e em vermelho a verde, aplicações onde ainda não há um claro vencedor [13].
Machine Learning e Big Data para a predição da doença de Alzheimer
Os centenários são a prova viva de que a doença de Alzheimer e outras formas de demência senil não fazem parte do envelhecimento normal. A questão que temos de nos colocar é a seguinte: um estilo de vida saudável pode ajudar a prevenir a doença de Alzheimer? E se assim for, podemos prever a demência com base em fatores modificáveis como dieta, exercício, hábitos de sono, etc.?
Estudos populacionais como o realizado no Projeto Vallecas representam uma oportunidade formidável para a prevenção e melhoria dos cuidados. Os estudos epidemiológicos e populacionais visam integrar as evidências disponíveis dentro de um quadro que pode ser extrapolado para toda a população. Os estudos populacionais, ao contrário dos estudos clínicos baseados num ou poucos casos, estudam a distribuição das condições de saúde e doença nas populações.
Para que os estudos populacionais sejam eficazes, em vez de procurarem uma única característica da doença, devem centrar-se na complexidade e heterogeneidade das provas recolhidas. É importante notar que os estudos epidemiológicos muitas vezes levam em conta a variação temporal da amostra, ou seja, a coleta de informações espalhadas por diferentes pontos de tempo pode ajudar-nos a caracterizar padrões e trajetórias de saúde/doença aplicáveis a toda a população.
Existem evidências em estudos epidemiológicos que mostram que o envelhecimento sem demência é possível [14], [15]. Curiosamente, como mostrado em [16], a prevalência da doença de Alzheimer e da demência vascular aumenta com a idade, mas menos depois dos 90 anos. Além disso, o Framingham Heart Study [17] mostra que a incidência de demência em países desenvolvidos diminuiu nos últimos anos. Essencialmente, isto diz-nos que o risco de demência na velhice é, até certo ponto, modificável [18]. No entanto, a opinião de que a demência está em declínio nos países ocidentais não é unânime, um estudo epidemiológico em larga escala em países da Europa Ocidental (Suécia, Holanda, Reino Unido [Inglaterra] e Espanha) não mostrou mudanças significativas ou uma redução muito pequena na incidência global de demência nos últimos 20 anos [19].
O Relatório de 2017 da Associação de Alzheimer destaca que, entre 2000 e 2014, reduziram-se as mortes por AVC em 21%, doenças cardíacas - 14% e cancro de próstata -9%, enquanto as mortes por EA aumentaram +89%. A tendência da incidência de EA nos países desenvolvidos - positiva (aumento) ou negativa (diminuição) - ainda não foi resolvida; em qualquer caso, há cada vez mais evidências de que as estratégias de intervenção que abordam o bem-estar geral e a saúde vascular em particular, incluindo uma dieta saudável, exercício físico, bem como o aumento da reserva cognitiva, contribuem para o envelhecimento sem demência [20]. Em qualquer caso, deve-se notar que não há nenhuma teoria do envelhecimento cerebral, é certamente um objetivo muito ambicioso.
O objetivo final de uma caracterização mecanicista satisfatória do envelhecimento cerebral na população humana ainda parece distante. A seleção de biomarcadores significativos de EA requer a integração de todas as evidências disponíveis num corpus teórico que tenha poder preditivo [21].
Uma via promissora é a construção de modelos de previsão de risco com técnicas de aprendizagem automática. O estudo da população finlandesa CAIDE [22] construiu um modelo preditivo de demência tardia usando um índice de risco de doença. Num novo estudo baseado na população australiana [23], desenvolveu-se o LIfestyle for BRAIN health index (LIBRA) para quantificar o risco de conversão para demência. Semelhante ao Índice Vallecas que está a ser desenvolvido na Fundação CIEN, o Índice LIBRA concentra-se em fatores de risco e proteção modificáveis que podem ser abordados em indivíduos de meia-idade. Um grande estudo amostral foi realizado em Taiwan (27540 pacientes com diabetes tipo 2 com idade entre 50 e 94 anos [24]. Estudos anteriores mostraram que pacientes com diabetes tipo 2 têm duas vezes mais probabilidade de desenvolver demência [25]. Exalto et al [26] criaram uma pontuação de risco de demência baseado numa série de fatores: doença microvascular, pé diabético, doença cerebrovascular, doença cardiovascular, eventos metabólicos agudos, depressão, idade e educação. O estudo assumiu irrealisticamente que a pontuação de risco de demência é uma função linear dessas características. Outras pontuações de risco para demência podem encontrar-se em [27], um estudo longitudinal com 1409 indivíduos estudados na meia-idade e reexaminados 20 anos depois para detectar sinais de demência, [28] um estudo com 3.375 participantes com uma idade média de 76 anos no início do estudo que constrói um índice de risco usando a regressão logística para a demência num prazo de 6 anos, em [29] Jessen et al. construir uma pontuação preditiva baseada em dados de cuidados primários em 3055 indivíduos não dementes com 75 anos ou mais e, finalmente, em [30] Reitz et al. definiram uma pontuação de risco num estudo com 1051 residentes de Nova Iorque (beneficiários do Medicare) livres de demência com 65 anos ou mais.
As novas técnicas de aprendizagem automática aqui descritas deverão desempenhar um papel predominante no futuro. O objetivo da medicina preditiva, preventiva e personalizada é ser capaz de integrar um grande número de conjuntos de dados e extrair padrões não-lineares a partir desses dados. No projecto PILEP+90 (ImageH) esperamos fazer avanços importantes nesta direcção.
Referências
[1] M. Li and P. Vitányi, An Introduction to Kolmogorov Complexity and Its Applications, 3rd ed. New York: Springer-Verlag, 2008.
[2] P. C. Havugimana et al., “A Census of Human Soluble Protein Complexes,” Cell, vol. 150, no. 5, pp. 1068–1081, Aug. 2012.
[3] Y. L. Cun et al., “Handwritten zip code recognition with multilayer networks,” in 10th International Conference on Pattern Recognition [1990] Proceedings, 1990, vol. ii, pp. 35–40 vol.2.
[4] A. Krizhevsky, I. Sutskever, and G. E. Hinton, “ImageNet Classification with Deep Convolutional Neural Networks,” in Proceedings of the 25th International Conference on Neural Information Processing Systems - Volume 1, USA, 2012, pp. 1097–1105.
[5] Y. LeCun, Y. Bengio, and G. Hinton, “Deep learning,” Nature, vol. 521, no. 7553, pp. 436–444, May 2015.
[6] B. E. Bejnordi et al., “Diagnostic Assessment of Deep Learning Algorithms for Detection of Lymph Node Metastases in Women With Breast Cancer,” JAMA, vol. 318, no. 22, pp. 2199–2210, Dec. 2017.
[7] K. P. Smith, A. D. Kang, and J. E. Kirby, “Automated Interpretation of Blood Culture Gram Stains by Use of a Deep Convolutional Neural Network,” J. Clin. Microbiol., vol. 56, no. 3, pp. e01521-17, Mar. 2018.
[8] I. Wallach, M. Dzamba, and A. Heifets, “AtomNet: A Deep Convolutional Neural Network for Bioactivity Prediction in Structure-based Drug Discovery,” ArXiv151002855 Cs Q-Bio Stat, Oct. 2015.
[9] J. Shendure and S. Fields, “Massively Parallel Genetics,” Genetics, vol. 203, no. 2, pp. 617–619, Jun. 2016.
[10] N. P. Oxtoby, D. C. Alexander, and EuroPOND consortium, “Imaging plus X: multimodal models of neurodegenerative disease,” Curr. Opin. Neurol., vol. 30, no. 4, pp. 371–379, 2017.
[11] M. A. Bruno, E. A. Walker, and H. H. Abujudeh, “Understanding and Confronting Our Mistakes: The Epidemiology of Error in Radiology and Strategies for Error Reduction,” RadioGraphics, vol. 35, no. 6, pp. 1668– 1676, Oct. 2015.
[12] E. J. Topol, “High-performance medicine: the convergence of human and artificial intelligence,” Nat. Med., vol. 25, no. 1, p. 44, Jan. 2019.
[13] “AI vs. Doctors,” IEEE Spectrum: Technology, Engineering, and Science News, 26-Sep-2017. [Online]. Available: https://spectrum.ieee.org/static/ai- vs-doctors. [Accessed: 24-Jan-2019].
[14] T. Perls et al., “Survival of Parents and Siblings of Supercentenarians,” J.Gerontol. A. Biol. Sci. Med. Sci., vol. 62, no. 9, pp. 1028–1034, Sep. 2007.
[15] C. H. Kawas, “Diet and the risk for Alzheimer’s disease,” Ann. Neurol., vol. 59, no. 6, pp. 877–879, 2006.
[16] K. A. Jellinger and J. Attems, “Prevalence and pathology of vascular dementia in the oldest-old,” J. Alzheimers Dis. JAD, vol. 21, no. 4, pp. 1283– 1293, 2010.
[17] C. L. Satizabal, A. S. Beiser, V. Chouraki, G. Chêne, C. Dufouil, and S. Seshadri, “Incidence of Dementia over Three Decades in the Framingham Heart Study,” N. Engl. J. Med., vol. 374, no. 6, pp. 523–532, Feb. 2016.
[18] B. Winblad et al., “Defeating Alzheimer’s disease and other dementias: a priority for European science and society,” Lancet Neurol., vol. 15, no. 5, pp. 455–532, Apr. 2016.
[19] Y.-T. Wu et al., “Dementia in western Europe: epidemiological evidence and implications for policy making,” Lancet Neurol., vol. 15, no. 1, pp. 116–124, Jan. 2016.
[20] C. Qiu and L. Fratiglioni, “Aging without Dementia is Achievable: Current Evidence from Epidemiological Research,” J. Alzheimers Dis., vol. 62, no. 3, pp. 933–942.
[21] T. C. Russ, “Intelligence, Cognitive Reserve, and Dementia: Time for Intervention?,” JAMA Netw. Open, vol. 1, no. 5, pp. e181724–e181724, Sep. 2018.
[22] T. Pekkala et al., “Development of a Late-Life Dementia Prediction Index with Supervised Machine Learning in the Population-Based CAIDE Study,” J. Alzheimers Dis., vol. 55, no. 3, pp. 1055–1067.
[23] A. Pons, H. M. LaMonica, L. Mowszowski, S. Köhler, K. Deckers, and S. L. Naismith, “Utility of the LIBRA Index in Relation to Cognitive Functioning in a Clinical Health Seeking Sample,” J. Alzheimers Dis. JAD, vol. 62, no. 1, pp. 373–384, 2018.
[24] C.-I. Li et al., “Risk score prediction model for dementia in patients with type 2 diabetes,” Eur. J. Neurol., vol. 25, no. 7, pp. 976–983, 2018.
[25] A.-M. Tolppanen, “Prediction of dementia in people with diabetes,” Lancet Diabetes Endocrinol., vol. 1, no. 3, pp. 164–165, Nov. 2013.
[26] L. G. Exalto et al., “Risk score for prediction of 10 year dementia risk in individuals with type 2 diabetes: a cohort study,” Lancet Diabetes Endocrinol., vol. 1, no. 3, pp. 183–190, Nov. 2013.
[27] M. Kivipelto, T. Ngandu, T. Laatikainen, B. Winblad, H. Soininen, and J. Tuomilehto, “Risk score for the prediction of dementia risk in 20 years among middle aged people: a longitudinal, population-based study,” Lancet Neurol., vol. 5, no. 9, pp. 735–741, Sep. 2006.
[28] D. E. Barnes, K. E. Covinsky, R. A. Whitmer, L. H. Kuller, O. L. Lopez, and K. Yaffe, “Predicting risk of dementia in older adults: The late-life dementia risk index,” Neurology, vol. 73, no. 3, pp. 173–179, Jul. 2009.
[29] F. Jessen et al., “Prediction of dementia in primary care patients,” PloS One, vol. 6, no. 2, p. e16852, Feb. 2011.
[30] C. Reitz, M.-X. Tang, N. Schupf, J. J. Manly, R. Mayeux, and J. A. Luchsinger, “A summary risk score for the prediction of Alzheimer disease in elderly persons,” Arch. Neurol., vol. 67, no. 7, pp. 835–841, Jul. 2010.