Detección automática de actividad en el hogar de personas mayores para su asistencia remota y aportación de la computación cognitiva
INTRODUCCIÓN
El Proyecto Securhome se engloba en el INTERREG V-A España-Portugal 2014-2020, que es el programa internacional de cooperación financiado con el Fondo Europeo de Desarrollo Regional (FEDER) aprobado por la Comisión Europea en su Decisión C (2015) 893, el 12 de febrero de 2015 que promueve el desarrollo a lo largo de la mayor frontera de Europa con una inversión prevista de más de 365M €.
La tecnología necesaria para detectar remotamente y en tiempo real modificaciones en el comportamiento de personas atendidas en el hogar se basa en el reconocimiento de actividades a partir de la información obtenida de sensores. Al ser un estudio multidisciplinar hay diversos enfoques que podrían encajar con el mismo, como el del hogar inteligente, smart home, la ciber-actividad, cyberphysics, o desde una perspectiva más general, como la Inteligencia Ambiental o de Entorno (Ambient Intelligence, AmI), que proporciona el marco propicio para desarrollar dicho reconocimiento. Las aplicaciones relacionadas con Securhome son la vida asistida, la atención a la tercera edad (Uddin, Khaksar, and Torresen 2018), la monitorización de la salud, la rehabilitación y el análisis de comportamientos.
El Centro de Innovación Experimental del Conocimiento (CEIEC) de la Universidad Francisco de Vitoria (UFV) participa en el Proyecto Securhome a través de la Universidad Carlos III de Madrid (UC3M). Dicho proyecto tiene como objetivo la “Detección de modificaciones en el comportamiento en personas de edad avanzada mediante sistemas IoT no invasivos con IA” y la participación de la UC3M se centra en la obtención de un dispositivo sensorial para hogares (DSH). La colaboración específica del CEIEC es “desarrollar algoritmos de Deep Learning que puedan aprovechar los datos capturados por el DSH e identificar situaciones concretas en las que se encuentre el portador del dispositivo”.
ESTADO DEL ARTE
En la actualidad hay numerosos estudios sobre el cuidado de las personas mayores, sobre todo teniendo en cuenta que la esperanza de vida de la humanidad ha aumentado estos últimos años (Informe de las Naciones Unidas World Population Ageing 2013), provocando que la población de mayores aumente, al igual que las posibles emergencias de salud presentes en sus hogares, las cuales, sin una debida atención por parte de un familiar, cuidador o un centro de salud. La situación puede complicarse, llegando incluso a provocar la muerte de la persona.
Entre los trabajos realizado hasta la actualidad podemos encontrar aquellos que se centran en conseguir el mayor bienestar en la vida cotidiana de las personas mayores, pero las cuales no incluyen ningún tipo de alerta al presenciar una situación de posible emergencia. El estudio realizado por (Pollack et al. 2003), propone un sistema de recordatorios adaptativos y personalizados que con ayuda de diferentes sensores colocados en puntos estratégicos de la casa y por medio de inteligencia artificial (IA), permite escoger de manera inteligente si debe o no emitir un recordatorio especifico o si debe adelantar o retrasar la hora del mismo (dependiendo de las actividades que está o estará realizando el usuario). La propuesta crea planes que permiten saber el momento adecuado para emitir los mensajes, con cualquier actividad básica, BADL (Basic Activities of Daily Living), como vestirse, comer, ir al baño, dormir o la higiene o con las actividades instrumentales, IADL (Instrumental Activities of Daily Living), como ver la televisión, llamar a alguien o tomar un medicamento. Sin embargo, si bien puede ayudar a planificar la rutina de la persona mayor, no existe ningún tipo de alerta para el caso de que estas actividades planeadas no se realicen de forma correcta, lo cual podrían indicar la presencia de un posible problema que requiere de atención.
Por otro lado, el estudio realizado por Lago (Lago, Roncancio, and Jiménez-Guarín 2019) presenta un sistema, denominado LaPlace, que gestiona los patrones de comportamientos observados en el usuario, optimizando su correcta interpretación por medio de la información obtenida por sensores instalados en el hogar, como el que realiza el algoritmo de aprendizaje adaptativo en línea, TIMe. En este estudio se especifica que dicho aprendizaje adaptativo puede ser utilizado para observar cambios en el comportamiento habitual de la persona, permitiendo detectar posibles problemas de salud cognitivos o físicos. Sin embargo, no se especifica la acción que el sistema aplicaría al presenciar un cambio en el comportamiento habitual del usuario, no siendo capaces de alertar a los familiares cuando el usuario se encuentra en una emergencia. Además de esto, en el artículo no se menciona los tipos de sensores que fueron utilizados para el estudio.
Otros estudios se centran en alertar automáticamente a los familiares o a los centros de salud próximos de las emergencias que sufren estas personas, como una caída o un cambio de comportamiento que evidencia un problema motor o cognitivo, de forma que puedan ser asistidos con prontitud, evitando que su situación vital empeore y descargando los servicios de urgencia. Botia (Botia, Villa, y Palma 2012), que sigue el mismo principio que los dos estudios descritos anteriormente. Botia propone un sistema de sensores colocados en cada una de las habitaciones de la casa del usuario, el sistema está conformado por:
• Sensores de movimiento en todas las habitaciones.
• Sensores de presión en diferentes muebles del hogar.
• Sensores en todas las puertas, para detectar su apertura y cierre.
Además de alertar cuando se detecta una caída u otras emergencias observadas por un comportamiento anormal, el sistema se va haciendo más preciso, ya que va aprendiendo a lo largo del tiempo de la rutina diaria, por lo que disminuyen las notificaciones de caídas falsas respecto de los primeros días. Esta solución se degrada en el caso de que la persona mayor tenga una mascota en su hogar y en los momentos de visitas.
Otro sistema similar lo propone (Just Checking n.d.), que presta un servicio de monitoreo sin cámaras de video o micrófonos: Por medio de este sistema son capaces de saber las actividades que el anciano está realizando en su hogar mediante diferentes sensores que son colocados en cada una de las habitaciones. Los sensores utilizados son.
• Sensor de movimiento inalámbrico. Estos son colocados en diferentes puntos estratégicos de la casa para saber si el usuario ha realizado todas las acciones que debe desempeñar en su rutina diaria, por ejemplo, para saber si ha entrado a la cocina para preparar su comida o comer, o para saber si ha entrado al baño o a su habitación en la noche para dormir. Mediante la ayuda de estos sensores el sistema es capaz de crear un cuadro de actividades en línea, donde el cuidador del anciano puede visualizar cuales son las habitaciones que este ha visitado y durante cuánto tiempo.
• Sensores de puerta. Estos son colocados en cada una de las puertas del hogar del usuario. Dichos sensores tienen dos componentes, el contacto y el imán, y mediante estos es posible saber cuándo se ha abierto o cerrado una puerta. La funcionalidad de estos sensores, junto con los de movimiento, es poder detectar cuando el usuario ha recibido una visita y cuánto tiempo ha estado este visitante en el hogar, también es posible visualizar cuando el usuario ha dejado el hogar y por cuanto tiempo se ha quedado la casa sola.
Además de estos sensores, es necesario colocar en el hogar un dispositivo que funciona como base de datos temporal de toda la información recogida por los sensores, que posteriormente se carga a los servidores de Just Checking. Este sistema notifica al móvil del cuidador cuando el anciano se ha ido a dormir, si ha recibido un visitante en la tarde/noche, si el usuario ha salido del hogar y si este ha dejado la puerta abierta al salir de su hogar (las notificaciones de puerta pueden hacerse para cada una de las habitaciones del hogar si el cuidador lo configura de dicho modo).
El principal problema de este sistema es que no es inteligente, por lo que no permite crear por sí mismo patrones de actividades para detectar posibles conductas extrañas por parte del usuario, ni de saber si el usuario se ha caído. La persona que debe estar pendiente de los cambios en el comportamiento del usuario o de la inmovilidad de este es el propio cuidador, que en muchas ocasiones es un familiar cercano que en un día fuerte de trabajo podría olvidar monitorear a dicha persona y no percatarse de alguna emergencia o posible problema. Por otra parte, si bien es cierto que la videocámara es un dispositivo muy invasivo, el micrófono podría utilizarse para permitir comandos de voz, con la finalidad de que el usuario tenga una herramienta más a su disposición a la hora de cualquier problema, por ejemplo, utilizando un comando de voz de socorro que automáticamente envíe una notificación al cuidador o a un centro de salud cercano.
Otra de las motivaciones de los estudios centrados en ayudar a las personas mayores en situaciones de emergencia en sus hogares, es el de disminuir el costo de grandes instalaciones. Sin embargo, a día de hoy, algunos de estos estudios dejan de considerar aspectos de gran importancia, como la privacidad de dichas personas. Cuando requieren un sistema instalado en todas las habitaciones y en diferentes objetos de la casa puede generar angustia a los usuarios al sentirse invadidos en sus propios hogares. Relacionado con esto, el estudio propuesto por (Principi et al. 2015) tiene un dispositivo con sensores de audio que se encuentra conectado en red local a todo tipo de dispositivo. El sistema permite que el usuario mediante comandos de voz desencadene llamadas telefónicas automáticas como alerta de socorro a un familiar o centro de salud previamente indicado en las configuraciones. Este sistema tiene dos modalidades que se activarán dependiendo de la situación en la que se encuentre el hogar.
• La primera modalidad es la de reconocimiento de voz, llamadas y alertas de socorro, la cual, se activa cuando el usuario está en la casa.
• La segunda modalidad se activa cuando el usuario ha dejado el hogar, en esta se activa el sistema con fines de vigilancia, supervisando el entorno acústico para detectar eventos fuera de lo común, y en el caso de que se detecte esta situación, el sistema realiza una llamada de emergencia al número indicado por el usuario.
El reconocedor tiene un módulo de cancelación de ruido que es capaz de reducir los sonidos producidos por la radio o el televisor.
Otros trabajos se centran en la información recogida por dispositivos wearables, que permiten detectar caídas y alertar a los familiares o centros de salud. Uno de estos trabajos se describe en (Pierleoni et al. 2014), en el cual se diseña un dispositivo para ser usado en el tobillo del usuario. Este es capaz de enviar mensajes de alerta a los teléfonos previamente indicados cuando detecta que la persona mayor ha sufrido una potencial caída. Por otra parte, si la persona no se levanta por un periodo de tiempo, se envía un segundo mensaje de alerta de caída crítica. Para su detección, el dispositivo tiene información de tres mediciones, combina la información de un acelerómetro triaxial, un giroscopio triaxial y un magnetómetro triaxial utilizando un algoritmo de fusión de datos conocido como filtro de orientación. El dispositivo detecta la orientación en tiempo real del usuario.
Por otra parte, el trabajo descrito en (Chernbumroong et al. 2013) diseña un sistema que está conformado por tres sensores: un acelerómetro, un sensor de temperatura y un altímetro, ya que en el estudio se plantea que con estos tres sensores es posible la clasificación de la mayoría de las actividades que son realizadas por las personas mayores. El sistema viene en un reloj deportivo común, de forma que los usuarios no sientan diferencia de utilizar este dispositivo a un accesorio normal para ver la hora. Los datos obtenidos son procesados para crear patrones de comportamiento, pudiendo clasificar los movimientos realizado por el usuario en 9 diferentes actividades de la vida cotidiana de la persona. Utilizaron redes neuronales para la clasificación y reconocimiento de actividades. El método puede detectar varias actividades diarias, incluidas las BADL, como la alimentación, el cepillado de dientes, caminar para dormir y las IADL, como lavar los platos, planchar, barrer el piso y ver la televisión. Sin embargo, dicho estudio solo reconoce las actividades, sin detectar caídas u otras emergencias. Por otra parte, estos estudios diseñan dispositivos wearables, que precisan ser llevados permanentemente, por lo que no son operativos si no están puestos. Además, las personas no quieren sentirse identificados como dependientes, cuando van por la calle, además del hecho de que pueden incomodarlos al no estar acostumbrados a llevarlos. De hecho, existen en el mercado dispositivos y sistemas de hogar, pero cuya aceptación se encuentra con la percepción de ser considerados invasivos. Otro inconveniente es que son olvidados o no usados al ser un dispositivo de quita y pon.
Otro producto que se encuentra actualmente en el mercado es ENEST (Nestwork n.d.), que es un sistema de seguridad que se va en una pulsera, que permite:
• Hablar y escuchar: Mediante la pulsación de un botón es posible comunicarse rápidamente con un familiar o cuidador.
• Establecer geo-zonas de seguridad: Se puede configurar el dispositivo para delimitar el área geográfica segura para el usuario, con la finalidad de que el familiar o cuidador reciba una alerta cuando el usuario ha cruzado dicha zona, esto es de gran importancia si por ejemplo el usuario sufre algún problema cognitivo.
• Detectar caídas: Se envía una alerta al familiar o cuidador si el usuario ha recibido un impacto o caída accidental.
• Determinar el tiempo límite de inactividad: Se puede configurar un periodo de tiempo específico como límite máximo de inactividad, de manera que el dispositivo enviará una alerta cuando se sobrepase dicho tiempo, esto es útil para saber si la caída de la persona fue crítica, ya que no ha podido levantarse, también es útil en el caso de que la persona mayor se haya desmayado, entre muchas otras emergencias.
• Determinar la velocidad máxima: Se puede configurar la velocidad máxima a la que el usuario puede moverse, esto es importante si por ejemplo el usuario no debe manejar por algún tipo de condición presente en el momento. Cuando se sobrepasa dicho límite de velocidad, se envía una alerta o notificación al familiar o cuidador de la persona mayor.
El principal problema de esta herramienta es que se trata de un dispositivo wearable, lo cual implica que la persona debe colocárselo todos los días como un accesorio, y esta acción podría ser olvidada, por otra parte, si no están acostumbrados a utilizar dichos accesorios estos podrían incomodarlos o en el caso contrario, si son personas que están acostumbradas porque suelen utilizar pulseras o relojes, podrían no querer usarlos todos los días porque quieren usar también sus propios accesorios. Por otra parte, este dispositivo no es capaz de percatar si el usuario ha cambiado su rutina diaria o si presenta una conducta inusual en su propio hogar, el cual, en la mayoría de los casos, es el entorno habitual de las personas mayores. Además de esto, la funcionalidad de “tiempo límite de inactividad” provee mucha información si además se ha recibido una alerta de caída, sin embargo, esta notificación por sí sola puede generar muchas falsas alarmas, ya que la persona podría estar simplemente viendo televisión en su casa. DSH es capaz de combinar esa información con la obtenida por los diferentes sensores integrados, lo cual permite que el dispositivo optimice el patrón de conducta del usuario.
El estudio descrito en (Joshi and Nalbalwar 2017), presenta un sistema compuesto por una única cámara que se encarga de recoger información de la vida del usuario, este sistema al igual que el asistente de hogares DSH, está pensado para ser colocado en la habitación de mayor uso por parte el usuario. El sistema tiene un proceso que analiza la información obtenida por la cámara, la cual se encarga de percatar si el usuario de edad avanzada ha sufrido una caída. Esto lo hace por medio de la detección de cuatro características: la relación de aspecto, el ángulo de orientación, el centro de masas, las invariantes de momento de imágenes Hu. Si el sistema considera que el usuario ha sufrido una caída, notifica por medio de un correo electrónico a las personas previamente indicadas, a las que se les envía de forma adjunta parte del video grabado y capturas de pantalla. Además, es posible observar una transmisión directa de la sala del hogar. Este estudio permite alertar a los cuidadores de una persona mayor cuando ésta ha sufrido una caída. Sin embargo, no es capaz de observar emergencias fuera de la zona visualizada, ya que el sistema no considera el tiempo en que el usuario no está en su campo visual. Por otro lado, al utilizar una cámara de vídeo, este sistema no tendrá la aceptación deseada, teniendo en cuenta que muchos de los usuarios piensan que la cámara es un dispositivo muy invasivo.
La solución propuesta en este estudio, DSH, es un dispositivo que está pensado para ser un sistema que estéticamente parezca un simple objeto decorativo del hogar y que, internamente posea todos los sensores necesarios para realizar el reconocimiento de los patrones de la vida cotidiana del usuario. La inteligencia artificial será capaz de realizar un entrenamiento, mejorando continuamente la identificación de los patrones de vida almacenados. Dicho dispositivo deberá ser colocado en la habitación en la que el usuario realiza la mayor cantidad de actividades o pase la mayor cantidad de tiempo. En principio se ha pensado que el asistente DSH debe ser colocado en la sala, ya que muchas de estas personas mayores pasan gran parte de su tiempo viendo televisión en dicho lugar.
El asistente para el hogar DSH, por otra parte, será un dispositivo altamente configurable, ya que diferenciará la presencia de una mascota, al igual que las visitas planificadas de familiares. También será posible establecer días de ausencia por parte del usuario de edad avanzada, el tipo de notificación preferida por los familiares, los contactos de familiares o el centro de salud con quien contactar en situaciones de emergencia. Otro problema anteriormente discutido son las dimensiones de los sistemas propuesto en los estudios mencionados, ya que estos pueden requerir de una gran cantidad de sensores, lo cual llega a ser muy costosos y necesita de un mayor tiempo de instalación, siendo incómodo para las personas mayores. DSH por otro lado está pensado en ser un único dispositivo que estéticamente no resalte en el ambiente doméstico y sólo requiere ser conectado a la corriente, siendo así más económico y menos invasivo.
El asistente DSH no incluye cámara de video, ya que los sensores que tiene integrados son suficientes para identificar patrones de rutina del usuario, lo que permite inferir cuando la persona tiene un problema al presentar variaciones extrañas en las acciones realizadas a lo largo del día, incluso si ha tenido un problema en otra habitación, el sistema podría detectarlo al observar que el usuario tiene mucho tiempo sin entrar a la sala.
Todos estos aspectos (audio) son considerados por el dispositivo DSH, pero además de estos, el dispositivo propuesto en nuestro proyecto incluye otros sensores con la finalidad de no solo funcionar mediante comandos de voz, sino también para percibir cambios en la conducta diaria de la persona, por si esta se ve incapaz de pronunciar el comando de voz, sea posible identificar la emergencia mediante otros aspectos.
El dispositivo DSH incorporará: sensor de sonido, sensor de movimiento, sensor de temperatura y sensor infrarrojo para visualizar si la persona se encuentra viendo la televisión.
De igual manera, tendrá un proceso de análisis de datos por inteligencia artificial que permitirá crear un patrón de conducta del usuario, de forma que si por ejemplo, el usuario suele ingresar a la sala a las 10:00 de la mañana, y por alguna razón son las 10:30 u 11 y no se ha presentado en dicho salón, se envié un mensaje de posible alerta; al igual que este caso, en el momento que el dispositivo DSH presencie cualquier cambio en su comportamiento común, envía una notificación a los familiares.
PROCESAMIENTO DE DATOS
Los sistemas de reconocimiento deben ser capaces de clasificar actividades humanas (básicas) de la vida cotidiana (Cornacchia et al. 2017), bien corporales, como correr, andar, sentarse, estar de pie, caerse, caminar, saltar, tumbarse o subir escaleras, bien interactivas, como las de higiene, limpieza del hogar, hacer la comida, o propias de una oficina. SENSORES Para detectar dichas actividades los datos provenientes del cuerpo del entorno se muestrean con sensores, normalmente entre 20Hz y 50Hz. Los móviles y corporales pueden ser:
- Dispositivos móviles, que pueden combinar la información contextual de localización. En este grupo están los A/M/G (acelerómetros, giroscopios y magnetómetros), GPS, micrófono o cámara.
- Móviles corporales -wearables-, específicos comúnmente vistos para monitorizar la actividad deportiva.
- Médicos específicos, que se colocan en el cuerpo para medir las señales biológicas de interés médico, como termómetros corporales, pulsímetros, tensiómetros, oxímetros, glucómetro, electrocardiógrafo (ECG), electromiógrafo (EMG), electroculógrafo (EOG) o el electroencefalógrafo (EEG).
Por otro lado, los sensores ambientales están situados en el entorno donde se desenvuelve la persona y su ventaja es que no molestan al no ir aplicados, pero, por el contrario, sus señales se ven más afectadas por el ruido. Algunos ejemplos (Acampora et al. 2013):
- Termómetros
- Barómetros
- Micrófonos
- Cámaras dispuestas de acuerdo a una inteligencia ambiental
- Infrarrojos pasivos (PIR), que detectan movimiento
- Infrarrojos activos, que también permiten identificación
- Identificadores por radiofrecuencia (RFID), para identificar y localizar objetos
- Sensores de presión, que van en sillas, alfombras…
- Baldosas inteligentes, que detectan la presión sobre el suelo
- Interruptores magnéticos, que detectan aperturas y cierres de puertas de armarios
- Ultrasonidos, que detectan movimiento.
PREPROCESAMIENTO SEÑALES
Las señales de los sensores se preprocesan para rellenar los valores nulos, reducir el ruido y obtener sus características relevantes (Nweke et al. 2019). Los métodos que se emplean en la limpieza de datos son:
- Imputación en árbol, i-Tree,
- Factorización multi-matricial
- k vecinos más cercanos, k-NN
- Descarte de instancias.
También se emplean técnicas para reducir el ruido de la señal con transformación al dominio de la frecuencia o transformación empírica de ondícula, wavelet, para filtrar paso alto o paso bajo, o aplicar filtros eficientes tipo Laplace, Kalman o Gauss.
En el preprocesamiento también se emplean técnicas de segmentación temporal que, junto a la selección del ancho de ventana, permiten la extracción de características interesantes como la ventana deslizante, la basada en eventos o la basada en energía.
Para terminar el tratamiento es necesario hacer manejable los datos, por lo que es necesario reducir su dimensionalidad para obtener subconjuntos de variables que, además, aumenten la precisión de la clasificación (Nweke et al. 2019). Los métodos habitualmente utilizados son:
- Análisis de componentes principales (PCA)
- Función de distribución acumulativa (ECDF)
- Análisis de la independencia de componentes (ICA)
- Análisis de discriminante lineal (LDA)
CARACTERIZACIÓN RELEVANTE DE LOS DATOS
Una vez preprocesadas las señales, se extraen sus características, para lo que se emplean métodos tradicionales, hand-crafted, o de deep learning, que permiten manejar grandes cantidades de datos y mejorar la precisión. Los tradicionales analizan la señal a través:
- Dominio del tiempo - Dominio de la frecuencia
- Dominio de Hilbert-Huang (HHT)
Por otro lado, deep learning permite reducir tiempos y la dependencia respecto de los métodos tradicionales. Así emplea sus múltiples capas en diferenciar actividades elementales de las de alto nivel. El reconocimiento de la actividad con deep learning puede ser generativo (no supervisado) o discriminativo (supervisado). Entre los generativos se utilizan:
- Máquina de Boltzman restringida (RBM), que da una representación robusta de las características, pero es compleja computacionalmente, lo que dificulta su optimización.
- Autoencoder profundo (Wang et al. 2016), reduce la dimensionalidad de forma robusta e invariantes ante cambios en las distribuciones de datos, pero no es muy escalable, necesitando muchos pasos de muestras, siendo difíciles de optimizar y no funcionando bien con características no lineales.
- Sparse Coding, reduce bien la dimensionalidad y extrae características robustas, pero son difíciles de implementar correctamente.
Y como discriminativos se emplean:
- Red neuronal convolucional (CNN), que da mucho juego en la extracción de características (Ignatov 2018), pero requiere un elevado ajuste de hiperparámetros y una gran cantidad de muestras que minimicen su sobreajuste.
- Red neuronal recurrente (RNN), muy común para el modelado temporal y secuencias de sensores, pero difícil de manejar y puede necesitar demasiados parámetros para actualizar. Un ejemplo particular es la red Long/Short-Term Memory (LSTM), que puede mejorar el rendimiento entre el 4% y 9%, aunque el rendimiento se deteriora al ir desapareciendo o sobrecargándose los gradientes (Ordóñez et al. 2016).
CLASIFICACIÓN DE ACTIVIDADES
Finalmente, las señales se clasifican con técnicas de aprendizaje automático, machine learning:
- Máquinas de vector soporte (SVM)
- Arboles de decisión o combinándolos con random forest
- Agrupando k vecinos más cercanos (k-NN) o con K-means
- Modelos ocultos de Markov (HMM) - Modelos gaussianos de mezcla de componentes (GMM)
- Mapas auto-organizativos o Redes de Kohonen (SOM)
- Modelos neuronales Deep Learning o Redes Neuronales Convolucionales (CNN) o Redes recurrentes (RNN) o LSTM (Long-short term memory) o Autoencoders
HERRAMIENTAS TÉCNICAS
Las herramientas que suelen usarse para construir los modelos son (Nweke et al. 2019):
- Microsoft Cognitive Toolkit
- Deeplearning4J, para Java
- Matlab
- Librerías de Python: TensorFlow, Theano, Keras, Torch o Pytorch.
TÉCNICAS DE COMBINACIÓN (FUSIÓN)
El reconocimiento de actividad ha mejorado de forma natural con la combinación de la información, produciendo mayor robustez, generalización, precisión, diferenciación, menor ruido y complementariedad (Onofri et al. 2016). Esto lleva a una mayor fiabilidad y a una menor incertidumbre en monitorización de la salud y en la identificación de actividades cotidianas (Nweke et al. 2019). La fusión se puede dar a tres niveles: combinando sensores, recombinando características de los datos de forma intuitiva aplicando transformaciones a otros dominios o mediante técnicas de deep learning y combinando clasificadores.
COMBINACIÓN DE SENSORES Y APLICACIÓN DE VARIAS TÉCNICAS DE PREPROCESAMIENTO
Normalmente empleada para aumentar la fiabilidad y reducir el ruido en la monitorización de la salud o la ADL. Por un lado, se pueden obtener datos simultáneos de diferentes tipos de sensores o realizar una limpieza de los registros que llegan de modo que permita obtener datos de calidad.
COMBINACIÓN DE DIFERENTES TIPOS DE SENSORES
A bajo nivel pueden combinarse en tiempo real señales de la misma naturaleza, homogéneas, o de diferentes tipos de sensores, heterogéneas, pudiendo usar métodos probabilísticos que refinen los resultados. Se pueden combinar físicamente los sensores según su modalidad o aplicar métodos de fusión. Los sensores básicos que se suelen fusionar son los inerciales, como los A/M/G (acelerómetro, magnetómetro, Giroscopio), los multimodales, como de señales biológicas, los de ambiente, de objetos, de visión y de localización. La tendencia actual es concretamente combinar varios sensores inerciales con varios multimodales (Nweke et al. 2019):
COMBINACIÓN DE MÉTODOS DE LIMPIEZA DE DATOS EN CRUDO
Además de combinar la información de sensores, se utilizan las siguientes combinaciones de métodos de limpieza:
- Aplicación de la media ponderada y mínimos cuadrados, permitiendo corregir una potencial colocación u orientación inadecuadas de los dispositivos.
- Uso de un Filtro Kalman, para corregir señal con los valores temporales anteriores, aunque sólo es para valores lineales o normales. Kalman es bueno para fusionar los datos de acelerómetros y giroscopios y se usan modificaciones como Kalman extendido, que es muy eficiente, Kalman extendido por cuaterniones, o el Rao-blackwellization sin esencia – Rao-blackwellization unscented-.
- Teoría de Dempster-Shaffer, que caracteriza las imperfecciones y derivas del sensor antes de interpretar sus datos.
- Enrutamiento epidémico, que reduce el consumo de energía (vital en este contexto) y el retraso de transmisión.
- Teoría de grafos, que combina con la actividad en redes sociales o con información proveniente del historial médico de la persona
- Correlación canónica profunda, que aprende transformaciones no lineales complejas de datos heterogéneos obteniendo correlaciones prácticamente lineales.
CONCENTRACIÓN DE DATOS POR SUS CARACTERÍSTICAS
Se combinan fuentes de datos de distintos sensores empleando machine learning apoyado por técnicas tradicionales, handcrafed features, o con deep learning.
EXTRACCIÓN DE CARACTERÍSTICAS CON TÉCNICAS TRADICIONALES
La extracción de características relevantes es esencial para el reconocimiento de la actividad humana. Junto con la reducción de dimensionalidad, minimizan el error de clasificación e identifican el conjunto de variables que mejor discrimina la actividad:
- Por el tipo de transformación de la variable, en el dominio del tiempo (valores estadísticos centrales y de dispersión) y dominio de la frecuencia (energía espectral con transformada de Fourier (FFT) o Coseno, ambas buenas en problemas lineales. Hilbert-Huang mejor para no lineales.
- Por selección de variables, mediante filtros, algoritmos envolventes, wrappers, que dependen de sus clasificadores o inserciones, embedded. Se emplean métodos como discriminante de Kernel-Fisher, Mínima redundancia-Máxima relevancia, Correlación o ReliefF, o más recientes como diversified forward-backward con regresión logística, power-aware, elitist binary Wolf search algorithm (EBWSA)
- Aplicando machine learning. SVM, k-NN, ANN, árboles de decision, random forest, HMM, BayesNaïve, aprendizaje multikernel, kernel gaussiano, clasificador discriminante lineal, clustering Kmeans. HMM y árboles para reconocimiento jerárquico de actividades (de bajo y alto nivel). Kmenas se emplea para agrupar actividades similares antes de su integración en actividades de alto nivel.
EXTRACCIÓN DE CARACTERÍSTICAS CON DEEP LEARNING
La combinación más común es la de CNN con:
- RNN, para establecer dependencias entre espacio y tiempo combinando sensores, o extraer características invariantes del desplazamiento
- LSTM, para reconocimiento de varias actividades concurrentes, pero consume muchos recursos lo que la hace difícil para aplicaciones en tiempo real
- LSTM bidireccional con sensores multimodales para monitorización médica
- Autoencoder, usada para detección de caídas utilizando sensores corporales
- RBM, para extraer características invariantes cuando el individuo se traslada y reducir el tamaño de ejemplos, pero los escasos conjuntos de datos y usar un único sensor, pero reduce la generalización
- Deep belief network, que se usa para pre-diagnóstico médico y propiamente para teleasistencia
- Gated RNN (GRU), para análisis de sensores y seguimiento de actividad, pero consume muchos recursos, por lo que no es aconsejable en tiempo real.
También se emplea deep learning con apoyo de técnicas tradicionales, lo que reduce la carga computacional, aunque no son eficientes extrayendo características temporales:
- CNN, para reconocimiento de actividad con sensores móviles
- LSTN y mixture density network (MDN), que resuelven el problema de disponer de pocos ejemplos para entrenar, ya que generan un dataset sintético, que, para distinguirlo del real, emplean medias heurísticas
- Red convolucional de código disperso, sparse coding, con dispersión de capas completamente conectadas, reduciendo el kernel, para descargar la memoria de trabajo, aunque es muy difícil usar código disperso
- Deep belief combinada con código disperso tiene aplicaciones médicas en ancianos y tiene un comportamiento igual que la anterior
El aprendizaje por transferencia de otros ámbitos, transfer learning, se emplea para recortar el entrenamiento y reducir la dependencia de cómo colocar los sensores.
ENSAMBLE DE CLASIFICADORES
Los clasificadores elementales que normalmente se emplean para su ensamble son: Arbol de decisión, SVM, HMM, ANN y LDA, que se combinan según los métodos de diseño siguientes
- Diversificación de modelos, consigue gran diferenciación, incrementa la fiabilidad de la predicción y la generalización. El único problema está en la decisión del clasificador
- Manipulación de características de entrada, asegura dependencias entre los clasificadores empleados y más rapidez por la reducción del espacio de entrada, pero se corre el riesgo de incluir características irrelevantes y sufre el problema de la fragmentación, especialmente si son pocas instancias
- Inicialización aleatoria, proporciona diferenciación en una distribución espacial no lineal, pero requiere recursos computacionales por las actualizaciones de parámetros
- Partición de datos con bagging, boosting o mediante cross validation, que aplicando diversas hipótesis permite mayor diferenciación y consistencia y menor incertidumbre. Poco adecuados para muchas dimensiones o para usarse aislados.
Y esto se hace atendiendo a los siguientes criterios de ensamble:
- Uniendo la clase de los dataset por consenso o por consenso ponderado. Muy usado, aunque no tiene más garantías que si se usa un solo clasificador
- Fusión entrenable, con la teoría de Dempster-Shafer, suma ponderada, plantilla localizada o por comité aleatorio. La optimización mejora la precisión y reduce las incertidumbres, pero las salidas pueden confundirse
- Fusión con función soporte, por probabilidades a posteriori, Naïve-Bayes, Agregación de medias, selección de preferidos, por espacio de conocimiento del comportamiento. Eficiente y preciso, pero impone condiciones muy restrictivas a los clasificadores lo que hace que sea difícil de implementar en la práctica
INTELIGENCIA AMBIENTAL
Por otro lado, Ambient Intelligence (AmI) es un nuevo paradigma que mejora las posibilidades de las personas a través de “ambientes digitales”, que perciben, se adaptan y responden a sus necesidades, hábitos, gestos o emociones. AmI aprovecha la información del contexto, se personaliza para cada individuo, se anticipa, se adapta a las necesidades, está ubicada en todas partes y no es invasivo a nivel corporal.
Normalmente se dan dos tipos de infraestructura de comunicación para los sensores AmI al construir un smart environment (Acampora et al. 2013):
- Red de área corporal (Body Area Network, BAN, en analogía con LAN), compuesta por sensores en la ropa o en la piel. Se monitorizan constantes vitales y se emplean en la mejora de la salud y la calidad de vida. La comunicación se establece a 3 capas: intra-sensores, para distancias en torno a 2 metros, inter-sensores, en que se comunican con puntos de acceso y más allá de la BAN, pudiendo conectarse en cualquier punto del área metropolitana con dispositivo que actúa de gateway
- Red inalámbrica de sensores interconectados o densa (Wireless Dense/Mesh Sensor Networks, WMSN), compuesta por sensores situados en objetos y lugares de la vida cotidiana, como ropa, muebles, etc. Los sensores tienen capacidad para actuar también como retransmisores de otros sensores y se conectan mediante gateways, puntos de acceso o nodos móviles o estacionarios
Recientemente se están desarrollando estructuras para sistemas de sensores más cómodos, como los sensores epidérmicos y los microsensores electromecánicos (MEMS) del tipo A/G/M, detector de CO2, sensor gas, o médicos.
RETOS AL RECONOCIMIENTO DE LA ACTIVIDAD EN HOGARES PARA LA TELEASISTENCIA
Securhome busca una diferenciación tecnológica que aporte una solución robusta y fiable. Para ello tiene que afrontar los siguientes retos comunes a la investigación en esta área:
- Es necesario aumentar la robustez, generalización y fiabilidad actuales, así como reducir la incertidumbre y aumentar la precisión de las técnicas de clasificación.
- La recopilación masiva de datos y el tedioso proceso de anotación hace que sea necesaria su automatización para conseguir estos objetivos.
- Reducir la excesiva carga invasiva de dispositivos corporales para monitorización.
- El video y los sensores ambientales trabajan en entornos fijos lo que no los hace adecuados para el reconocimiento de actividad.
- El video además invade la privacidad, localiza a las personas y captura información colateral, lo que no es deseable.
- Los sensores ambientales se ven muy afectados por el ruido y es algo que se debe resolver.
- Posible exposición excesiva a la radiación de algunos dispositivos por parte de las personas monitorizadas.
- Hace falta estudiar más la fusión entre los sensores multimodales con otros contextos como redes sociales o con detalles de alto nivel de abstracción.
Respecto a los retos que debe asumir deep learning concretamente se encuentran:
- El uso de deep learning online puede reportar grandes beneficios en la mejora de la detección, sin embargo, los sensores, especialmente los móviles, sólo usan modelos que ya han sido entrenados offline, de modo que se haya reducido al máximo la comunicación con el servidor y la computación local en el dispositivo para así ahorrar energía.
- Deep learning requiere mejor precisión a reconocer la actividad, por lo que su entrenamiento necesita enormes cantidades de datos. La generalización del despliegue de estas aplicaciones con infraestructuras del tipo sensor grid o Internet de las cosas (IoT) facilitan que pueda emplearse crowdsourcing, facilitando una captura masiva de datos de múltiples individuos para entrenar mejor el modelo. Así mismo, la interconexión facilita el trasvase de información entre dominios diferentes automáticamente, deep transfer learning.
- Es necesario obtener modelos más flexibles para reconocer las actividades de alto nivel, como la combinación de sensores o fusionar la información con el contexto.
- Existe una nueva línea de investigación que denominada aprendizaje profundo ligero que combina deep learning con técnicas tradicionales, o redes neuronales estándar.
REFERENCIAS
Acampora, Giovanni, Diane J. Cook, Parisa Rashidi, and Athanasios V. Vasilakos. 2013. “A Survey on Ambient Intelligence in Healthcare.” Proceedings of the IEEE 101(12):2470–94. Retrieved February 8, 2019 (http://ieeexplore.ieee.org/document/6579688/).
Botia, Juan A., Ana Villa, and Jose Palma. 2012. “Ambient Assisted Living System for In-Home Monitoring of Healthy Independent Elders.” Expert Systems with Applications 39(9):8136–48. Retrieved February 8, 2019 (https://linkinghub.elsevier.com/retrieve/pii/S095741741200173X).
Chernbumroong, Saisakul, Shuang Cang, Anthony Atkins, and Hongnian Yu. 2013. “Elderly Activities Recognition and Classification for Applications in Assisted Living.” Expert Systems with Applications 40(5):1662–74. Retrieved February 8, 2019 (https://linkinghub.elsevier.com/retrieve/pii/S0957417412010585).
Cornacchia, Maria, Koray Ozcan, Yu Zheng, and Senem Velipasalar. 2017. “A Survey on Activity Detection and Classification Using Wearable Sensors.” IEEE Sensors Journal 17(2):386–403. Retrieved February 8, 2019 (http://ieeexplore.ieee.org/document/7742959/).
Ignatov, Andrey. 2018. “Real-Time Human Activity Recognition from Accelerometer Data Using Convolutional Neural Networks.” Applied Soft Computing 62:915–22. Retrieved February 8, 2019 (https://www.sciencedirect.com/science/article/pii/S1568494617305665).
Joshi, Nirmala B. and S. L. Nalbalwar. 2017. “A Fall Detection and Alert System for an Elderly Using Computer Vision and Internet of Things.” Pp. 1276–81 in 2017 2nd IEEE International Conference on Recent Trends in Electronics, Information & Communication Technology (RTEICT). IEEE. Retrieved February 8, 2019 (http://ieeexplore.ieee.org/document/8256804/).
Just Checking. n.d. “Hello, We’re Just Checking.” Retrieved February 8, 2019 (https://justchecking.co.uk/about-us).
Lago, Paula, Claudia Roncancio, and Claudia Jiménez-Guarín. 2019. “Learning and Managing Context Enriched Behavior Patterns in Smart Homes.” Future Generation Computer Systems 91:191–205. Retrieved February 8, 2019 (https://www.sciencedirect.com/science/article/pii/S0167739X18307180).
Nestwork. n.d. “Solución Personal Móvil de Localización y Emisión de Alertas.” Retrieved February 8, 2019 (http://www.nestwork.eu/que-es-enest/).
Nweke, Henry Friday, Ying Wah Teh, Ghulam Mujtaba, and Mohammed Ali Al-garadi. 2019. “Data Fusion and Multiple Classifier Systems for Human Activity Detection and Health Monitoring: Review and Open Research Directions.” Information Fusion 46:147–70. Retrieved February 8, 2019 (https://www.sciencedirect.com/science/article/pii/S1566253518304135).
Onofri, Leonardo, Paolo Soda, Mykola Pechenizkiy, and Giulio Iannello. 2016. “A Survey on Using Domain and Contextual Knowledge for Human Activity Recognition in Video Streams.” Expert Systems with Applications 63:97–111. Retrieved February 8, 2019 (https://www.sciencedirect.com/science/article/pii/S0957417416302913).
Ordóñez, Francisco, Daniel Roggen, Francisco Javier Ordóñez, and Daniel Roggen. 2016. “Deep Convolutional and LSTM Recurrent Neural Networks for Multimodal Wearable Activity Recognition.” Sensors 16(1):115. Retrieved February 8, 2019 (http://www.mdpi.com/14248220/16/1/115).
Pierleoni, Paola, Alberto Belli, Lorenzo Palma, Luca Pernini, and Simone Valenti. 2014. “A Versatile Ankle-Mounted Fall Detection Device Based on Attitude Heading Systems.” Pp. 153–56 in 2014 IEEE
Biomedical Circuits and Systems Conference (BioCAS) Proceedings. IEEE. Retrieved February 8, 2019 (http://ieeexplore.ieee.org/document/6981668/).
Pollack, Martha E. et al. 2003. “Autominder: An Intelligent Cognitive Orthotic System for People with Memory Impairment.” Robotics and Autonomous Systems 44(3–4):273–82. Retrieved February 8, 2019 (https://www.sciencedirect.com/science/article/pii/S0921889003000770).
Principi, Emanuele, Stefano Squartini, Roberto Bonfigli, Giacomo Ferroni, and Francesco Piazza. 2015. “An Integrated System for Voice Command Recognition and Emergency Detection Based on Audio Signals.” Expert Systems with Applications 42(13):5668–83. Retrieved February 8, 2019 (https://www.sciencedirect.com/science/article/pii/S0957417415001438).
Uddin, Md Zia, Weria Khaksar, and Jim Torresen. 2018. “Ambient Sensors for Elderly Care and Independent Living: A Survey.” Sensors (Basel, Switzerland) 18(7). Retrieved February 8, 2019 (http://www.ncbi.nlm.nih.gov/pubmed/29941804).
Wang, Aiguo, Guilin Chen, Cuijuan Shang, Miaofei Zhang, and Li Liu. 2016. “Human Activity Recognition in a Smart Home Environment with Stacked Denoising Autoencoders.” Pp. 29–40 in. Springer, Cham. Retrieved February 8, 2019 (http://link.springer.com/10.1007/978-3-319-47121-1_3).