Origen de los sistemas inteligentes. Aplicaciones de la Inteligencia Artificial
En anteriores entradas del blog hemos explorado el origen de los sistemas inteligentes y su evolución a lo largo de la historia. En esta nueva entrada trataremos de comprender qué aporta la Inteligencia Artificial al mundo actual, comprendiendo los bloques principales en los que se trabaja esta disciplina.
Como en toda disciplina científica, las subdivisiones que pueden proponerse a efectos de clasificación son infinitas y subjetivas en su gran mayoría. No obstante, en el campo de la IA hay un cierto consenso acerca de las grandes categorías, aquellas de las que beben todas las demás.
En la actualidad, la gran mayoría de soluciones de inteligencia artificial trabajan en una de estas categorías principales: Visión artificial, procesamiento del lenguaje natural, y por último la generación de voz y texto.
Visión artificial
La visión artificial tiene como objetivo que los ordenadores comprendan la información visual que reciben. La visión de un ser humano no solo captura imágenes, como una cámara digital, sino que las procesa, comprende, y toma decisiones en función de lo observado.
Para lograr que una máquina comprenda la información contenida en una imagen o video, se emplean algoritmos basados en redes neuronales. En concreto, el modelo más empleado a día de hoy es el de las Redes Neuronales Convolucionales (CNN por sus siglas en inglés). Una red neuronal convolucional es un programa informático que efectúa numerosas operaciones matemáticas sobre cada pixel de la imagen que recibe, para cumplir un objetivo determinado. La gran ventaja es que estas operaciones, como se comentó en la entrada de introducción a la IA, las decide la propia red neuronal.
Los objetivos que puede perseguir una Red Neuronal Convolucional (CNN) son muy numerosos, pero entre los más importantes se encuentran:
1. Clasificación de objetos. El sistema inteligente recibe una imagen y trata de comprender el objeto que en ella se presenta. Por ejemplo, identificar la especie de una planta mediante una fotografía, o diferenciar entre distintos tipos de vehículo en un sistema de peaje automático. En este tipo de objetivo no es relevante la ubicación espacial de los objetos, sino sencillamente asociarles una clase. Una de las mayores limitaciones de las técnicas de clasificación es que solo pueden procesar un único concepto por imagen.
2. Detección de objetos. En este caso, el sistema de IA trata de ubicar espacialmente los objetos, además de clasificarlos. Esto quiere decir ser capaz de recuadrar cada objeto de interés en las imágenes o vídeos proporcionados a la red neuronal. Este tipo de tecnología se emplea en los coches autónomos para detectar señales de tráfico y posteriormente clasificarlas para conocer el tipo de señal que se está observando.
3. Seguimiento de objetos. Por último, una vez sabemos dónde está cada objeto y de qué tipo es, puede ser interesante conocer por dónde se mueven. Con esta tecnología podemos conocer, entre otras cosas, cómo se mueven los clientes de un supermercado a lo largo del mismo e identificar por tanto las rutas más transitadas y los puntos calientes.
Procesamiento del lenguaje natural (NLP )
El procesamiento del lenguaje natural persigue el objetivo de que los ordenadores puedan comprender el lenguaje humano. Para ello, se han desarrollado diversas técnicas de inteligencia artificial como las Redes Neuronales Recurrentes, con memoria a largo y corto plazo (LSTM)
Análisis de texto
El análisis de textos permite a un ordenador procesar un texto escrito por un ser humano y extraer la información más relevante del mismo. Permite a la IA reconocer sintáctica y semánticamente entidades, relaciones entre ellas, o conceptos clave. Puede emplearse para analizar la reputación de una marca en redes sociales, la popularidad de un político o para resumir artículos de prensa.
Análisis de sentimientos
Gracias a esta tecnología la IA va un paso más allá en el procesamiento del lenguaje natural. No solo reconoce conceptos o temas, sino que detecta la intención del emisor. De esta forma, podemos detectar clientes molestos con el trato recibido, simpatizantes eufóricos por un discurso político, o reseñas de productos online decepcionantes.
Traducción automática
La tarea de la traducción automática ha avanzado enormemente desde la aparición del aprendizaje profundo (deep learning) permitiendo a los ordenadores comprender el contexto e intención de una frase en un idioma antes de traducirla a cualquier otro. De esta forma, no es una traducción estructurada, sino que se trata de mantener el mensaje y connotación originales. Un ejemplo de traducción mediante redes neuronales profundas, además del archiconocido Google Translate, es el traductor online DeepL, autodenominado el mejor traductor del mundo.
Clasificación de textos
Por último, la clasificación de textos nos permite asociar etiquetas a contenidos completos para mejorar la clasificación de libros, textos y artículos. En este caso, la IA procesa todo un texto y trata de agruparlo por categorías, tal y como hace la tecnología de clasificación de objetos pero procesando palabras en vez de imágenes.
Generación de voz y texto
Aunque pueda parecer un campo similar al procesamiento de lenguaje natural, en este caso la tarea no es comprender información generada por humanos sino generar información que pueda parecer haber sido generada por humanos o convertir un tipo de información en otra (escrita a hablada o viceversa)
Síntesis de voz
La síntesis de voz persigue poder leer en voz alta y con una entonación natural cualquier texto escrito que se proporcione como entrada. De esta manera, se pueden realizar aplicaciones como asistentes conversacionales o apoyo para personas de visión reducida o edad avanzada que puedan necesitar un soporte auditivo para comprender textos escritos.
Síntesis de texto
En este caso la IA trata de realizar exactamente lo contrario. Partiendo de un archivo de sonido en el que un humano habla en un idioma predeterminado, las redes neuronales tratan de transcribir su discurso a texto. Esta tecnología también ayuda a personas con dificultades para escribir en teclados de ordenadores o teléfonos móviles, pero también puede ayudar a generar subtítulos de forma automática en videos para ayudar a las personas con problemas de audición.