Noticias

Fondecyt UBB busca desarrollar algoritmos más eficientes en el análisis de grandes volúmenes de datos

Compartir:

El académico del Departamento de Ciencias de la Computación y Tecnología de la Información, Dr. Miguel Romero Vásquez lidera el proyecto Fondecyt de Iniciación titulado “Algoritmos eficientes para calcular la distancia de Hausdorff en conjuntos de puntos representados con estructuras de datos compactas”.

El Dr. Miguel Romero comentó que la iniciativa se desarrollará con la filosofía de Ciencia Abierta que pretende hacer la ciencia más accesible, eficiente, democrática y transparente, promoviendo el acceso abierto de los productos de investigación científica, incluidas las publicaciones, los datos, metodología, código, entre otros, de manera que sean accesibles a todos los niveles de la
sociedad, especialmente de aquel conocimiento científico generado con fondos públicos.

El Dr. Miguel Romero explicó que el objetivo principal del proyecto apunta a “crear algoritmos rápidos y eficientes, tanto secuenciales como paralelos, que permitan comparar conjuntos de puntos usando una medida matemática llamada distancia de Hausdorff. Esta distancia se usa, por ejemplo, para comparar imágenes médicas o trayectorias de vehículos. Lo novedoso es que vamos a trabajar con estructuras de datos compactas, que permiten ahorrar espacio sin perder eficiencia, algo muy importante cuando los volúmenes de datos son enormes”, señaló.

El investigador UBB indicó que la investigación nace del interés por “mejorar cómo almacenamos y procesamos grandes volúmenes de datos en campos como la medicina, donde se trabaja con imágenes complejas, o el transporte, donde se analizan trayectorias GPS. En estos contextos, no basta con guardar los datos: también hay que analizarlos rápido y sin gastar demasiados recursos. Las estructuras compactas y los algoritmos paralelos ofrecen una oportunidad única para lograr eso”, enfatizó.

El Dr. Romero señaló que, aunque ya existen algoritmos para calcular la distancia de Hausdorff, “muy pocos están diseñados para funcionar directamente sobre estructuras compactas, y casi ninguno aprovecha el potencial del cómputo paralelo con procesadores modernos o GPUs. Este proyecto viene a llenar ese vacío. Mejorar estos algoritmos significa que distintas disciplinas —como la informática médica o el análisis geoespacial— podrán procesar más datos, más rápido y con menos recursos, lo que es clave para enfrentar desafíos actuales”, aseveró.

Un ejemplo: la informática médica

El Dr. Miguel Romero explicó que, por ejemplo, en la informática médica es posible comparar imágenes para realizar un diagnóstico, tal como sucede hoy en la detección del cáncer. “Supongamos que un dermatólogo tienes una base de datos de imágenes médicas de lunar y quiere encontrar cuál se parece más a una imagen específica como un tipo de cáncer. Puede hacerlo mediante métodos tradicionales o usando técnicas de machine learning. En este último caso, un algoritmo de inteligencia artificial puede indicar, con cierta probabilidad, si esa imagen corresponde o no a un caso de cáncer. Esa probabilidad depende de cómo fue entrenado el modelo, su precisión, etc. y esa tecnología ya se está utilizando actualmente”.

En esa línea el investigador UBB comentó que, para entrenar estos modelos, es necesario validar los resultados, etiquetar conjuntos de datos, y ahí es donde se emplea la distancia de Hausdorff, una medida que permite evaluar cuán similares son dos imágenes al comparar conjuntos de puntos que representan sus características.

“La distancia de Hausdorff entrega un valor numérico que se interpreta como la «distancia» entre dos conjuntos dentro de un espacio métrico (no necesariamente espacial en el sentido físico, pero con propiedades similares a los espacios geométricos). Así, podemos imaginar que un conjunto de puntos representa una ubicación en ese espacio, y otro conjunto representa otra. Al calcular la distancia entre ellos, obtenemos una idea de qué tan cercanos o similares son. Los conjuntos con menor distancia son más parecidos; los que están más lejos, son más diferentes. Esta métrica permite ordenar las imágenes de acuerdo con su similitud”, ilustró.

El Dr. Romero señaló que el problema surge cuando hay que buscar o contrastar entre un número muy grande de imágenes. “Si son cinco, es fácil, incluso una persona podría hacerlo. Pero cuando se trata de millones de imágenes, una búsqueda manual ya no es viable. Por eso, mientras más rápido y eficiente sea este proceso, más ágil será la respuesta que se puede ofrecer en un entorno médico o clínico”, indicó.

“Al final del proyecto esperamos obtener una serie de algoritmos eficientes y validados, capaces de comparar grandes volúmenes de datos usando esta métrica. También esperamos publicar estos resultados en revistas y congresos internacionales, y poner a disposición del público los códigos desarrollados. Además, este proyecto servirá como base para formar estudiantes de pregrado y postgrado, generando tesis y experiencia en investigación de alto nivel”, aseguró.

Almacenamiento y procesamiento
El Dr. Romero señaló que también se pretende abordar conjuntamente los desafíos del almacenamiento y del procesamiento en un algoritmo y una estructura de datos. Sin embargo, almacenar grandes volúmenes de información de forma eficiente tiene un alto costo.

“Una solución clásica ha sido la compresión. En el caso de las imágenes, por ejemplo, se utilizan formatos comprimidos como bmp. En términos generales, la compresión clásica consiste en reducir el volumen de los datos, como si se intentara “meter” la información dentro de un círculo más pequeño. El problema con este enfoque es que, para poder usar los datos, primero es necesario descomprimirlos, lo cual implica un costo computacional adicional”.

Frente a esto, explicó el Dr. Romero, surgen las estructuras de datos compactas. “Estas estructuras buscan, de cierta manera, lograr el mismo efecto que la compresión tradicional —es decir, ahorrar espacio— pero con una gran ventaja: permiten hacer consultas directamente sobre los datos compactados, sin necesidad de descomprimir toda la estructura. Esto permite alcanzar eficiencias similares a las estructuras tradicionales no compactas, y en algunos casos, incluso un costo computacional menor”, aseguró.

Esta ventaja se vuelve especialmente relevante en el contexto actual, donde muchos servicios de cómputo son tercerizados (por ejemplo, en la nube), y los proveedores cobran tanto por uso de memoria como por tiempo de cómputo. “Es decir, si utilizas más memoria, pagas más; si consumes más tiempo de cómputo, también pagas más. Por lo tanto, si se puede ahorrar espacio y reducir el tiempo de cómputo, el ahorro económico puede ser significativo”, indicó.

«El Dr. Miguel Romero comentó que la iniciativa se desarrollará con la filosofía de Ciencia Abierta que pretende hacer la ciencia más accesible, eficiente, democrática y transparente, promoviendo el acceso abierto de los productos de investigación científica, incluidas las publicaciones, los datos, metodología, código, entre otros, de manera que sean accesibles a todos los niveles de la
sociedad, especialmente de aquel conocimiento científico generado con fondos públicos”.

El académico Miguel Romero es Doctor en Computación (Universidade da Coruña, España), Máster en Tecnologías Informáticas Avanzadas (Universidad de Castila-La Mancha, España) y Magíster en Ciencias de la Computación (Universidad de Concepción, Chile). Sus líneas de investigación se refieren a Algoritmos y estructuras de datos, clásicas y compactas; Bases de datos, bases de datos espaciales, bases de datos espacio temporales; e Indexación de puntos móviles y trayectorias.

Fuente: UBB

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *