RapidMiner es una joya del software libre con la que he tenido la fortuna de cruzarme recientemente. Este programa para la minería y análisis de datos ofrece una interfaz gráfica desde la que organizar secuencias de procedimientos analíticos tan variados como útiles para los proyectos que se realizan en turisLAB. Minería de textos, web crawling, scraping, análisis de imágenes, análisis de series temporales son algunas de las técnicas a las que da soporte. Ofrece soluciones para problemas que nos dieron más de un quebradero de cabeza en Al4Tour (ojalá lo hubiera encontrado antes… ese bag of words se habría resistido menos) y nos ofrece interesantes alternativas para fotoID2.
Uno de los módulos que tenemos en mente desarrollar para la Suite de Fotoidentificación deberá detectar automáticamente carácteres diagnósticos (identificativos) en fotografías. Con Rapid Miner y su extensión para procesamiento de imágenes empecé a indagar en métodos útiles para este propósito obteniendo resultados prometedores.
El usario estándar accede a toda su funcionalidad a través de una original interfaz gráfica dónde encadenar secuencialmente los procesos analíticos que generan tablas o gráficas de resultados de calidad (publicables en artículos académicos). Aunque los primeros pasos al utilizarla fueron más bien desalentadores (no es precisamente intuitiva en su funcionamiento) existe en youtube un gran número de videotutoriales que facilitan enormemente el aprendizaje. Muy recomendable es la serie del Dr. Markus Hofman del Institute of Technology Blanchardstown que ilustra de forma práctica usos básicos y expertos del programa.
RapidMiner también ofrece a programadores (a través de un lenguaje de scripting y una API) facilidades para crear sus propios programas a partir de esos bloques (procesos). Sin duda esa es una posibilidad que aprovecharemos en fotoID2 o un posible Al4Tour2 dónde pudieramos ahorrarnos muchas líneas de código, por tanto tiempo, por tanto dinero, utilizando esta herramienta.