El modelo “Bag of Words” es una de las ideas más simples y útiles entre las utilizadas en el procesado de lenguaje natural. Dado un set de documentos o corpora, se determina la frecuencia de aparición de cada palabra del conjunto en cada uno de los documentos. Esta información puede ser más o menos refinada en función de los filtros previos que se apliquen sobre los textos.
Aquí únicamente introduciré algunas ideas básicas de la minería de texto para, en un próximo post, explicar cómo se están aplicando en Al4Tour. Nuestra intención será realizar una modesta contribución a la disciplina de análisis de sentimiento.
La clave para extraer eficazmente la información que necesitamos de un grupo de textos está en el uso de estos filtros. Su función es eliminar información superflua, proporcionar formato para el análisis automatizado y evitar redundancia en los resultados. Los más utilizados son:
- eliminación de stop words: generalmente determinantes, conjunciones, preposiciones, etc… palabras muy frecuentes de bajo valor semántico
- un filtro simple pero básico: convertir a minúsculas todas las letras. Son máquinas las que conducirán el análisis y cambios como éstos facilitarán muchos su labor
- stemming o reducción de las palabras a su raíz, que permite contar como un mismo término a palabras independientemente de su número, género o de si se tratan de formas verbales distintas. El algoritmo de Porter es el más utilizado en este sentido
- lemmanisation: con una función similar a la del filtro anterior, agrupar palabras distintas bajo un mismo concepto, es algo más sofisticado. Aquí la unidad de identificación no es la raíz sino el lexema. Así pues, también permite identificar contextos y sinonímias