Iniciamos hoy una serie de entrevistas con expertos que nos irán explicando de manera sencilla cómo aplican las tecnologías que son tendencia (TenTIC) en sus campos profesionales. Empezamos con nuestro compañero Esteve Lladó, coordinador del área de Turismo de la Fundación BIT, que nos hablará de Big Data.
Pregunta: Recientemente habéis publicado el estudio “Anàlisis de tendencias en Twitter sobre destinos turísticos de Baleares en 2015″ que se presentó el pasado día 5 de febrero.
Nos gustaría profundizar en la motivación, la metodología, la tecnología y los resultados de este estudio y de futuros.
Què vos ha motivat a realitzar aquest estudi?
Avui en dia les xarxes socials s’han convertit en el principal mitjà de comunicació d’usuaris particulars i empreses per volcar opinions, notícies, preferències i experiències. L’estudi està motivat per la necessitat d’analitzar i mesurar tot aquest volum d’informació sobre l’activitat turística de les diferents destinacions o marques turístiques Balears. Volíem explotar l’oportunitat de les xarxes socials com a font d’informació alternativa a les clàssiques enquestes de satisfacció de clients.
Quina relació té aquest estudi amb el Big Data?
És un projecte Big Data tant pel volum d’informació, com per les tecnologies emprades. En el darrer any i mig hem analitzat al voltant de 15 milions de piulades (tweets) sobre totes les Illes. Un estudi sense precedents en aquest camp, ja que s’obre a nivell de tota una destinació turística. Aquest és un enfoc més ampli que el que fan actualment els community managers dels hotels, els quals solen acotar la seva activitat exploratòria als seus propis establiments, i no a tota la destinació (en camps com espais naturals, patrimoni, platges, etc.).
Quina metodologia i tecnologia utilitzau per cercar i emmagatzemar la informació? Quina és la principal avantatge? Quina és la principal dificultat?
La metodologia consisteix en monitoritzar diàriament tots els tweets que s’emeten a Twitter on apareixen les paraules clau Mallorca, Majorca, Menorca, Minorca, Eivissa, Ibiza i Formentera. Per fer les extraccions de tweets empram la REST API que proporciona Twitter, i les tecnologies emprades són Python i NodeJS. El principal avantatge és que aquest servei REST és obert, encara que té un límit d’accesos per minut que s’ha de respectar. Hem observat un efecte aleatori on, en diferents sessions d’extracció d’una data concreta, Twitter no entrega els mateixos tweets. Així i tot, aquest fet no representa un problema per extreure la pràctica totalitat de tweets que s’emeten sobre les paraules clau seleccionades.
Quina metodologia i tecnologia utilitzau per analitzar els tweets? Quina és la principal avantatge? Quina és la principal dificultat?
La metodologia per analitzar els tweets consisteix en calcular les taules de freqüències d’aparicions de hashtags i paraules, agregant-los per dia, de cada illa. El principal avantatge és que d’aquesta manera podem composar les sèries temporals que ens permeten explorar quins han estat els esdeveniments d’interès turístic que més han destacat i els recursos turístics que han estat més esmentats. Aquesta selecció és llavors classificada per categories de producte turístic (espais naturals, platges, patrimoni, esports, esdeveniments i topònims) per cada illa. La principal dificultat és dintingir els tweets que es consideren turístics dels que no ho són, ja que hi ha molta matèria gris que no té rellevància per l’estudi. Per desenvolupar aquests processaments empram Python i R, i per l’emmagatzement de les dades agregades empram tecnologia de NoSQL, concretament MongoDB.
Quines són les variables que analitzau i com relacionau unes variables amb les altres?
Calculam bàsicament taules de freqüències de paraules i hashtags agregats per dia i per illa. També empram el recompte de retweets per interpretar pics d’activitat que s’han produit i si han estat provocats per “influencers” (perfils d’usuaris que compten amb un gran nombre de seguidors).
Quins tipus d’anàlisis estadístics aplicau? I per què haveu escollit aquests i no uns altres?
Empram un anàlisi estadístic descriptiu i basat en sèries temporals. Hem observat que Twitter és bàsicament una font per analitzar tendències, i les sèries són una eina molt potent per analitzar components tendencials (si alguna activitat puja o baixa en el temps) i components estacionals (si les dades mostren un patró de repetició). El context d’opinió difús que representa Twitter fa que l’anàlisi sigui diferent de si es fés, per exemple, sobre opinions de TripAdvisor, on les opinions escrites pels usuaris fan referència a un context molt concret, sobre la satisfacció de l’estada a un establiment d’allotjament.
Quina tecnologia utilitzau per a realitzar els mapes i els gràfics que haveu presentat en l’estudi?
Per graficar les sèries temporals empram Plotly, una llibreria gràfica de Python. I per mapes hem emprat, en altres estudis, CartoDB, que serveix també per fer pel·lícules animades molt potents per veure l’evolució gràfica de les dades sobre mapes.
Quines dificultats vos heu trobat per a realitzar aquest anàlisi i com les heu solventades?
En el cas dels mapes una de les dificultats és que no tots els tweets guarden la seva posició geogràfica, només si l’usuari té activa aquesta opció des del seu terminal mòbil. S’estima que al voltant d’un 10% dels tweets estan georeferenciats. És per tant una dada que s’ha de tenir en compte a l’hora d’aventurar conclusions.
Quins són els resultats més significatius? Per a què serveixen? Quines noves líness d’investigació proposau a partir d’aquests resultats?
El més significatiu és que el volum d’activitat a Eivissa despunta respecte al de les altres illes. Amb les sèries temporals hem pogut explorar si determinades activitats turístiques es concentren en època estival, o si per contra es desenvolupen en altres èpoques de l’any.
Hem realitzat també correlacions de les sèries de tweets acumulats per illa durant el 2015 amb les dades d’arribades de passatgers a les illes (font proporcionada per l’ Ibestat), i hem observat que les sèries d’Eivissa i Formentera estan fortament correlacionades amb l’activitat de Twitter, la qual cosa indica que les conclusions que es puguin treure d’aquest estudi sobre aquestes illes representen bastant bé la seva activitat turística en general. Una línia de investigació que proposam és la de l’anàlisi de sentiment, que en el cas de Twitter és extremadament complexe pel context difús que representa la informació que conté. Hi ha eines de caire comercial, però pensam que encara hi ha molt a explorar en aquesta matèria.
Què aconsellau que estudiï a un jove que es vulgui dedicar a l’anàlisi i visualització de dades en el camp del Big Data?
El Big Data no es pot desenvolupar amb una única tecnologia, aconsellam que es formin per ser solvents en llenguatges com Python i R, pel tractament de dades, i JavaScript per la representació gràfica de resultats. Hadoop i Spark són eines bàsiques pel tractament eficient de grans volums. També una bona base matemàtica i estadística és essencial.
I a un que es vulgui reciclar per a dedicar-se a aquest nou camp que ara sembla estar tant de moda?
El mateix que l’exposat en el punt anterior.
Ens pot recomanar una pel.lícula que inspiri el què està treballant?
Tot i que encara no està estrenada,Snowden, d’Oliver Stone.
Ens pot recomanar un llibre que expliqui part del què està fent?
El llibre titulat “Natural Language Processing with Python.- Analyzing Text with the Natural Language Toolkit” ha estat un molt interessant sobre processat de llenguatge natural, i per desenvolupar alguns dels processaments emprats en l’estudi, com la tokenització del text, l’extracció de n-grames, el tractament de stopwords, i el càlcul de distribució de freqüències.