Continuamos con nuestra ronda de entrevistas con expertos que, tal como ya os anunciamos, nos irán explicando de manera sencilla cómo aplican las tecnologías que son tendencia (TenTIC) en sus campos profesionales. En esta ocasión hablamos con Santi Camps, director y fundador de la empresa Social Vane, empresa de tecnología para la inteligencia de mercado turística, que nos hablará de Big Data.
Pregunta: Hemos leído algunas entrevistas que le han hecho en InfoMenorca y en el Centro de Innovación BBVA sobre la actividad de su empresa. Sabemos que se dedica a analizar información turística procedente de diferentes plataformas web como Twitter, Tripadvisor, y otros lugares virtuales donde los turistas pueden dejar opiniones sobre destinos y servicios turísticos.
Nos gustaría profundizar en la motivación, la metodología, la tecnología y los resultados para sus clientes.
Quina relació té la tasca que realitza a Social Vane amb el Big Data?
Sovint el terme de Big Data és confús. Molta gent creu que si gestiona volums d’informació mitjanament grans ja fa Big Data, però no és així, a part dels volums grans, Big Data es caracteritza per extraure informació no evident de dades desestructurades. Això és exactament el que fem a la nostra empresa, on a partir de milions de comentaris que esmenten una destinació turística som capaços d’extreure una fotografia del mercat en temps real, amb informació i detalls del tot insospitats.
Quina metodologia i tecnologia utilitzen per cercar i emmagatzemar la informació? Quin és el principal avantatge? Quina és la principal dificultat?
Obtenim la informació mitjançant les APIs de les xarxes socials, principalment Twitter i Instagram, i l’emmagatzemam en bases de dades NoSQL.
Quines fonts d’informació (webs) analitzen?
Twitter, Instagram principalment, però el nostre sistema és capaç de rastrejar mencions esments en qualsevol web del món.
Quina metodologia i tecnologia utilitzen per analitzar la informació que extreuen de les fonts abans esmentades? Quin és el principal avantatge? Quina és la principal dificultat?
Utilitzam sobretot processament de llenguatge natural (NLP), mitjançant una llibreria desenvolupada per l’equip d’investigació de la UPC anomenada Freeling, però també fem servir tècniques de reconeixement facial i algoritmes d’aprenentatge. Ho programam tot en llenguatge Python i ho paral·lelitzam mitjançant Celery perquè es necessiten moltes màquines simultànies per processar-ho tot. El principal avantatge és que vam aconseguir enriquir molt la informació en grans volums, la dificultat és que cal pensar-ho tot perquè s’executi de forma distribuïda
Quines són les variables que analitzen i com relacionen unes variables amb les altres?
Nosaltres acceptem tot el que podem de la menció i l’emissor de la mateixa, i després vam acabar enriquint aquesta informació. Al final vam acabar tenint un munt de variables, com són les destinacions turístiques, els mercats emissors, els productes turístics, els atractius turístics per destinació i producte, el gènere dels emissors, el seu rang d’edat, la seva ubicació geogràfica o fins i tot tot el seu perfil socioeconòmic. El nostre ssoftware permet creuar tot amb tot, és com una matriu N dimensional que facilita analitzar la informació des de tots els prismes possibles.
Quin tipus d’anàlisis estadístiques apliquen? I per què han escollit aquests i no uns altres?
Aplicam estadística senzilla, cercam proporcionar una foto del mercat turístic de la manera més clara i comprensible possible. On potser hi ha fórmules una mica més complexes és a l’hora d’estimar indicadors com la percepció de seguretat d’una destinació o la satisfacció climàtica.
Quina tecnologia utilitzen per realitzar els mapes i els gràfics que ofereixen als seus clients?
Una llibreria de Javascript molt generalista i coneguda anomenada HighCharts.
Quines dificultats s’han trobat per realitzar aquesta anàlisi i com les han solucionat?
Al principi vam tenir molts problemes per poder analitzar volums d’informació tan grans amb temps de resposta acceptables (de pocs segons). Ho vam solucionar en tres vies: tunning del sistema, caching per software i hardware especialitzat.
Quins són els resultats més significatius que ens pot explicar (no cal dir per a qui els han descobert)? Per a què serveixen? Quines noves línies d’investigació proposa a partir d’aquests resultats?
Alguns dels més sonats són el Ranking Big Data de las Costas Españolas publicat a Hosteltur o l’anàlisi de l’impacte dels atemptats de París a la percepció de seguretat publicat a Skift.
Què aconsellaria que estudiï a un jove que es vol dedicar a l’anàlisi i visualització de dades en el camp del Big Data?
Enginyeria informàtica per una banda i Disseny Gràfic per l’altra. Los dades han de ser útils, però també fa falta que es presentin de forma atractiva jajaja.
I a un que es vulgui reciclar per dedicar-se a aquest nou camp que ara sembla estar tan de moda?
Que comenci per descarregar i estudiar la gran quantitat d’eines de software libre que fan possible aquest nou camp.
Ens pot recomenar una pel·lícula que inspiri allò en què està treballant?
Her, és una pel·lícula molt interessant sobre la intel·ligència artificial.
Ens pot recomanar un llibre que expliqui part d’allò que està fent?
Running Lean, t’ajuda a centrar-te, la seva conclusió és que no hi ha res pitjor que dedicar la teva vida a construir coses que ningú necessita 🙂