Con una trayectoria de formación en matemáticas, estadística y programación en código abierto esta especialista en análisis de datos y en Big Data (CV en la parte inferior) tiene uno de los perfiles màs buscados por las empresas en los últimos meses. Su bagaje académico y experiencia profesional, hacen de Antònia Tugores ( su perfil de Linkedin) un referente en la isla y estamos muy contentos de que nos haya concedido esta entrevista donde nos cuenta cómo ve este mundo dibujado a través de datos y algoritmos.
-
A través de Google Scholar podem accedir a les seves publicacions, quines són les principals fonts d’on extreu la informació per a analitzar? S’ha de demanar permís per extreure aquesta informació o està a lliure disposició?
Principalment empram Twitter com a font d’informació. Per defecte, el que es publica a aquesta xarxa social és públic, però, tot usuari de Twitter té l’opció de protegir els tweets. Twitter dóna lliure accés a una petita fracció de tot el seu tràfic mundial, i aquests són els que nosaltres empram. De fet, actualment empram tweets geolocalitzats, és a dir, que tenen les coordenades GPS o informació del lloc (ciutat, barriada, punt d’interès, …) des del qual s’ha emès el tweet.
Clar està, que aquestes dades per sí soles a vegades no són suficients i es necessiten emprar més fonts d’informació per extreure conclusions. Intentam que aquestes siguin dades lliures i obertes sempre que sigui possible, encara que en alguns casos, per a projectes puntuals hem emprat dades tancades anonimitzades, per això s’han firmat acords amb les empreses titulars de les dades.
-
Els seus estudis analitzen la mobilitat humana i les ciutats més influents bàsicament a través de Tweets geolocalitzats. Ha sorgit algun resultat inesperat o sorprenent que sigui diferent a estudis que busquen els mateixos resultats però utilitzant altres metodologies no basades en la informació a través de Twitter?
Diferent no, però curiosament a un article on comparàvem l’eficàcia de distintes fonts d’informació per analitzar la mobilitat urbana, vàrem veure que la qualitat dels tweets geolocalitzats era similar a la de les dades de telefonia mòbil (Call Detail Records) o el cens per extreure informació referent a mobilitat en ciutats.
-
Fins a quin punt es poden extrapolar els resultats de Twitter a la població en general? És representatiu?
El resultat esmentat a l’anterior pregunta permet que es puguin emprar dades de Twitter per analitzar la mobilitat, sempre que les dades siguin estadísticament suficients i es tenguin dades d’un període de temps suficientment llarg. Per tant, l’aparent biaix que podem pensar que hi ha en l’ús de Twitter, no afecta per aquests tipus d’estudis.
-
Quines metodologies i tecnologies utilitzau per capturar, emmagatzemar, analitzar i visualitzar la informació?
Efectivament el procés d’extracció d’informació de les dades no és trivial i es necessiten totes les passes que mencionau.
Per baixar dades depenem de com les han posades a la nostra disposició. En el cas de Twitter accedim en temps real a les dades a través de les APIs (mètodes d’interacció preparats per poder demanar i rebre la informació de manera controlada) que Twitter posa a la disposició dels usuaris. En altres casos no tenim tanta sort.
Una vegada tenim les dades, s’han d’emmagatzemar de manera que siguin fàcilment accessibles quan s’hagin d’analitzar, per això empram una base de dades no relacional distribuïda.
A tot el procés (des de baixada fins a visualització) confiam en software lliure sempre que sigui possible. Els nostres programes, estan escrits generalment en Python ja que és un llenguatge de programació amb un molt bon ecosistema opensource de paquets científics, és pràctic tant per prototipar com per desenvolupar programes, i a més, té una comunitat molt activa i acollidora.
-
Exactament, quina informació recolliu? Quines són les variables i els indicadors? Ens podríeu indicar les fórmules o algoritmes que feis servir de forma que els no experts ni en matemàtiques ni estadística ho poguéssim entendre?
Per cada estudi s’empren dades i indicadors distints així com algoritmes particulars.
En el cas de les ciutats més influents, les dades fonamentals són la geolocalització dels tweets i el moment d’emissió del missatge per poder analitzar els desplaçaments en funció del temps. Dit de forma senzilla, el que estudiam és la distància que recorre la gent per visitar una ciutat (atractiu de la ciutat) i la distància a la que viatja la gent d’una ciutat (influència de la ciutat) i a partir d’aquestes dades presentam el rànquing de les ciutats. S’ha de tenir en compte que no és exactament així, ja que les illes i zones remotes sempre estarien els primers als rànquings, i per tant, s’han de normalitzar les dades per evitar aquests problemes. També, vàrem estudiar les diferències de comportament dels residents d’una ciutat i dels turistes, mesurant el nombre de zones visitades dins la mateixa ciutat. Finalment, aplicàrem tècniques de clustering per agrupar les ciutats depenent de quins grups de ciutats visiten els turistes considerant tots els seus viatges.
-
Les empreses tipus Facebook o Google que diuen que utilitzen algoritmes per analitzar el comportament dels usuaris, els fan públics, o són altament secrets?
Darrerament tant Facebook com Google estan alliberant els seus algoritmes i les eines per extreure informació valuosa de les dades. I per què fan això? Perquè el que té valor avui en dia no són tant els algoritmes, sinó les dades. Això sí, que alliberin el codi del seu programari és molt interessant per poder emprar-lo amb les dades que cadascú pugui tenir (encara que sempre estarem a molta distància de la quantitat de dades que mouen Google o Facebook), aprendre què estan fent, agafar idees, detectar errors i reportar-los, o fins i tot col·laborar amb ells, vaja, l’essència del software lliure.
-
La política de Twitter en quant a l’accessibilitat de la informació que generen els usuaris a través dels seus serveis és molt diferent a la de Facebook i Google? En quins aspectes?
Així com part de les dades de Twitter estan disponibles a través de la seva API i per emprar majors volums de dades hi ha empreses que venen tant dades crues com precuinades, Facebook no permet emprar les seves dades si no hi ha un conveni de col·laboració.
De fet, els projectes d’investigació finançats a través del programa Horizon 2020 de la Comissió Europea promouen que les dades emprades en els estudis siguin lliures o fàcilment accessibles sempre que sigui possible, fan passes cap a la ciència oberta i reproduïble: accés a les dades i al software emprat a més d’accés a l’article científic publicat.
-
A quines altres fonts de dades obertes podeu recórrer els investigadors en Big Data?
Nosaltres solem fer feina amb dades a nivell europeu o d’Estats Units i cal dir que encara que a nivell europeu darrerament s’està avançant al respecte, la política de dades als Estats Units encara és molt més oberta que a Europa.
Per dades d’Estats Units, per exemple, podem accedir a la plana Data.gov.
A nivell europeu l’EuroStat, i el portal Data Europa concentren la gran part de dades obertes que empram.
I per exemple, nosaltres empram sovint dades de transport públic i una de les ciutats que ens ha sorprès gratament amb la política de dades obertes ha estat Londres.
-
Quins tipus d’anàlisi de dades feis, quins tipus de relacions cercau entre les variables? Quins tipus d’anàlisis estadístics aplicau?
Depèn de cada estudi, cada anàlisi és únic. Això sí, normalment no aplicam tècniques de Machine Learning sinó que volem trobar el model físic que controla el que estam estudiant per entendre perquè i com funciona el sistema. Això fa, encara més, que no puguem generalitzar; cada problema és diferent i s’aborda de forma diferent.
-
Quines dificultats heu trobat per a realitzar aquestes anàlisis i com les heu solventades?
Algunes ja les he comentades. Per posar un altre exemple, vàrem fer un estudi similar al de la influència de les ciutats amb monuments (Torre Eiffel, Taj Mahal, Grand Canyon, La Alhambra, …) i en aquest cas vàrem haver de modificar la llista inicial de punts d’interès ja que alguns estaven a zones amb mala cobertura telefònica o senzillament la mostra que teníem no era suficient per poder dur a terme les anàlisis. Que les dades de Twitter siguin suficientment bones per fer anàlisis de mobilitat no vol dir que sempre siguin bones, cal comprovar sempre la qualitat de les dades.
-
Quins són els resultats més significatius? Per a què i a qui serveixen? Quines noves línies d’investigació proposau a partir d’aquests resultats?
És molt important que les «noves dades», dades TIC, serveixin per caracteritzar la mobilitat humana a zones urbanes. Això ofereix mètodes complementaris més dinàmics i barats que les tècniques clàssiques com les enquestes.
Hem fet un estudi comparatiu de seixanta ciutats importants a nivell mundial en quant a població i hem trobat patrons comuns en com ens movem dins la ciutat. En particular, aquests estudis de mobilitat són el punt de partida per poder entendre la mobilitat humana des de nivell mundial fins a nivell de barriada si no més detallat. Evidentment no prenem decisions de la mateixa manera si hem de viatjar 1000 km o si hem d’anar a la feina o a comprar el pa.
-
Quines aplicacions tenen aquestes recerques per empreses d’una comunitat turística com la nostra?
Per una banda, aquests treballs permeten entendre millor la mobilitat humana a diferents escales. I entendre com ens movem tant dins les nostres illes com entre illes, o comprendre, per exemple, com prenem la decisió d’agafar un transport i no un altre és molt interessant per poder millorar els serveis que es donen a turistes i a residents. Si no sabem com funciona una cosa no la podem millorar.
-
Què aconsellau que estudiï un jove que vulgui ser un científic de dades?
Crec que és important que estudiï el que li agradi, però per ser científic de dades necessita saber matemàtiques (estadística principalment) i informàtica per poder plasmar les idees i provar-les. Però crec que analitzar dades té més a veure amb com és la persona i no amb què ha estudiat. Ha de ser una persona curiosa, oberta de ment, autosuficient, amb ment deductiva, vaja, que vulgui resoldre problemes; i ha de tenir clar que no podrà aturar d’aprendre, d’actualitzar-se.
També s’ha de tenir en compte que en un projecte no només es necessiten coneixements tècnics. Per poder plantejar la pregunta cal saber que hi ha un problema i entendre’l bé.
-
I a un que es vulgui reciclar per a dedicar-se a aquest nou camp que ara sembla estar tant de moda?
Bàsicament el mateix que al que vol començar, avui en dia hi ha molts MOOCs que ajuden a tenir base per anar avançant pel seu compte. Com ja he dit, recordem que no només es necessiten tècnics, gent que conegui el problema en profunditat és igual d’important. Un projecte de dades necessita un grup de treball multidisciplinar.
-
Ens pot recomanar una pel·lícula que inspiri el què està treballant?
Més que pel·lícula, recomanaré una sèrie, Black Mirror, que planteja possibles escenaris futurs relacionats amb la presa de decisions a partir de dades. Alguns temes que planteja són l’ús de xarxes socials o la intel·ligència artificial. Evidentment la sèrie ens mostra algunes aplicacions perverses de l’anàlisi de dades, però hem de tenir en compte que hi ha infinitat d’aplicacions bones.
-
Ens pot recomanar un llibre que expliqui part del què està fent?
Hi ha poca literatura no tècnica, quasi publicacions científiques, relacionades amb el que estic fent. Un dels llibres que tracten de forma molt amena l’estadística aplicada, tema clau en el Big Data és «The signal and the noise: why so many predictions fail – but some don’t», de Nate Silver.
CV: Matemàtica de formació, especialitzada en codi obert i estadística aplicada. Durant la seva trajectòria professional ha estat vinculada al desenvolupament de programari. Va col·laborar en la creació d’un motor de videojocs a Tragnarion Studios. Després, a Grid Systems, va participar en el desenvolupament d’un middleware de computació distribuïda (grid). El 2010 va entrar a fer feina a l’IFISC(UIB-CSIC), Institut de Física Interdisciplinària i Sistemes Complexos. Allà va començar integrant l’IFISC a la xarxa de grid europeu, però poc temps després es va començar a interessar per la mobilitat humana i l’anàlisi de dades. Ara és Enginyera de Dades al mateix IFISC.