En el marco de nuestro proyecto Ten TIC (tendencias de futuro en las TIC) continuamos con nuestra serie de entrevistas a expertos. Esta semana entrevistamos a José Javier Ramasco, del Instituto de Física Interdisciplinar y Sistemas Complejos (IFISC), centro mixto de la Universitat de les Illes Balears (UIB) y del Consejo Superior de Investigaciones Científicas (CSIC) que se dedica a la investigación interdisciplinar y estratégica desde la perspectiva de los físicos, tratando, entre otros materias, el Big Data.
Recentment haveu publicat l’article “Comparing and modelling land use organization in cities” a la revista Royal Society Open Science. Segons aquest article, s’explica que es pot utilitzar informació geolocalitzada publicada pels internautes per analitzar els usos del sòl i de l’espai urbà. Es poden analitzar concentracions de gent per dies, setmanes i mesos. Aquesta informació també es pot creuar amb dades d’ocupació, PIB i delinqüència. Ens agradaria aprofundir en la motivació, metodologia, la tecnologia i els resultats d’aquest estudi, estudis similars i de futurs.
Què vos ha motivat a realitzar aquest tipus d’estudi?
La motivació darrere d’aquests estudis és entendre millor el funcionament dels sistemes urbans, que són exemples paradigmàtics d’allò que nosaltres entenem per sistemes complexos on hi ha un gran nombre de components interaccionant i que donen lloc a propietats emergents que no es troben a la naturalesa de cada component individual. L’ús del sòl sorgeix com a resultat de les interaccions dels ciutadans amb l’espai urbà i entre ells mateixos, i forma patrons que espacialment i en el temps tenen una estructura fascinant. És d’alguna manera, l’ànima d’una ciutat.
Quina relació tenen aquest tipus d’estudis amb el Big Data?
Fins ara molts d’aquests estudis en el camp de l’urbanisme s’han fet usant informació col·lectada a cadastres i enquestes. Són mecanismes cars de realitzar i mantenir al dia, i que a més donen informació sobre l’ús declarat de les diferents zones de la ciutat. Si la majoria de l’àrea està ocupada per un parc, apareix com a zona verda, i si hi ha botigues, doncs com a zona comercial, moltes vegades sense una relació directa amb quanta gent usa aquesta zona d’aquesta manera. En aquest context, el Big Data que generen els ciutadans quan fan servir telèfons mòbils o entren a les xarxes socials serveix per caracteritzar l’ús real que donen als diferents espais. S’agreguen les dades i es pot saber si es concentren en una àrea determinada i si és un fenòmen que es repeteix a certes hores dels dies de la setmana. D’aquest tipus de senyal es pot inferir quin és l’ús majoritari en termes de persones a cada zona.
Quina metodologia i tecnologia utilitzau per cercar i emmagatzemar la informació? Quina és la principal avantatge? Quina és la principal dificultat?
La part de tecnologia ve essencialment de dades d’ús de telèfons mòbils. És el que s’anomenen CDRs (Call Detail Records) que recullen l’hora i la torre que ha donat servei a cada trucada feta o rebuda pels usuaris. Les nostres dades estan anonimitzades, tot i que si podem separar la contribució dels diferents usuaris per comptar-los només una vegada per hora. L’objectiu és comptar gent, no trucades. La major dificultat és assignar les zones de servei de cada antena i filtrar els usuaris que es corresponen amb telèfons col·lectius o automàtics.
Quina metodologia i tecnologia utilitzau per analitzar els diferents tipus d’informació? Quin és el principal avantatge? Quina és la principal dificultat?
La metodologia passa per estudiar els senyals d’ús en el temps de les diferents divisions de la ciutat i cercar patrons comuns que indiquen que dues zones s’estan usant de la MATEIXA manera. Per exemple, si les persones es concentren allà tard els caps de setmana i dijous, sol representar zones d’oci nocturn, mentre que si és prest, al matí i partir de les 8 del vespre, són zones residencials. Una dificultat important és separar zones amb un ús barrejat, per exemple, al centre poden conviure zones d’oci nocturn i residencial, i és difícil quantificar quant domina una certa activitat sobre l’altra. En aquest sentit, en aquest article proposàvem un algoritme per detectar zones amb barreja i categoritzar–les.
Quines són les variables que analitzau i com relacionau unes variables amb les altres?
Els senyals són el nombre de persones que s’observen a cada zona en funció del temps. El pas següent és mesurar correlacions entre senyals (correlació de Pearson) per poder determinar quines zones presenten comportaments similars.
Quins tipus d’anàlisis estadístics aplicau? I per què haveu escollit aquests i no uns altres?
Un cop tenim les correlacions, ens quedam amb les positives, que són les que ens interessen, i apliquem tècniques de clustering en xarxes per trobar els grups de zones amb comportaments similars. Fem servir diverses tècniques de clustering, no només una per a assegurar-nos que els resultats són consitents.
Quina tecnologia utilitzau per a realitzar els mapes i els gràfics que haveu presentat en l’estudi?
El més senzill, els mapes estan fets amb llibreries de processament geogràfic de Python i R. El mateix la resta de plots, però en comptes de processament geogràfic són llibreries per dibuixar i analitzar resultats com matplotlib.
Quines dificultats vos haveu trobat per a realitzar aquest anàlisi i com les haveu solventades?
Ja he explicat alguna d’elles, s’han solucionat cercant nous algoritmes per quantificar la quantitat de barreja en l’ús del sòl en les zones amb ús mixt.
Quins són els resultats més significatius? Per a què serveixen? Quines noves línies d’investigació proposau a partir d’aquests resultats?
Els resultats més significatius són tres:
– Que les dades de les tecnologies de la informació serveixen per caracteritzar l’ús del sòl real per part dels ciutadans en zones urbanes. Això ofereix mètodes complementaris, més dinàmics i barats, a les tècniques clàssiques com el cadastre. Això era una cosa que ja s’havia vist en estudis anteriors però nosaltres ho hem estès a l’ús mixt.
– Hem fet un estudi comparatiu entre les cinc ciutats més grans d’Espanya en població i hem trobat patrons comuns en la forma en què l’ús del sòl s’organitza.
– Hem introduït un model simple que explica aquests patrons comuns.
Aquest treball té utilitat en dos sentits:
-un és fonamental, entendre millor els sistemes urbans. Cal saber com funciona alguna cosa per poder millorar-lo o canviar-lo.
-El segon és més aplicat, ja que demostram l’ús de les noves tecnologies en un camp diferent, que pot estalviar diners en la gestió pública i obrir noves oportunitats per a empreses tecnològiques.
Què aconsellau que estudiï a un jove que es vulgui dedicar a l’anàlisi i visualització de dades en el camp del Big Data?
Ara per ara no hi ha una carrera que es digui Big Data, comença a haver-hi Màsters i els requisits d’entrada són saber de matemàtiques, física i ciències de la computació. Els estudis de qualsevol d’aquestes tres branques et poden portar a aquesta destinació.
I a un que es vulgui reciclar per a dedicar-se a aquest nou camp que ara sembla estar tan de moda?
El mateix: aprendre matemàtiques, física i ciències de la computació per a aplicar-les a la col·lecció i anàlisi de grans quantitats de dades.
Ens pot recomanar una pel·lícula que inspiri el què està treballant?
N’hi ha vàries, La xarxa és una pel·lícula que, malgrat ser antiga, mostra el potencial de les dades online per influir en la vida de les persones. Per descomptat en la pel·lícula es mostra el costat pervers, sinó no hi ha interès en la trama, però també es poden utilitzar en infinitat d’aplicacions positives.
Ens pot recomanar un llibre que expliqui part del què està fent?
No existeixen molts llibres que no siguin tècnics i en aquest cas estem parlant gairebé d’articles. El llibre que és més central en el camp de sistemes urbans és el que va publicar Michael Batty el 2013 i es titula «The new science of cities«, la nova ciència de les ciutats, on es mostra el potencial de les noves tecnologies per canviar el coneixement actual dels sistemes urbans.