La UIB está poniendo en marcha el Máster Oficial en Análisis de Datos Masivos en Economía y Empresa (MADM) y por este motivo organizó unas jornadas sobre Big Data. Un grupo de experimentados ponentes han compartido sus experiencias sobre las tecnologías y las aplicaciones del Big Data.
¿De qué estamos hablando cuando hablamos de Big Data?
En primer lloc José Manuel Benítez Sánchez, professor del departament de Ciències de la Computació i Intel·ligència Artificial de la Universidad de Granada, va explicar a quina velocitat creix la mida de les dades. El que avui és «big» demà pot deixar de ser-ho, perquè demà «big» serà molt més «big» que avui. Per tant, hem de saber de què estam parlant quan parlam de Big Data. Avui ja es plantegen les unitats de mesura d’Exabyte, Zettabyte, Yottabyte. I què és això? En aquesta entrada de la Wikipèdia podeu veure les equivalències.
Benítez va explicar que els conjunts de dades són molt variats, no només hi ha informació a les bases de dades, també n’hi ha a les imatges, als vídeos, als documents,… Arreu hi ha dades que es poden analitzar. Les dades creixen a una gran velocitat i segurament la tecnologia per a processar-les no evoluciona a la mateixa velocitat. Quan es parla de dades s’ha de tenir en compte la Llei de Moore i veure com aquestes estan creixent de forma exponencial. També va recordar les 8 Vs del Big Data: volum, volatilitat, varietat, valor, velocitat, variabilitat, veracitat, validesa.
A continuació Benítez va referenciar un estudi utilitzant el Big Data. Es tracta d’un anàlisi a partir de les cerques realitzades al cercador de Google arreu del món per determinar com evolucionava l’epidèmia de la grip. Es pot consultar l’article «Detecting influenza epidemics using search engine query data» a la revista científica Nature.
Quines tecnologies són necessàries per a resoldre els problemes de Big Data?
Abans de resoldre un problema s’ha d’emmarcar bé, va recordar Benítez, comentant que no tot és Big Data. Tot i que quan xerram de grans quantitats de dades, per l’anàlisi de les quals es necessiten molts d’ordinadors interconnectats, cal pensar en algoritmes que siguin escalables. I per a poder dur tal magnitud d’anàlisi a la pràctica han nascut tecnologies com MapReduce de Google, Hadoop de Yahoo i tot un ecosistema, Spark, Flink.
Per intentar entendre com funciona MapReduce es pot començar mirant aquesta presentació i llegint aquest article de referència «MapReduce: simplified data processing on large clusters». Segons Benítez un dels èxits de MapReduce ha estat posar a l’abast la programació distribuïda per a «dummies».
Una altra tecnologia que ha facilitat l’anàlisi massiu de dades ha estat Hadoop comenta Benítez. Apache Hadoop és un programari que suporta aplicacions distribuïdes sota una llicència lliure. Hadoop es va inspirar en els documents Google per MapReduce i Google File System (GFS). Hadoop té un ecosistema molt divers en continuu creixement. I finalment comenta que va sortir Spark, un entorn de treball genèric i ràpid pel processament de dades massives. Està centrat en una estructura de dades distribuïdes denominada «Resilient Distributes Dataset» (RDD).
Quasi per acabar, Benítez va recordar que per anàlisi del Big Data és interessant considerar els serveis del Cloud Computing, per pagar per ús, i no haver de realitzar a priori una gran inversió; com els que ofereixen Google o Amazon (aquí s’ofereix un curs de com aprendre a utilitzar-lo).
Aplicacions del Big Data
Les aplicacions dels Big Data són diverses, va recordar Benítez, des de l’anàlisi de serveis financers, de serveis de salut o patrons de comportament. Va explicar l’exemple d’un pare d’una adolescent d’Estats Units que se n’adonà de l’embaràs de la filla per les ofertes promocionals que li enviaven a casa relacionades amb nadons. I tot perquè l’empresa seguia els patrons de compra de la filla a través de dades. En aquest article de El País s’explica la història de l’adolescent embarassada predit pel Big Data.
Ángel García Crespo, professor de la Universitat Carlos III de Madrid i Director de l’Instituto de Desarrollo Tecnológico y Promoción de la Innovación, va exposar el cas pràctic del Big Data aplicat a l’anàlisi de la percepció de les marques a partir de la informació publicada pels usuaris en les xarxes socials, en concret a Twitter.
García va explicar totes les decisions prèvies que s’han de prendre abans d’analitzar els tweets que parlen d’una marca, com: diferenciar els tweets emesos pels usuaris dels emesos a través de les compte de la marca i el filtratge de tweets per tòpics. En aquest cas l’anàlisi era sobre automòbils i diferenciaven els tweets relatius: als atributs de la marca i el producte, el llençament de nous models o millores, la comunicació de campanyes, el patrocini d’esdeveniments musicals, esportius o culturals o notícies corporatives. A més, es realitzaren anàlisis des de 3 perspectives: (a) de què parla la gent, (b) què li interessa a la gent i (c) què opina la gent. Els indicadors que García i el seu equip van analizar foren: popularitat, abast, esforç/producte i compromís.
Algunes de les conclusions a les quals va arribar García en l’anàlisi de tweets és que no es pot programar un sistema d’anàlisi automàtic i de filtrat universal. Per exemple, cada marca duu associada una antimarca, va comentar el símil de Timofónica per a Telefónica. I cada marca té el seu propi corpus de terminologia. També va incidir en que correlació no sempre implica causalitat, referint-se a la relació entre rànquing i vendes.
Javier Andrés, CE0 de 7ideas.com, va explicar que el Big Data es pot aplicar a la detecció del frau, la gestió de màrqueting, la predicció de preus i la gestió del producte. Per exemple, a una web de viatges decidir quines ofertes es mostren primer a la pàgina principal pot ser la tasca d’un algoritme que hagi analitzat milions de reserves prèvies.
Big Data i negocis
Miguel Iza Moreno (@IzaMMiguel) Head of Data & Analytics a Hotelbeds Group / TUI Group, explicà que en el món dels negocis el que pot solucionar el Big Data s’ha d’explicar amb l’argot que puguin entendre les persones de negocis, per què els projectes puguin calar dins l’empresa. Segons la seva experiència l’empresa apren amb el Big Data que els processos sempre es poden millorar i que col.laborant amb tercers apareixen nous models de negoci; tot i que les empreses no sempre obtenen una solució als problemes plantejats.
Per a Iza el principal repte és conèixer millor al client com a persona, encara que, adverteix, de l’anàlisi de les persones hi ha una variable que mai controlarem: les circumstàncies.
En el cas d’Hotel Beds, cada vegada que l’empresa interactua amb el client s’emmagatzemen dades, però per treure’n profit, per a que siguin útils, s’ha de dotar d’intel.ligència a aquestes dades, explica Iza.
Hotel Beds té tot un departament per analitzar com són els seus clients format per: cap de dades i anàlisi, arquitecte de dades, visualitzador de dades, gestor de dades, científic de dades i enginyer de dades. Els seus reptes són: predicció de respostes en el servei d’atenció al client, optimització comercial operativa, predicció del potencial (operadors turístics i hotels), predicció d’abandonament de clients, pronòstic de dies d’estància, motor de recomanacions.
Big Data i Marketing Intelligence
Alex Rayón Jerez (@alrayon), Director Deusto eCampus i Director i Profesor del Programa de Big Data i Business Intelligence de la Universidad de Deusto, parlà sobre el Marketing Intelligence. En primer lloc va recomanar llegir l’article «Big Data: The Management Revolution» publicat a Harvad Business Review.
Rayon va il·lustrar el «Customer Journey«: un viatge a través de los punts de contacte físics i digitals. Més que explicar en aquest article tot el que va explicar a l’audiència trobam que és millor que llegiu el seu blog i reviseu una presentació que hi té publicada de 135 slides «Marketing Intelligence: cómo optimizar mi estrategia de marketing a través del Big Data». És totalment recomanable aquesta lectura. Tot i així vos deixam alguns destacats de la seva xerrada:
- Existeixen diferents eines per a cada etapa de contacte amb el potencial client i client amb la marca.
- Es perceb un declivi de les «celebrities» amb pro dels «influencers», i es converteix en tendència triar prescriptors de les marques que són més «influencers» sense necessitat de ser grans «celebrities».
- La targeta de fidelització és el millor instrument per a capturar dades.
- Ens trobam en l’era de monetarizació de la influència social.
- La teoria de grafos serveix per analitzar i saber qui és el «influencer».
- Un dels objectius del Big Data és impactar a la persona correcta amb l’oferta idònea. Per exemple ja existeix una asseguradora que t’ofereix una assegurança en funció a la tipologia de conducció implantant un sistema al cotxe per a analitzar les dades de conducció: velocitat, prudència, trajectes, horaris, etc.
Recollir les dades
Andrés, de 7ideas.com, empresa pertanyent al grup Logitravel, va parlar sobre la importància de recollir les dades per a posteriorment poder ser analitzades a través d’algoritmes. Andrés va recordar que les dades que té recopilades una empresa és un actiu més per a poder-la valorar. En el cas de http://www.7ideas.com/ guarden dades classificades amb més de 100 variables corresponents a més de 1.000 reserves d’hotels al dia. Recollir dades no és barat ni senzill explica Andrés, a més la tecnologia evoluciona molt ràpid. Actuament fan servir Sckit Learn, Kafka, Storm, MongoDB, Redis , Tensor Flow, Couchbase, Cassandra.
Andrés explicà que amb dades històriques i dades noves, amb entrenament i nou entrenament es poden descobrir algoritmes per exemple per a realitzar prediccions.
Les dades dels clients d’un hotel es poden recopilar, per exemple, utilitzant pulseres amb sensors que et permetin també carregar els serveis consumits al compte del client, menciona Andrés.
Mauricio Socias Prats, CEO de MallorcaWifi, va explicar que les dades també es poden recollir de les xarxes desplegades de wifi. Per exemple, a través dels usuaris que es connecten a una wifi pública, com la de Palma, es poden conèixer els fluxos de gent sobre el territori, quins són els itineraris més massificats o menys, i sobre aquesta informació els gestors públics poden prendre decisions. Socias va plantejar el ciutadà i el turista com a sensor, i que a través del seguiment de les persones es pot predir el seu comportament.
Demanda de professionals experts en Big Data
Benítez explicà que hi ha gran demanda de professionals d’anàlisi de dades. El truquen a la universitat empreses alemanyes per a que els hi enviï alumnes.
Iza també comentà la manca de professionals en l’anàlisi de dades i, per il.lustrar-lo ens mostrà una imatge amb la demanda de professionals a Espanya. A més, reivindica la figura del sociòleg per a l’anàlisi de dades a més dels matemàtics, no tothom ha de tenir un perfil tècnic, també són interessants els perfils socials, per la part teòrica que poden aportar en les anàlisis del comportament de les persones.
CineTIC
En aquesta jornada sobre Big Data es van mencionar algunes pel.lícules que descriuen part del que explicaven els ponents. Iza va referenciar Ex-Machina sobre intel.ligència artificial i Money Ball sobre anàlisi de dades.
Visualització de dades
Iza explica que tan important és l’anàlisi de dades com la visualització d’aquestes i per exemplificar-lo ens mostra un blog de receptes de cuina amb il.lustracions que mostren la proporció d’ingredients per a cada recepta.
Presentacions de la jornada
Es poden descarregar totes les presentacions a través de la Web de la Jornada.