TEMES

"Big data" o dades massives: Què són i com ens poden ajudar?

Vivim en una societat, i les empreses no en són cap excepció, dadificada i digitalitzada. Mentre que la dadificació és el concepte que expressa el fet de registrar dades d’un procés o activitat que abans no registràvem, la digitalització és la conversió de dades que ja es recollien en format analògic (com ara documents en paper, vídeos en VHS...) en format digital. La digitalització és, doncs, un fet que succeeix des de l’adopció generalitzada d’ordinadors mentre que la dadificació" és un concepte més recent que ve impulsada per les noves tecnologies.

Només cal que pensem en com les xarxes socials (Facebook, Snapchat, Instagram, Linkedin...) han dadificat la nostra xarxa de contactes o les diverses aplicacions del mòbil que permeten registrar múltiples accions. Per exemple, podem monitorar les rutes en bicicleta i saber-ne la velocitat o les parades que hem fet. Les nostres preferències musicals estan dadificades pels serveis de música en línia (Spotify, Alexa, Siri...). Si llegim llibres en format electrònic amb una aplicació que ens guarda el punt fins on hem llegit, també pot mesurar la nostra velocitat de lectura o saber en quin punt hem deixat de llegir, que, si coincideix amb altres lectors, pot indicar el motiu de l’abandonament.

La dadificació també la tenim en l’entorn empresarial, on és habitual que els vehicles disposin de localització GPS que proporcionen dades per millorar les rutes. Les màquines disposen de sensors per mesurar el consum i altres paràmetres que ajuden a monitorar el seu rendiment i el procés productiu en general. Al cap i a la fi tot es resumeix en la paraula dades, dades que es generen des de diversos entorns i de forma seguida. 

La possibilitat d’obtenir una gran quantitat de dades ha creat noves oportunitats i alhora reptes. Des del punt de vista de les empreses i les organitzacions, el principal avantatge de la recollida de dades és la millora de la presa de decisions, decisions basades en informació extreta a partir de l’anàlisi de les dades. Els reptes són diversos, poden ser tant en la fase tecnològica (servidors especialitzats, internet de les coses...), com en la de gestió (redefinició de les bases de dades), com de metodologia (intel·ligència artificial, aprenentatge automàtic...), entre altres. D’aquest nou entorn en diem dades massives ('big data').
6767131b-1073-4d73-9867-5b8a39c97467.png
El terme dades massives ('big data') fa referència a l’acumulació massiva de dades, fet que supera la capacitat de ser capturades, gestionades o processades per les eines tradicionals disponibles de forma generalitzada i requereix un tractament especialitzat. Les característiques que diferencien les dades massives es resumeixen en el que s’anomena les 5 V:

  • Volum: és la principal característica associada les dades massives. La dadificació genera una gran quantitat de dades que són la base de la presa de decisions basada en fets (en contraposició de decisions basades en la intuïció). 
  • Velocitat: una gran quantitat de dades podria necessitar un temps de processament i anàlisi llarg, fent que els resultats ja estiguessin “caducats”, perdent l’avantatge que suposa conèixer la informació continguda en les dades en el moment adequat. Sovint, la rapidesa en què les dades es generen, s’emmagatzemen i s’han de processar presenta un repte superior al fet d’haver de recollir-ne un gran volum. És el cas d’aplicacions que necessiten resposta en temps real, com pot ser la detecció de frau en pagaments en línia o la generació de rutes de repartiment evitant embussos.
  • Varietat: un altre factor característic de les dades massives és el format en què es recullen les dades. Habitualment, l’anàlisi de dades partia d’un format estructurat (en forma de taula). Actualment, l’anàlisi de dades pot sortir del tractament de missatges, imatges, vídeos o senyals de sensors, entre altres. Aquest fet necessita el desenvolupament de tècniques que permetin tractar aquests formats i convertir-los en informació. N'és un exemple el cas de l’anàlisi de sentiments. A partir de l’anàlisi de comentaris a les xarxes socials o piulades es vol interpretar de forma automàtica si el text escrit (sobre algun aspecte de la nostra empresa) té un sentit positiu o negatiu. 
  • Veracitat: tenir un gran volum de dades no sempre és un indicador de la qualitat de la informació generada. Un gran volum de dades acostuma a venir acompanyat de soroll, ja sigui degut a biaixos (no tota la població dona la seva opinió a Twitter, tot i que en un principi ens pot semblar que siguem capaços de copsar una opinió general), dades anòmales i altres inconsistències que necessiten una depuració (automàtica) de les dades. És necessari filtrar quines dades són importants de les que són soroll.
  • Valor: després d’haver invertit en infraestructura per poder emmagatzemar i gestionar adequadament un gran volum de dades, és de vital importància buscar la forma de donar un valor afegit a la informació generada i d’aquesta manera crear un avantatge competitiu per a l’empresa. Per exemple, el desenvolupament de noves eines que permetin segmentar millor els diversos perfils de clients, o l’automatització de decisions que milloren els processos productius complexos.

b3753ef6-602c-487c-860b-7279941e0807.png

Si bé les dades massives són una eina per analitzar grans quantitats de dades, quin tipus d’informació en podem extreure? L’ús de les dades es categoritza en quatre grups:

  • Anàlisi descriptiva: utilitza dades observades i busca respondre a la pregunta “què ha passat?”. En l’entorn empresarial pot ser el càlcul de l'indicador clau d'acompliment (KPI, de l’anglès Key Performance Indicator), vendes efectuades l’últim mes, o informes de beneficis. Aquest tipus d’anàlisi és el més generalitzat i és la base sobre la qual es pot continuar els altres tipus d’anàlisis. 
  • Anàlisi de diagnosi: busca respondre a la pregunta de “per què un fet va ocórrer?”. En aquest sentit es pot buscar entendre correlacions o lligar diversos conjunts de dades per entendre per què un fenomen va succeir. Per exemple, si s’observa que hi ha un augment de les vendes superior al previst, es busca entendre el perquè (que podria estar relacionat a una bona campanya de màrqueting o amb la introducció d’un nou producte, entre altres). 
  • Anàlisi predictiva: busca utilitzar la informació sobre el passat per predir el futur, o sigui, busca donar resposta a preguntes del tipus: “què passarà?”. Aquest tipus d’anàlisi fa referència a la generació de previsions. Les previsions de vendes o els recomanadors de compra són exemples d’anàlisi predictiva.
  • Anàlisi prescriptiva: conjuga la comprensió de què ha passat (descriptiu), per què ha passat (diagnosi) i una previsió del que pot passar (predictiu) per oferir a la persona que pren decisions un conjunt d’alternatives que són la millor resposta en el context definit. El resultat d’una anàlisi prescriptiva respon a la pregunta de “Què hauríem de fer?”, “Quina és la millor decisió?”. Un exemple d’aquest tipus d’analítica és la generació de rutes de repartiment que considerin alhora la distància recorreguda, la velocitat a la qual es pot circular, a causa de les normes de circulació i la densitat de trànsit que hi hagi en el moment que s’han de dur a terme. Un altre exemple seria la planificació horària de treballadors que satisfacin les necessitats de producció alhora que compleixen les normes de descans i busquen la satisfacció més gran per al treballador.

En resum, amb el terme dades massives s'engloben diversos aspectes (tècnics i metodològics) on l’eix principal pivota en el fet d’obtenir un avantatge competitiu a partir de l’ús d’una gran quantitat de dades. Conèixer les tècniques del món de les dades massives és una competència clau per als futurs enginyers i directius.

Contacta amb Divulcat