TEMES

La importància de les dades

Tinguem cura de les dades

En un article del 2018 a la revista Nature, James Zou i Londa Schiebinger deien:

“... Quan el Google Translate tradueix notícies escrites en castellà a l'anglès, frases que fan referència a dones sovint acaben traduïdes com a ‘he said’ (ell va dir) o ‘he wrote’ (ell va escriure). El software que utilitza Nikon en les seves càmeres dissenyat per detectar quan algú parpelleja, tendeix a interpretar que les persones asiàtiques sempre estan parpellejant. El ‘Word embedding’, un algoritme molt popular utilitzat per processar i analitzar grans quantitats de dades de llenguatge natural, caracteritza els noms europeu-americans com a agradables mentre que els afroamericans els marca com a desagradables...”

Els algoritmes d’intel·ligència artificial actuals no són intel·ligents, ni tan sols poden aprendre sols, sinó que som les persones que els definim perfectament d’on poden aprendre i en molts casos, què han d’aprendre. Un algoritme aprendrà tan bé, com bé estigui la informació que li proporcionem. Els diferents casos presentats al paràgraf anterior són conseqüència d’una mala selecció de les dades d’entrenament, o d’un biaix d'aquestes. 

Tant o més important que el mètode utilitzat és la qualitat de les dades escollides per ensenyar a una màquina a fer qualsevol tasca. Sovint els programadors invertim hores a millorar algoritmes quan realment el problema és que amb les dades de què disposem no podem aprendre gaire més. Hem de pensar que els algorismes d’aprenentatge automàtic tenen un món molt reduït, i tot el que coneix del món està inclòs en les dades que li donem. Per tant, a part de la qualitat de les dades, també hem de procurar que representin amb fidelitat el món real a partir del qual la màquina treballarà. 

N'és un exemple la base de dades ImageNet, que és una de les més utilitzades per entrenar models de visió per ordinador. Aquesta base de dades conté imatges amb les seves corresponents descripcions que es posen dins un algoritme que aprèn basant-se en aquesta informació; és utilitzat per exemple per fer que el nostre mòbil, quan fem una foto, ens apliqui una configuració fotogràfica òptima per a "animals de companyia", "paisatges", "menjar"... Aquesta base de dades disposa de vora el 50% de les imatges provinents dels Estats Units, mentre que la Xina o l'Índia amb prou feines apareixen representades en el 3% d’aquestes dades. Recentment un projecte artístic, creat per l’artista Trevor Paglen i la investigadora en intel·ligència artificial Kate Crawford, permetia comprovar com ens veu un algoritme basat en les dades d’ImageNet. Alguns casos per exemple eren que quan es posava la imatge d’una persona blanca amb americana i ben vestit, l’algoritme el classificava com a "doctor", "polític"... mentre que quan una persona afroamericana apareixia igualment ben vestit i amb corbata, el categoritzava com a "negre", "negre africà", "negroide"... O quan una dona penjava una foto d’ella ben vestida amb un diari a la mà apareixia categoritzada com a "lectora de notícies (newsreader)", mentre que el mateix cas en un home blanc apareixia com a "periodista" o "polític". Dos exemples per il·lustrar la problemàtica:

Asiàtics descrits amb mots despectiusTextos ofensius per descriure persones afroamericanes

Gràcies a la repercussió d’aquesta obra artística, el projecte ImageNet eliminarà més de 600.000 imatges per tal d’evitar visions racistes, misògines o cruels.

La visió que té l’algoritme és la que li han ensenyat, i un exemple és el meu propi mòbil, el model del qual, quan a casa fem alguna fotografia a la nostra gata, que és blanca i negra, el detecta com un panda, i si tingués un coneixement més ben enfocat, sabria que la probabilitat que a Catalunya en una casa normal hi hagi un panda és força baixa per no dir nul·la.

És per això, que més enllà de millorar dia a dia en la complexitat i capacitat dels algoritmes, no hem d’oblidar la importància de les dades que utilitzem per entrenar la cada dia més present intel·ligència artificial.

Contacta amb Divulcat