Bazele de date nu sunt
un domeniu foarte atractiv. Deşi afacerile în acest domeniu sunt
impresionante iar aplicaţiile care utilizează baze de date sunt
omniprezente, lipsa de interes din partea publicului este
explicabilă: fiind unul dintre cele mai vechi domenii de aplicare a
computerelor, tehnologiile sunt mature iar evoluţiile spectaculoase
sunt rare. Pe de altă parte, suntem prea obişnuiţi cu aplicaţiile
de acest gen, le vedem în fiecare zi. Ceea ce observăm este însă
că aceste aplicaţii sunt excelente pentru a obţine informaţii
punctuale, dar sunt destul de nepricepute când e vorba de furniza
informaţii sintetice, care să servească pentru analize economice
şi, în final, să sprijine decizia managerială. Aici este zona cea
mai fierbinte a domeniului.
Încă de la sfârşitul
anilor 80 specialiştii au căzut de acord că pentru aplicaţiile de
analiză economică (OLAP -- Online Analytical Processing) cea mai
bună variantă este crearea unei baze de date separate, care să fie
alimentată din bazele de date operaţionale precum şi din alte
surse publice. Ideea centrală este ca această bază de date să fie
astfel structurată încât să faciliteze explorarea datelor pentru
analiză. Pentru că această construcţie trebuia să se cheme
cumva, specialiştii au vrut să-i spună "depozit de informaţii",
dar până la urmă termenul care s-a încetăţenit a fost Data
Warehouse (depozit de date). Pe parcursul anilor 90, a fost foarte în
vogă şi o mulţime de firme de consultanţă au făcut bani frumoşi
exploatând acest domeniu. Rata de succes a implementărilor a rămas
destul de scăzută în vremea când termenul a fost în vogă, dar a
crescut în anii când despre depozite de date se vorbea doar în
cercurile de specialişti.
În teorie, e foarte
simplu. Într-un depozit de date, organizarea informaţiilor este
bazată pe aşa-numite dimensiuni. O dimensiune uzuală este timpul,
ceea ce înseamnă că orice piesă de informaţie trebuie calificată
temporal. O altă dimensiune este de obicei geografia pieţei. Se pot
imagina diferite alte dimensiuni -- cum ar fi gama de produse,
canalele de distribuţie -- dar cele mai valoroase sunt cele care
pot fi structurate ierarhic. De exemplu, timpul se poate exprima în
ani, anii în trimestre, trimestrele în luni şi aşa mai departe.
Geografia pieţei se poate exprima în regiuni, regiunile pot fi
compuse din judeţe etc. Pe baza acestor ierarhii, datele sunt
agregate în "calupuri" rezumative pregătite pentru analiză.
Este evident că pentru un manager informaţia de detaliu este mai
puţin interesantă decât datele agregate -- întrebările pe care
şi le pune nu sunt de genul "câte perechi de pantofi a vândut un
cutare magazin în ziua de 17 mai 2008", ci mai degrabă "cum au
oscilat veniturile din cutare gamă de produse în zona Moldova în
ultimii trei ani, defalcat pe trimestre". O altă caracteristică a
depozitelor de date este că aduc în ecuaţie şi date externe: de
exemplu datele demografice obţinute prin recensământ pot fi foarte
utile acolo unde vânzările vizează anumite categorii
socio-profesionale, grupe de vârstă şi aşa mai departe.
În practică,
lucrurile sunt ceva mai complicate. Poate cea mai dezagreabilă parte
a implementării o reprezintă "curăţirea datelor" care intră
în depozit (data cleaning), deoarece implică operaţii destul de
delicate. E suficient să ne gândim la moduri diverse de exprimare a
adreselor poştale sau a datelor calendaristice pentru a ne imagina
ce înseamnă aducerea lor într-o formă unică şi utilizabilă.
Însă efortul merită, pentru că aceste structuri multidimensionale
("cuburi de date") permit o serie întreagă de utilizări în
domeniul analizei, prin operaţii tipice -- de pildă prin "drill
down" se detaliază o anumită dimensiune în timp ce prin "drill
up" se merge spre general, secţiunile pe baza anumitor dimensiuni
produc viziuni specifice anumitor manageri de specialitate şi încă
multe altele.
În fine, cea mai
sofisticată modalitate de a exploata aceste colecţii o reprezintă
"mineritul" (data mining). Prin tehnici avansate de inteligenţă
artificială şi statistică matematică, programele specializate
sunt capabile să identifice anumite "tipare" în structura
datelor. Legenda spune că una dintre primele utilizări de succes
ale acestei tehnici a fost realizată de IBM împreună cu o
societate de asigurări de sănătate, programele identificând cu
mare precizie fraudele, corelând diagnosticele şi medicamentele
prescrise. Întrebare este însă ce pot face oare Google sau Amazon
cu imensele volume de informaţii despre clienţi pe care le deţin...