Let's Do It Romania - 24 Septembrie 2011



   

Analize şi minerit în date

   

Pentru că bazele de date se bazează pe tehnologii stabile, inventate cu aproape o jumătate de secol în urmă, revoluţiile par excluse. Evoluţii totuşi există.


Mircea Sârbu


Bazele de date nu sunt un domeniu foarte atractiv. Deşi afacerile în acest domeniu sunt impresionante iar aplicaţiile care utilizează baze de date sunt omniprezente, lipsa de interes din partea publicului este explicabilă: fiind unul dintre cele mai vechi domenii de aplicare a computerelor, tehnologiile sunt mature iar evoluţiile spectaculoase sunt rare. Pe de altă parte, suntem prea obişnuiţi cu aplicaţiile de acest gen, le vedem în fiecare zi. Ceea ce observăm este însă că aceste aplicaţii sunt excelente pentru a obţine informaţii punctuale, dar sunt destul de nepricepute când e vorba de furniza informaţii sintetice, care să servească pentru analize economice şi, în final, să sprijine decizia managerială. Aici este zona cea mai fierbinte a domeniului.

Încă de la sfârşitul anilor 80 specialiştii au căzut de acord că pentru aplicaţiile de analiză economică (OLAP -- Online Analytical Processing) cea mai bună variantă este crearea unei baze de date separate, care să fie alimentată din bazele de date operaţionale precum şi din alte surse publice. Ideea centrală este ca această bază de date să fie astfel structurată încât să faciliteze explorarea datelor pentru analiză. Pentru că această construcţie trebuia să se cheme cumva, specialiştii au vrut să-i spună "depozit de informaţii", dar până la urmă termenul care s-a încetăţenit a fost Data Warehouse (depozit de date). Pe parcursul anilor 90, a fost foarte în vogă şi o mulţime de firme de consultanţă au făcut bani frumoşi exploatând acest domeniu. Rata de succes a implementărilor a rămas destul de scăzută în vremea când termenul a fost în vogă, dar a crescut în anii când despre depozite de date se vorbea doar în cercurile de specialişti.

În teorie, e foarte simplu. Într-un depozit de date, organizarea informaţiilor este bazată pe aşa-numite dimensiuni. O dimensiune uzuală este timpul, ceea ce înseamnă că orice piesă de informaţie trebuie calificată temporal. O altă dimensiune este de obicei geografia pieţei. Se pot imagina diferite alte dimensiuni -- cum ar fi gama de produse, canalele de distribuţie -- dar cele mai valoroase sunt cele care pot fi structurate ierarhic. De exemplu, timpul se poate exprima în ani, anii în trimestre, trimestrele în luni şi aşa mai departe. Geografia pieţei se poate exprima în regiuni, regiunile pot fi compuse din judeţe etc. Pe baza acestor ierarhii, datele sunt agregate în "calupuri" rezumative pregătite pentru analiză. Este evident că pentru un manager informaţia de detaliu este mai puţin interesantă decât datele agregate -- întrebările pe care şi le pune nu sunt de genul "câte perechi de pantofi a vândut un cutare magazin în ziua de 17 mai 2008", ci mai degrabă "cum au oscilat veniturile din cutare gamă de produse în zona Moldova în ultimii trei ani, defalcat pe trimestre". O altă caracteristică a depozitelor de date este că aduc în ecuaţie şi date externe: de exemplu datele demografice obţinute prin recensământ pot fi foarte utile acolo unde vânzările vizează anumite categorii socio-profesionale, grupe de vârstă şi aşa mai departe.

În practică, lucrurile sunt ceva mai complicate. Poate cea mai dezagreabilă parte a implementării o reprezintă "curăţirea datelor" care intră în depozit (data cleaning), deoarece implică operaţii destul de delicate. E suficient să ne gândim la moduri diverse de exprimare a adreselor poştale sau a datelor calendaristice pentru a ne imagina ce înseamnă aducerea lor într-o formă unică şi utilizabilă. Însă efortul merită, pentru că aceste structuri multidimensionale ("cuburi de date") permit o serie întreagă de utilizări în domeniul analizei, prin operaţii tipice -- de pildă prin "drill down" se detaliază o anumită dimensiune în timp ce prin "drill up" se merge spre general, secţiunile pe baza anumitor dimensiuni produc viziuni specifice anumitor manageri de specialitate şi încă multe altele.

În fine, cea mai sofisticată modalitate de a exploata aceste colecţii o reprezintă "mineritul" (data mining). Prin tehnici avansate de inteligenţă artificială şi statistică matematică, programele specializate sunt capabile să identifice anumite "tipare" în structura datelor. Legenda spune că una dintre primele utilizări de succes ale acestei tehnici a fost realizată de IBM împreună cu o societate de asigurări de sănătate, programele identificând cu mare precizie fraudele, corelând diagnosticele şi medicamentele prescrise. Întrebare este însă ce pot face oare Google sau Amazon cu imensele volume de informaţii despre clienţi pe care le deţin...


 

(Publicat în Business Magazin - iulie 2008)

 

Copyright © 2008 Mircea Sârbu