Fără îndoială că web-ul creşte
într-un ritm ameţitor. Această creştere este în primul rând
cantitativă şi oarecum haotică, ceea ce este inevitabil în
condiţiile în care descentralizarea principiul fundamental al întregului
internet. Problema este însă că, în cea mai mare parte,
informaţia este nestructurată şi, în consecinţă,
destul de greu de procesat. Se pare că principala evoluţie
calitativă a web-ului în ultimii ani merge în această direcţie
şi primele rezultate sunt deja vizibile.
Câteva dintre obişnuinţele mele cotidiene s-au
schimbat în ultima vreme ca urmare a acestei evoluţii. Dimineaţa, în
loc să baleiez o mulţime de situri de ştiri, deschid unul singur
-- în speţă, NewsGator -- care-mi aduce automat sumarul ştirilor
de pe fluxurile mele preferate şi link-urile spre articolele complete.
Această invenţie, numită "sindicalizare", este cu
siguranţă prima aplicaţie pe scară largă a
metadatelor, adică a descrierii conţinutului din diverse resurse.
Ideea este suficient de simplă: o resursă -- de regulă un
serviciu de ştiri sau un blog -- publică periodic o descriere a
articolelor postate, într-unul din formatele standard cele mai populare (RSS
sau Atom, ambele bazate pe XML), iar un program sau un serviciu de agregare mi
le prezintă într-un format unitar.
Însă acesta este doar un prim pas. Ce se întâmplă
dacă vreau să aflu mai multe despre amănunte despre un anumit
personaj? Desigur, pot să fac o căutare cu Google sau Yahoo sau
mă duc la Wikipedia, însă lucrurile se complică. De pildă,
voi obţine o mulţime de rezultate irelevante sau chiar greşite,
în vreme ce pe mine m-ar interesa doar o cronologie a ştirilor despre
personajul în cauză. Aici sindicalizarea nu mai funcţionează,
din două motive. În primul rând, formatul în care sunt publicate
ştirile (sau fluxurile) nu marchează personajele şi în al doilea
rând, chiar dacă le-ar marca, nu există o referinţă la
identitatea personajului. Cum discerne un program între dramaturgul englez Ben
Johnson şi atletul canadian cu acelaşi nume? Mai grav, acelaşi
personaj apare sub nume diferite -- Enescu sau Enesco? -- ca să nu mai
vorbim de complicaţiile suplimentare aduse de sisteme de scriere, de semne
diacritice etc.
În esenţă, tendinţa este de a face web-ul mai
"prietenos" nu doar cu utilizatorul uman, ci şi cu programele care l-ar
putea exploata (programe care le numim adesea roboţi sau agenţi) iar
cheia o constituie metadatele descriptive şi marcarea structurală a
conţinutului. Aplicaţiile posibile sunt nenumărate, deoarece
sunt multe tipuri de informaţie care sunt relativ uniforme ca
structură şi prin urmare ar putea fi accesibile unor programe
asemănătoare celor de agregare. Un exemplu sugestiv îl
reprezintă reţetele de bucătărie, care au un format destul
de regulat: titlu, descriere, ingrediente, proceduri, număr de calorii
etc. Dacă acum aş vrea să găsesc pe web reţete de
plăcinte cu brânză de pe întreg pământul, aş putea
găsi probabil câteva mii, dar va trebui să parcurg cam tot atâtea
pagini. În schimb, dacă reţetele ar fi exprimate într-un format
standard, aş putea să-i cer unui agent să mi le aducă doar
pe cele cu brânză de vacă, fără mărar şi cu un
număr redus de calorii. Agentul ar putea să mai facă nişte
operaţii utile -- de pildă să transforme unde este cazul
unităţile de măsură, eventual chiar să traducă
şi să mi le afişeze într-un format unitar, ordonate după
anumite criterii (de pildă în ordinea crescătoare a numărului de
calorii). Vă puteţi imagina cu uşurinţă scenarii
asemănătoare pentru evenimente culturale, rezervări de locuri în
hoteluri sau avioane, rezultate sportive şi multe altele.
S-ar putea ca vremea unui nou mod de exploatare a
bogăţiei informaţionale a web-ului să nu fie chiar atât de
îndepărtată cum ar putea să pară la prima vedere. Un
exemplu practic în această direcţie poate fi Froogle -- serviciul de
informaţii comerciale de la Google -- care poate selecta ofertele de
produse şi le poate filtra sau ordona după câteva criterii. Pe de
altă parte, bibliotecile şi arhivele încep să adopte standarde
de marcare care să susţină interoperabilitatea şi
agregarea. Desigur, aici întră în joc şi alte noţiuni importante
-- cum ar fi ontologiile, tezaurele şi vocabularele controlate -- însă
calea spre "web-ul semantic" preconizat de Tim Berners-Lee este
deschisă.