Let's Do It Romania - 24 Septembrie 2011



   

Un altfel de web

   

Chiar dacă standardele uneori lipsesc iar alteori sunt redundante, web-ul semantic -- proiectul vizionarului Tim Berners-Lee -- începe sa prindă viaţă.


Mircea Sârbu


Fără îndoială că web-ul creşte într-un ritm ameţitor. Această creştere este în primul rând cantitativă şi oarecum haotică, ceea ce este inevitabil în condiţiile în care descentralizarea principiul fundamental al întregului internet. Problema este însă că, în cea mai mare parte, informaţia este nestructurată şi, în consecinţă, destul de greu de procesat. Se pare că principala evoluţie calitativă a web-ului în ultimii ani merge în această direcţie şi primele rezultate sunt deja vizibile.

Câteva dintre obişnuinţele mele cotidiene s-au schimbat în ultima vreme ca urmare a acestei evoluţii. Dimineaţa, în loc să baleiez o mulţime de situri de ştiri, deschid unul singur -- în speţă, NewsGator -- care-mi aduce automat sumarul ştirilor de pe fluxurile mele preferate şi link-urile spre articolele complete. Această invenţie, numită "sindicalizare", este cu siguranţă prima aplicaţie pe scară largă a metadatelor, adică a descrierii conţinutului din diverse resurse. Ideea este suficient de simplă: o resursă -- de regulă un serviciu de ştiri sau un blog -- publică periodic o descriere a articolelor postate, într-unul din formatele standard cele mai populare (RSS sau Atom, ambele bazate pe XML), iar un program sau un serviciu de agregare mi le prezintă într-un format unitar.

Însă acesta este doar un prim pas. Ce se întâmplă dacă vreau să aflu mai multe despre amănunte despre un anumit personaj? Desigur, pot să fac o căutare cu Google sau Yahoo sau mă duc la Wikipedia, însă lucrurile se complică. De pildă, voi obţine o mulţime de rezultate irelevante sau chiar greşite, în vreme ce pe mine m-ar interesa doar o cronologie a ştirilor despre personajul în cauză. Aici sindicalizarea nu mai funcţionează, din două motive. În primul rând, formatul în care sunt publicate ştirile (sau fluxurile) nu marchează personajele şi în al doilea rând, chiar dacă le-ar marca, nu există o referinţă la identitatea personajului. Cum discerne un program între dramaturgul englez Ben Johnson şi atletul canadian cu acelaşi nume? Mai grav, acelaşi personaj apare sub nume diferite -- Enescu sau Enesco? -- ca să nu mai vorbim de complicaţiile suplimentare aduse de sisteme de scriere, de semne diacritice etc.

În esenţă, tendinţa este de a face web-ul mai "prietenos" nu doar cu utilizatorul uman, ci şi cu programele care l-ar putea exploata (programe care le numim adesea roboţi sau agenţi) iar cheia o constituie metadatele descriptive şi marcarea structurală a conţinutului. Aplicaţiile posibile sunt nenumărate, deoarece sunt multe tipuri de informaţie care sunt relativ uniforme ca structură şi prin urmare ar putea fi accesibile unor programe asemănătoare celor de agregare. Un exemplu sugestiv îl reprezintă reţetele de bucătărie, care au un format destul de regulat: titlu, descriere, ingrediente, proceduri, număr de calorii etc. Dacă acum aş vrea să găsesc pe web reţete de plăcinte cu brânză de pe întreg pământul, aş putea găsi probabil câteva mii, dar va trebui să parcurg cam tot atâtea pagini. În schimb, dacă reţetele ar fi exprimate într-un format standard, aş putea să-i cer unui agent să mi le aducă doar pe cele cu brânză de vacă, fără mărar şi cu un număr redus de calorii. Agentul ar putea să mai facă nişte operaţii utile -- de pildă să transforme unde este cazul unităţile de măsură, eventual chiar să traducă şi să mi le afişeze într-un format unitar, ordonate după anumite criterii (de pildă în ordinea crescătoare a numărului de calorii). Vă puteţi imagina cu uşurinţă scenarii asemănătoare pentru evenimente culturale, rezervări de locuri în hoteluri sau avioane, rezultate sportive şi multe altele.

S-ar putea ca vremea unui nou mod de exploatare a bogăţiei informaţionale a web-ului să nu fie chiar atât de îndepărtată cum ar putea să pară la prima vedere. Un exemplu practic în această direcţie poate fi Froogle -- serviciul de informaţii comerciale de la Google -- care poate selecta ofertele de produse şi le poate filtra sau ordona după câteva criterii. Pe de altă parte, bibliotecile şi arhivele încep să adopte standarde de marcare care să susţină interoperabilitatea şi agregarea. Desigur, aici întră în joc şi alte noţiuni importante -- cum ar fi ontologiile, tezaurele şi vocabularele controlate -- însă calea spre "web-ul semantic" preconizat de Tim Berners-Lee este deschisă.


 

(Publicat în PC Magazine - octombrie 2005)

 

Copyright © 2005 Agora Media

Creative Commons License
This work is licensed under a Creative Commons License.