Let's Do It Romania - 24 Septembrie 2011



   

Web-ul semantic

   

Web-ul încă nu a atins vârsta maturităţii. Părintele lui, Tim Berners-Lee, a iniţiat un proiect prin care să-l facă mai util şi mai uşor de explorat, nu doar pentru utilizatorul uman ci şi pentru programe specializate.


Mircea Sârbu


Fără îndoială, web-ul este o gigantică resursă informaţională. Indiferent câte dintre miliardele de pagini care-l compun sunt sărace din perspectiva conţinutului sau de-a dreptul gunoi, rămân suficiente milioane de pagini utile pentru fiecare dintre noi. Sau, mai precis, care ne-ar putea fi utile cu condiţia să le găsim. Aici însă încep problemele.

Există mai multe modalităţi prin care putem să căutăm informaţiile care ne interesează. Dacă ne interesează un domeniu anume dar nu ceva foarte precis -- de pildă brânzeturi -- atunci repertoriile (web directories) pot fi calea cea mai firească. Fiind organizate de regulă pe mai multe niveluri, în câţiva paşi ajungem la subdomenii suficient de specifice, de unde avem referinţe la pagini individuale sau la repertorii specializate.

O altă modalitate de căutare a informaţiilor o reprezintă motoarele de căutare. Dacă vom căuta cu Google "cheese" vom obţine vreo 15 milioane de rezultate. Din fericire, motoarele de căutare folosesc diferite tehnici pentru a ordona listele de rezultate în funcţie de relevanţă, astfel încât avem şanse mari ca cele mai valoroase resurse să le găsim între primele. De exemplu, Google foloseşte un algoritm de ordonare numit PageRank, care pleacă de la premisa că o pagină este cu atât mai relevantă cu cât există mai multe pagini care fac referire la ea.

De fapt, repertoriile şi căutările directe reprezintă până la urmă două faţete ale aceleiaşi tehnologii, bazate pe indexarea cuvintelor din paginile web şi aplicarea unor metode de ordonare. Catalogarea se face de regulă automat iar ordinea referinţelor respectă relevanţa. Ce facem însă dacă criteriile de căutare sunt mai sofisticate? De pildă vrem reţete de plăcinte cu brânză, fără mărar şi cu puţine calorii. Aici lucrurile se complică şi vom constata că Google nu prea ne este de ajutor. Problema este că motoarele de căutare actuale indexează cuvinte şi foarte puţine informaţii structurate. De fapt, motorul de căutare nu "înţelege" ce-i cerem, nu cunoaşte semnificaţia termenilor dintr-o cerere şi nici a textului dintr-o pagină.

Viitorul s-ar putea să ne aducă însă un altfel de web, unul în care semnificaţia informaţiei să fie mult mai importantă. Proiectul "Semantic Web" este condus chiar de Tim Berners-Lee -- inventatorul web-ului -- şi se bazează în principal pe standarde, limbaje de marcare şi instrumente software specializate. Ingredientul principal este însă o tehnologie de descriere a conţinutului numită XML, a cărei istorie începe în urmă cu aproape 40 de ani.

La mijlocul anilor 60, IBM a format un grup de cercetare condus de Charles Goldfarb care să încerce să rezolve problema incompatibilităţii documentelor editate cu ajutorul unor tehnologii diverse. Ideea lui a fost simplă şi consistentă: nu modul cum arată un document este important, ci structura sa. Aceasta trebuie evidenţiată printr-un set de "marcaje". Însă cum fiecare tip de document îşi are propria structură, a fost inventat un "meta-limbaj" de marcare -- adică un limbaj care descrie limbaje de marcare specifice tipurilor de conţinut. Aşa cum o piesă de teatru poate fi descrisă ca o succesiune de acte constând din succesiuni de scene constând din replici rostite de personaje, aşa şi o factură sau un contract îşi are propria structură specifică. După standardizare, meta-limbajul s-a numit SGML iar în anii 90 a fost simplificat şi adaptat sub denumirea XML (eXtensible Markup Language).

Proiectul web-ului semantic mizează pe utilizarea unor tehnici de descriere a resurselor care să pună în evidenţă semnificaţia conţinutului şi relaţiile dintre diversele piese de informaţie, astfel încât informaţia să fie inteligibilă nu doar pentru oameni ci şi pentru maşini. O parte dintre aceste procedee sunt utilizate deja (de pildă RDF şi RSS) dar calea este lungă. Dacă, de exemplu, reţetele de gătit ar fi descrise pe baza unui limbaj specific de marcare derivat din XML atunci cu siguranţă ar avea o listă standard de ingrediente şi o evaluare a caloriilor -- situaţie în care un program specific ar putea să-mi găsească reţetele plăcintelor preferate. Cu siguranţă, un web semantic ar fi util nu doar pentru savanţi (imaginaţi-vă cum ar putea fi explorate bibliotecile, arhivele şi muzeele) dar şi pentru noi, ceilalţi. De pildă, un program specializat ne-ar putea construi un ghid de călătorie pe baza unui itinerariu şi a unor preferinţe. Ba chiar ar putea face şi rezervările.


 

(Publicat în Business Magazin - iunie 2005)

 

Copyright © 2005 Mircea Sârbu