Let's Do It Romania - 24 Septembrie 2011



   

Altfel de căutări

   

Cu toate că în materie de motoare de căutare a informaţiei jocurile sunt făcute, există încă multe oportunităţi pentru firmele care au cu adevărat curaj şi idei îndrăzneţe.


Mircea Sârbu


Se pare că orice lucru bun aduce cu sine şi câteva dezavantaje. De pildă, avem de la Google un excelent motor de căutare în web, ceea ce este foarte bine. Rău este în schimb că puterea acestui produs este un serios factor inhibitor pentru companii mai mici, care ar avea ceva interesant de spus în domeniul căutării. Dacă întrebi pe cineva ce alte motoare de căutare foloseşte în mod uzual, este improbabil să auzi mai mult de două alternative la Google -- eventual Yahoo şi LiveSearch. Cu toate acestea, apar în continuare noi pretendenţi, care încearcă să se lupte cu giganţii evitând zonele în care aceştia sunt, pe moment, imbatabili.

Un motor de căutare este format din trei mecanisme. În primul rând, e vorba despre culegerea informaţiilor din web, încredinţată unor programe numite "web crawlers" (sau "spiders"), care explorează neîncetat paginile web urmând legăturile dintre pagini. Al doilea mecanism este cel de indexare, în care informaţia culeasă este stocată în imense baze de date într-o formă care să fie uşor de regăsit. În principiu, fiecare cuvânt este asociat cu paginile în care apare şi cu contextul din pagină (de exemplu, contează dacă un cuvânt apare într-un titlu sau într-un subtitlu). În fine, avem un mecanism care să ordoneze rezultate obţinute prin "potrivirea" termenilor căutării cu indexul. Aici este punctul sensibil, cel care face diferenţa şi care-l plasează pe Google în postura de lider. Desigur, există o serie întreagă de detalii, cum ar fi conversia termenilor de căutare într-o formă standard, căutările exacte şi încă multe altele.

Un prim teren în care jucători mai mici se pot afirma îl reprezintă căutările pe domenii limitate. Un exemplu la îndemână îl reprezintă domeniul medical, unde motorul de căutare (ajutat adesea şi de factorul uman) se îngrijeşte ca termenii indexaţi să apară doar în context medical, ceea ce îl ajută pe utilizator să găsească mai uşor ceea ce-i interesează. Un alt exemplu îl reprezintă căutările specializate pe bloguri, în care indexarea conţinutului este direcţionată şi astfel un motor precum Tehnorati concurează cu succes cu Google sau Yahoo.

Un alt câmp deschis pentru inovaţie îl reprezintă semantica. Un motor precum cel de la Google nu înţelege de fapt nimic din cererea utilizatorului şi nici din conţinutul paginilor indexate, astfel încât totul se reduce la potrivirea cuvintelor, ceea ce poate uneori la rezultate neconcludente. De exemplu, majoritatea paginilor conţin o informaţie de genul "last update" (ultima actualizare), pe care Google o indexează şi astfel căutări mai sofisticate cuprinzând cuvântul "update" se întâmplă să returneze milioane de rezultate fără nici o relevanţă. O primă abordare este cea care utilizează descrieri formale ale conţinutului, însă deocamdată practicile web-ului semantic sunt prea puţin utilizate. O altă abordare, mai pragmatică, o reprezintă utilizarea tehnicilor de inteligenţă artificială pentru a interpreta cereri exprimate în limbaj natural. În loc să considere cuvintele introduse de utilizator ca simple cuvinte-cheie, un motor de căutare precum Powerset încearcă să caute sensul cuvintelor luate împreună, astfel încât utilizatorul să poate exprima în limbaj natural ceea ce-l interesează. Odată înţeleasă cererea, motorul de căutare poate să genereze el însuşi cuvintele-cheie pentru căutare şi, eventual, să selecteze dintre rezultate pe cele care răspund la întrebarea utilizatorului bazându-se tot pe înţelegerea limbajului natural. Powerset (achiziţionat de curând de Microsoft) nu indexează tot web-ul, ci se foloseşte de Wikipedia pentru a răspunde la întrebări de genul "În ce filme a jucat Marlon Brando" sau "Cum se produce berea".

Însă cel mai avangardist experiment privind obţinerea informaţiei prin web se desfăşoară în Anglia, şi poartă numele Worlfram Alpha. Am spus "prin web" (şi nu "din web") deoarece intenţia fizicianului Stephen Worlfram -- cunoscut pentru programul Mathematica -- este de a sintetiza răspunsuri la întrebările utilizatorului, folosind modele formale ale diferitelor domenii ale ştiinţei, împreună cu datele şi algoritmii corespunzători. Înţelegerea limbajului natural este un simplu detaliu în acest extrem de ambiţios proiect, care intenţionează să ne apropie la câţiva paşi de scenariul din Star Treck: "Computer, la ce distanţă de Pământ ne aflăm?". Desigur, proiectul este limitat la acele domenii ale cunoaşterii care pot fi formalizate şi va trebui să mai treacă multă vreme până când vom putea obţine de la un computer răspunsul la o întrebare de genul "Ce este sufletul?".


 

(Publicat în Business Magazin - martie 2009)

 

Copyright © 2009 Mircea Sârbu