VILNIAUS UNIVERSITETO KAUNO HUMANITARINIS FAKULTETAS
Informatikos katedra
Informacijos pateikimo Internete technologijų referatas
Tema:„Informacijos paieškos sistemos – robotai“
Priėmė: dr.Atliko:
Kaunas2006 Turinys
Turinys 2Įvadas 3Kilmė 4Esminė technologinė schema 5Taikymo teorijoje ir praktikoje principai 8Palyginimas su analogiškomis technologijomis pagal konkrečius kriterijos 9Privalumai ir trūkumai 10Vystymosi perspektyvos 11Išvados 12Literatūros sąrašas 13
Įvadas
Sparčiai besivystančių informacinių technologijų amžiuje, Internetas, informacijos paieška jame užima labai svarbią viatą žmogaus gyvenime. Internetas jau tapo daugelio iš mūsų pagalbininku ieškant informacijos. Nuo to, kaip mokėsime juo naudotis, priklausys pasaulinių kompiuterinių tinklų efektyvumas darbe. Įvaldę naršyklių komandas bei išmokę ieškoti informacijos paieškos sistemose bei interneto adresų kataloguose manome, kad išnaudojame visus Interneto privalumus. Tačiau neretai sugaišteme ne vieną valandą ieškodami, kad galėtume atsakyti į dominančius klausimus. Ar kiekvieną kartą galime pasidžiaugti, kad iš virtualios kelionės grįžtame su „laimikiu“?Informacijos paieškos sistemų yra labai daug, todėl norint naudotis visaverte informacija, kuri yra pateikta Internete, turime išmanyti jų veikimo principus bei, technologijas bei tendencijas. Paieškos sistema – tai svetainės, kurios indeksuoja informaciją, esančią pasauliniame tinkle – Internete. Taip jos kuria savotišką domenų saugyklą, kurioje yra atliekama paieška pagal vartotojo suformuluotas užklausas. Paieškos sistemos dažnai kuria ir Interneto adresų katalogus. Taigi, paieškos sistemų uždavinys yra naršyti po Internetą ir ieškoti jame vartotojui reikiamos informacijos.Paieškos sistemų struktūrą galima suskirstyti į tris pagrindines dalis: programos “voriukai”, informacijos archyvas ir paieškos įrankio programinė įranga. “Voriukai” (arba robotai) skirti informacijai rinkti ir indeksuoti, jie naudodamiesi nuorodomis, esančiomis svetainėse keliauja iš vienos į kitą ir taip indeksuoja informaciją. Informacijos archyvas – tai katalogas, daugelyje šaltinių vadinamas duomenų banku, kuriame yra visa programų “robotų” suindeksuota informacija. Trečioji dalis – paieškos programinė įranga, tai programa, kuri tarp suindeksuotos informacijos ieško tinkamos vartotojui, tai yra tokios, kuri atitiktų pagal suformuluotus raktinius žodžius
Šio referato tikslas – išsiaiškinti informacijos paieškos sistemos robotų termino reikšmę, jų veikimo principus, savybes, bei kitas esmines prielaidas, privalumus bei trūkumus. Referatas sudarytas iš 8 skyrių: Įvadas, Kilmė, Esminė technologinė schema, Taikymo teorijoje ir praktikoje principai, Palyginimas su analogiškomis technologijomis pagal konkrečius kriterijus, Privalumai ir trūkumai, Vystymosi tendencijos ir Išvados.Kilmė
Internetas šiuo metu jau tapo daugelio iš mūsų pagalbininku ieškant informacijos, ne tik tekstinės, bet ir vaizdo bei garso, taip pat teikia elektroninio pašto paslaugas, suteikia galimybę apsipirkti neišeinant iš namų – elektroninėse parduotuvėse, ieškoti verslo informacijos geltonuosiuose puslapiuose, dalyvauti pokalbiuose naujienų grupėse arba konferencijose ir pan. Tam, kad rastume reikiamą informaciją Internete reikia sugaišti daug laiko. Šį laiką galime sutrumpinti, kai mokame tinkamai naudotis paieška, korektiškai suformuluoti užklausas. Dar tam, kad sugaištume kaip galima mažiau laiko – reikalingi paieškos pagalbininkai. Paieškos sistemos gali būti tarptautinės ir nacionalinės. Nacionalinės paieškos yra orientuotos į informacijos paiešką konkrečioje šalyje, o tarptautinės paieškos sistemos suteikia galimybę naudotis informacija, esančia bet kuriame pasaulinio tinklo regione. Paieškos sistemos kaip minėjau, tai daro netiesiogiai – pirmiausiai informacija yra suindeksuojama, dažniausiai naudojantis specialiomis programomis “voriukais” (angl. “spider”), o po to jau sudarytame informacijos banke yra atliekama paieška. Patys pirmieji „vorai“:RBSE (Eichmann, 1994m.) – pats pirmas išpublikuotas „robotas“. Jis paremtas dviem programom: pirma programa „voras“, kuris sudarinėja indeksų duomenų bazę ir antroji programa – „erkė“ – modifikuotas WWW ASCII naršyklė, kuris parsiunčia puslapius iš Interneto.WebCrawler (Pinkerton, 1994m.) – buvo naudojamas sukurti pirmą viešai naudojamą pilnatekstį indeksą Interneto poaibio. Jis paremtas WWW biblioteka parsiųstų puslapių ir kita programa gramatiškai nagrinėja URL. Jis taip pat savo sudėtyje turi realaus laiko „vorą“ kuris seka nuorodomis paremtomis panašumu pagrindine programa.
WebSPIHIN (Miller and Bharat, 1998) yra sudarytas iš Java klasių bibliotekų, kurios papildytos HTML nagrinėjimu, vartotojo interfeisu, duomenų parsiuntimu ir paieškos varikliais.Google (Brin ir Page, 1998) parašytas Perl kalba. Naudojamas centrinis „tvarkaraštis“ ir serijos iš paskirstytų kolektorių. Kolektoriai nagrinėja parsiunčiamus Web puslapius ir atranda URL, kurie sujungiami kolektorių.Esminė technologinė schema
Paieškos sistema (dar vadinama „voru“, „robotu“ arba „agentu“) – tai programinė įranga, kuri naršo ir klasifikuoja tinklapius. Ji pateikia suklasifikuotus interneto puslapių sąrašus. Jų sudarymas priklauso nuo vartotojo pateiktų paieškos žodžių bei voro technologinių savybių, specifikos. Naršyklės lange matomi tik „voro“ darbo rezultatai, kuriais pasinaudoję mes galime rasrti reikiamą informaciją.Informacijos paieškos sistemos robotai atlieka vieną svarbiausių vaidmenų visoje paieškos sistemoje. Iš žemiau pateiktos Interneto paieškos sistemos architektūros galime matyti, kad šie sistemos elementai surenka informaciją iš Interneto šaltinių, ją skirsto, indeksuoja ir suformuoja indeksų banką, kuris ir tampa informacijos baze į kurią paieškos sistemos kreipiasi su suformuluotomis užklausomis. Šių „robotų“ darbo rezultatai matomi naršyklėje yra visos paieškos galutinis rezultatas.Šioje schemoje robotai vaizduojami – Crawler (robot, spider, knowbot) ) = liet. “robotai”, “vorai”, “agentai” – autonominės programos, kurios analizuoja indeksuoja nurodytus interneto puslapius, taigi atlieka vieną svarbiausių vaidmenų visoje paieškos sistemoje.
Programos robotų algoritmą galima nusakyti tam tikrais etapais. Šiuos keturis etapus atliekant vykdomas informacijos indeksavimo procesas.
Pagrindiniai programos voro etapai:1. Robotas paiešką pradeda nuo tam tikros aibės pradinių URL.2. Analizuoja šiuose puslapiuose rastas nuorodas ir rekursyviai randa naujas nuorodas.3. Indeksuoja visus naujai rastus puslapius invertuotame faile 4. Gali būti galimybė vartotojams tiesiogiai nurodyti puslapius, kurie turėtų būti indeksuojamiInformacijos indeksavimo – paieškos algoritmas gali būti dviejų rūšių: paieškos į plotį (BFS) arba paieškos į gylį (DFS).Standartinis algoritmas yra Paieška į plotį (BFS). Pradedant grafo šaknimi, analizuojami visi to pačio lygio kaimyniniai mazgai (grafo viršūnės), ir tik po to pereinama į žemesnįjį lygį.
Paieška į gylį (DFS) pradedama nuo šakninio mazgo ir pirmiausiai analizuojama viena šaka iki grafo medžio galutinių taškų – lapų.Kiekvienu atveju puslapyje rastos nuorodos (nauji mazgai) saugomos eilėje (queue). Paieškos į plotį atveju naujai rasti mazgai įrašomi į eilės pabaigą – FIFO (First In First Out) metodas. Paieškos į gylį algoritmuose nauji URL rašomi eilės pradžioje – LIFO (Last In First Out) metodas.Naudojantis pagrindiniais programos voro etapais galima sudaryti ir standartinį voro algoritmą.Voro algoritmas (BFS, FIFO):Inicializuojama eilė (Q) su pradine URL aibe.Iki Q bus tuščia arba pasiektas laiko ar puslapių limitas, vykdyti:Pradžia Nuskaityti L=URL, iš eilės Q pradžios. Jei L nėra HTML puslapis (.gif, .jpeg, .ps, .pdf, .ppt…) grįžti į pradžią. Jei L jau aplankytas, grįžti į pradžią. Nuskaityti puslapį P, kurio adresas L. Jei negalima nuskaityti puslapio (e.g. 404 error, robot excluded) grįžti į pradžią. Indeksuoti P (pvz. įtraukti į invertuotą failą arba saugoti kopiją). Analizuoti P esančias naujas nuordas N. Įrašyti N į eilės Q pabaigą.Taigi, iš pradžių pažymimi vienas ar keli interneto adresai, kurie tampa pradiniais. Tuomet iki kol ši sudaryta adresų eilė nesibaigia pradedamas ciklas. Imamas iš eilės pirmas URL ir jei tai ne HTML puslapis, tai yra paveikslėlis, “pdf” dokumentas, skaidrės ar kitas informacijos pateikimo dokumentas, tuomet nebėra ką analizuoti ir grįžtama į ciklo pradžią ir imama kita nuoroda, o jei tai HTML puslapis, tuomet jis yra nuskaitomas, jei tai įmanoma padaryti, jei ne pateikiamas klaidos pranešimas ir grįžtama vėl į ciklo pradžią. Tai atliekama iki tol, kol randamas puslapis, kurį galima nuskaityti ir jis indeksuojamas, t.y. įtraukiamas indeksuotas failas arba saugoma jo kopija ir analizuojamos naujos nuorodos, rastos dokumente ir įrašomos į nuorodų eilės galą. Taip kartojamas šis ciklas iki kol nuorodų eilė pasibaigia ir nebėra daugiau ką indeksuoti. Žemiau pateikiamas supaprastintas Informacijos paieškos sistemų architektūros variantas:Taikymo teorijoje ir praktikoje principai
Visos paieškos sistemos rezultatų puslapį generuoja trimis etapais. Iš pradžių pagal užklausą suformuojama rodyklė. Pagal tą rodyklę ieškoma tinkamų puslapių. Po to paieškos rezultatai rūšiuojami. Kiekvienoje paieškos svetainėje tai vyksta skirtingai, todėl tokios pačios užklausos rezultatai skiriasi.Interneto kompiuteriuose esančių dokumentų skaičius gali būti vertinamas keliomis dešimtimis milijardų. Ieškoti informacijos juose padeda dviejų rūšių įrankiai: paieškos serveriai (search engines) ir interneto katalogai (directories). Abiejų rūšių pagalbininkai kaupia inernete esančių dokumentų adresus ir trumpas ištraukas. Jums uždavus klausimą, atsakymo jie ieško savose bazėse. Pagrindinis šių rūšių skirtumas: adresų kaupimo būdas. Paieškos serveriams adresus kartu su dokumentų ištraukomis sukaupia programėlės – vorai, katalogams – žmonės. Žmonės surenka daug mažiau adresų (apsiriboja konkrečia šalimi ar geografine sritimi, keliomis temomis), tačiau adresai sudedami tvarkingai temomis, atmetami beverčiai.“Web” katalogai yra WWW puslapių hipersąrašai, pagal hierarchiją suskirstyti į temas bei kategorijas: menas, sportas, kompiuteriai ir t.t. Keliaudami šiuo medžiu žemyn pasiekiame ieškomą puslapį. Katalogus dažniausiai kuria žmonės, o ne programiniai robotai. Jie aprėpia mažiau, tačiau yra geriau organizuoti. Indeksai yra aklas kompiuterinis voratinklyje esančios informacijos perrinkimas, nors kai kurios programos atlieka sudėtingą paiešką. Kai kurios jų žodžiams, priklausomai nuo to, kur jie randami, priskiria skirtingus prioritetus – svarbesni žodžiai yra antraštėse, raktažodžių sąrašuose. Žodžio dažnis puslapyje irgi yra svarbus veiksnys. Kai kurios paieškos programos indeksuoja tik reikšminius terminus. Be šių paminėtų yra per pora šimtų kitų paieškos sistemų. Jos visos varžosi tarpusavyje, save vadina geriausiomis. Ką pasirinkti? Gal pabandyti ieškoti iškart keliose? Tokios Barbės devyndarbės yra vadinamosios paieškos metasistemos. Jos pačios neieško, bet analizuoja ir pateikia kitų paieškos sistemų rezultatus.
Kai paieškos sistemai siunčiate užklausą, ji nepuola naršyti po visą Voratinklį, o peržiūri sukauptą duomenų bazę, į kurią, tarsi skruzdėlės, “šapus” – informacijos bitus neša jos robotai (daugiau apie juos skaitykite “InfoBalt laike”), kurie, tarsi kokie parazitai ar virusai naršo po “Internet” tinklą skaitydami pakeliui sutiktus WWW puslapius, o dar noriau jų antraštes, o jose – <META> direktyvas. Šiuose puslapiuose esančias nuorodas panaudoja tolimesnėms paieškoms. Aišku, dažniau peržiūrimi yra populiarūs puslapiai, į kuriuos yra daugiau nuorodų. Nuo šių robotų strategijos ir aktyvumo (bei nuo paieškos sistemos leistinos DB dydžio) priklauso paieškos sistemos “galia”. O kad jos nepražiopsotų jūsų kūrinio, daugelis jų priima lankytojų nurodytus naujus “taikinius”. Palyginimas su analogiškomis technologijomis pagal konkrečius kriterijosPaieškos instrumentas yra kompiuterinė programa, analogiška duomenų bazės paieškos programai. Internete yra keliasdešimt serverių, kuriuose veikia tokios programos. Pagal siūlomas paslaugas jas galima suskirstyti į tris grupes: “vorai” (spiders), katalogai ir metapaieškos programos. Interneto vorai kaupia savo duomenų bazėse įvairiuose pasaulio serveriuose saugomos informacijos trumpas anotacijas ir suteikia galimybę ieškoti informacijos pagal įvairiom loginėm sąlygom sujungtus žodžius. Taip veikia populiarūs serveriai Lycos, AltaVista, Excite, Deja News ir kiti. Katalogai (Internet directories) siūlo informacijos ieškoti pagal žinių kategorijas žingsnis po po žingsnio siaurinant ratą. Katalogai sudaryti stengiantis apimti kuo daugiau žmogaus gyvenimo ir veiklos sričių. Dažnai naudojamasi katalogų serverių a2z (“nuo a iki z”), Yahoo (kaimo kvailelis), Magellan, WWW Virtual Library paieškos galimybėmis. Vorai ir katalogai dažniausiai yra arba tarpusavyje susiję (pvz.: Yahoo be savo informacijos kategorijų dar siūlo nuorodą į Lycos vorą), arba leidžia naudotis abiejų rūšių galimybėmis (InfoSeek, Magellan).
Vorai naudojasi paieškai įvairiais metodais, todėl paieškos rezultatai dažnai skiriasi ir gali tekti išbandyti kelis paieškos instrumentus, kad surastumėt reikiamą informaciją. Paiešką gali palengvinti metainstrumentai, kurie perduoda jūsų paieškos frazę lygiagrečiai keliems vorams, surenka ir surūšiuoja rezultatus bei parodo ekrane. Tokiai paieškai galima naudotis serveriais SavvySearch, Dogpile. Jei jūsų frazėje yra loginės operacijos, kurių voras gali nesuprasti, jos transformuojamos į panašias. Kaip jau minėta, visos paieškos sistemos pastoviai indeksuoja interneto puslapius specialiomis programomis („vorais“). „Vorai“, radę naują puslapį, informacija apie jį pirmiausia ima iš META duomenų. Taigi jei taisyklingai užpildysite META duomenis, svetainė bus įtraukta į daugelį paieškos sistemų ir ją vartotojui bus lengva surasti.Privalumai ir trūkumai
Internete puslapiams indeksuoti naudojami „vorai“ (spiders). Tai programos kiekviename tinklo puslapyje, ieškančios nuorodų į kitus puslapius bei atnaujinančios ir papildančios paieškos svetainės duomenų bazę. Į duomenų bazę įtraukiama informacija ne visada atitinka puslapio turinį, nes „vorai“ renka ne tik matomą tekstą, bet ir puslapių aprašymus, kurių naršylės nerodo (META duomenis). Nesąžiningi svetainių šeimininkai, norėdami išpopuliarinti savo puslapį, tyčia prirašo įvairių raktinių žodžių į META duomenis, taip suklaidina „vorus“ ir paieškos sistema išduoda nuorodą puslapį, kurio informacija neatitinka vartotojo ieškomos informacijos. Tai yra pagrindinis šios sistemos trūkumas, kuris atsiranda ne dėl paieškos sistemos „voro“ („roboto“) kalbės, bet dėl svetainių šeimininkų, norinčių bet kokia kaina išpopuliarinti savo Interneto svetaines.Tačiau informacijos paieškos sistemos robotai atlieka vieną svarbiausių vaidmenų visoje paieškos sistemoje. Šių „robotų“ darbo rezultatai matomi naršyklėje yra visos paieškos galutinis rezultatas ir be jų paieška praktiškai negali būti atliekama. Jei nebūtų robotų, visą informaciją nuolat turėtų indeksuoti žmogus, o tai padaryti praktiškai neįmanoma, nes informacija Internete nuolat kinta ir jos yra labai didelis kiekis, o žmogaus galimybės ribotos. Taigi, be šių „robotų“ visas informacijos paieškos procesas pasidaro be galo sudėtingas ar net praktiškai neįmanomas.
„Voro“ arba „roboto“ algoritmas atliekamas laikas nuo laiko, tam tikrais periodais vis papildant naujomis nuorodomis sudarytas nuorodų eiles. Gauti rezultatai būna imami iš suindeksuotų duomenų banko, o šie indeksai sudaromi „voro“ algoritmo vykdymo metu, todėl kaikurios nuorodos jau gali būti neteisingos, pasenusios. Tai gana didelis trūkumas, kuris yra mažinamas didinant „voro“ („roboto“) algoritmo kartojimų skaičių laike.Vystymosi perspektyvos
Ateityje mes pamatysime nesuskaičiuojamų atradimų informacijos paieškos srityje vaisius, kurių akivaizdoje dabartinės sistemos atrodys primityvios. Sudėtingų technologijų personalizuoti robotai nuolat atliks paiešką internete, kuris bus specialiai pritaikytas, kad robotai galėtų ieškoti pasitelkdami metaduomenis, kontroliuojamus žodynus ir unikalius identifikatorius. Robotai tiksliai ras tą informaciją, kurios reikia vartotojams, nes jie žinos vartotojų paieškos įpročius, todėl robotai atliks paiešką patys, kol vartotojai yra užsiėmę kitais reikalais. Jie nepateiks vartotojams nereikalingos informacijos ir nepraleis relevančių išteklių nepriklausomai nuo išteklių buvimo vietos.
Išvados
Išanalizavus informacijos paieškos sistemų robotų veikimo principus, privalumus, trūkumus bei galimybes galima padaryti išvadas, kad:• Jei nebūtų robotų, visą informaciją nuolat turėtų indeksuoti žmogus, o tai padaryti praktiškai neįmanoma, nes informacija Internete nuolat kinta ir jos yra labai didelis kiekis, o žmogaus galimybės ribotos.• Tam, kad galėtume atlikti paiešką šiame suindeksuotų duomenų rinkinyje, yra naudojami informacijos paieškos sistemos – robotai. Be robotų suindeksuotų duomenų informacijos paieška taptų nevisavertė. Robotai (arba “vorai”) suindeksuoja didelį kiekį puslapių, nuorodų, kuriomis pasinaudojęs paskui vartotojas atlieka savo paiešką ir gauna reikiamus rezultatus.• Paieškos sistemas galima suskirstyti į dvi pagrindines dalis: paieškos programas ir adresų katalogus. Adresų katalogai, tai tam tikros svetainės, kurios kaupia informaciją ir ją sugrupuoja pagal temas. Temos kataloguose sisteminamos hierarchiškai. O paieškos sistemos, tai svetainės, kurios indeksuoja pasauliniuose kompiuterių tinkluose esančią informaciją ir atlieka paiešką suindeksuotų duomenų rinkinyje.
• Paieškos sistemos kaip minėjau, tai daro netiesiogiai – pirmiausiai informacija yra suindeksuojama, dažniausiai naudojantis specialiomis programomis “voriukais” (angl. “spider”), o po to jau sudarytame informacijos banke yra atliekama paieška.Literatūros sąrašas
1. Webmaster Build [Interaktyvus]. [Lietuva]: O. Balinskis, 2006m. [žiūrėta 2006m. kovo 9d.]. Prieiga per Internetą 3. Search Engines [interaktyvus]. [Vašingtonas]: Media Technics Corporation, 2005 m. vasario 15 d. [žiūrėta 2005 m. balandžio 25 d.] Prieiga per internetą: .4. Search Engine User Attitudes [interaktyvus]. [Niujorkas]: iProspect, 2004 gegužės mėn. [žiūrėta 2004 gruodžio 28 d.] Prieiga per internetą; .5. Tinklapių populiarumo paslaptys. [Interaktyvus]. [Lietuva]. 2002m. balandis. [žiūrėta 2005 m. balandžio 25 d.] Prieiga per internetą: 6. Pasaulinis voratinklis. [Interaktyvus]. [žiūrėta 2005 m. balandžio 25 d.] Prieiga per internetą: 7. WWW apžvalga. [Interaktyvus]. [Lietuva]. Informacijos paieška Voratinklyje: Paieškos instrumentų apžvalga, Eugenijus Valavičius, 1997. [žiūrėta 2005 m. balandžio 25 d.] Prieiga per internetą: 8. The Free Directory by Farlex. [interaktyvus]. [žiūrėta 2006m. kovo 9d.] Prieiga per internetą: 9. The Web Robots Pages. Martijn Koster [interaktyvus]. [žiūrėta 2006m. kovo 9d.] Prieiga per internetą: http://www.robotstxt.org/wc/robots.html