Robot tražilice odgovoran je za indeksiranje web stranica. Program automatski čita podatke sa svih stranica i registrira ih u obliku koji je razumljiv samoj tražilici, tako da će kasnije sustav prikazati najprikladnije rezultate za korisnika.
Funkcije
Sve indeksirane informacije bilježe se u zajedničkoj bazi podataka.
Robot za pretraživanje je program koji automatski putuje stranicama Interneta, tražeći potrebne dokumente i primajući strukturu indeksiranih web mjesta. Robot samostalno odabire stranice koje će se skenirati. U većini slučajeva web mjesta za skeniranje biraju se slučajnim odabirom.
Vrste botova
Neispravno funkcionirajući robot značajno povećava opterećenje mreže i poslužitelja, što može dovesti do nedostupnosti resursa.
Svaka tražilica ima nekoliko programa koji se nazivaju roboti. Svatko od njih može obavljati određenu funkciju. Na primjer, na Yandexu su neki roboti odgovorni za skeniranje RSS feedova vijesti, što će biti korisno za indeksiranje blogova. Postoje i programi koji pretražuju samo slike. Međutim, najvažnija stvar je indeksni bot, koji čini osnovu za bilo kakvu pretragu. Tu je i pomoćni brzi robot dizajniran za traženje ažuriranja o vijestima i događajima.
Postupak skeniranja
Drugi način sprječavanja indeksiranja sadržaja je stvaranje pristupa web mjestu putem registracijske ploče.
Prilikom posjeta web mjestu program skenira datotečni sustav na prisutnost datoteka s uputama robots.txt. Ako postoji dokument, započinje čitanje smjernica zapisanih u dokumentu. Robots.txt može zabraniti ili, obrnuto, omogućiti skeniranje određenih stranica i datoteka na web mjestu.
Postupak skeniranja ovisi o vrsti programa. Roboti ponekad čitaju samo naslove stranica i nekoliko odlomaka. U nekim se slučajevima skeniranje vrši u cijelom dokumentu, ovisno o HTML oznaci, što također može funkcionirati kao sredstvo za specificiranje ključnih fraza. Neki su programi specijalizirani za skrivene ili metatagove.
Dodavanje na popis
Svaki webmaster može spriječiti tražilicu da indeksira stranice putem datoteke robots.txt ili META. Također, kreator web mjesta može ručno dodati web mjesto u red za indeksiranje, ali njegovo dodavanje ne znači da će robot odmah indeksirati željenu stranicu. Da bi dodali web mjesto u red, tražilice također nude posebna sučelja. Dodavanje web mjesta znatno ubrzava postupak indeksiranja. Također, za brzu registraciju u tražilici mogu se koristiti sustavi za web analitiku, direktoriji web stranica itd.