Indeksiranje je postupak skeniranja datoteka smještenih na internetskom resursu pomoću robota za pretraživanje. Ovaj se postupak provodi tako da je web mjesto dostupno u rezultatima pretraživanja za različite upite u tražilici. Među najvećim pretraživačima danas je Yandex koji ovo skeniranje provodi na svoj način.
Upute
Korak 1
Indeksiranje internetske stranice provode se pomoću posebnih automatskih programa - robota za pretraživanje, koji automatski prate pojavu novih web mjesta na World Wide Webu, neprestano skenirajući internetske stranice smještene na Internetu, datoteke i veze do njih na svakom resursu.
Korak 2
Za skeniranje, robot ide u direktorij u kojem se nalazi resurs na određenom poslužitelju. Pri odabiru novog mjesta, robot se vodi prema njegovoj dostupnosti. Na primjer, postoji mišljenje da Yandex prvo skenira web mjesta stvorena u domeni ruskog jezika i na ruskom jeziku - ru, rf, su ili ua, a tek onda seli u druge regije.
3. korak
Robot dolazi do web mjesta i skenira njegovu strukturu, prvo tražeći datoteke koje ukazuju na daljnje pretraživanje. Na primjer, web lokacija se skenira na Sitemap.xml ili robots.txt. Te se datoteke mogu koristiti za postavljanje ponašanja robota za pretraživanje prilikom skeniranja. Koristeći kartu web stranice (sitemap.xml), robot dobiva precizniju ideju o strukturi resursa. Webmaster koristi robots.txt za definiranje datoteka koje ne bi želio da se prikazuju u rezultatima pretraživanja. Na primjer, to mogu biti osobni podaci ili drugi neželjeni podaci.
4. korak
Skenirajući ova dva dokumenta i primivši potrebne upute, robot počinje raščlanjivati HTML kôd i obrađivati primljene oznake. Prema zadanim postavkama, u nedostatku datoteke robots.txt, tražilica započinje s obradom svih dokumenata pohranjenih na poslužitelju.
Korak 5
Klikom na veze u dokumentima, robot također dobiva informacije o drugim web mjestima koja su u redu za skeniranje nakon ovog resursa. Skenirane datoteke na web mjestu spremaju se kao tekstualna kopija i struktura na poslužiteljima u Yandexovim podatkovnim centrima.
Korak 6
Potrebu za ponovnim skeniranjem također automatski određuju roboti. Program uspoređuje postojeći rezultat skeniranja s ažuriranom verzijom stranice kada ponovno prođe kroz indeksiranje. Ako se podaci koje program prima razlikuju, kopija web lokacije ažurira se i na Yandex poslužitelju.