Robots.txt

Vse, kar morate vedeti o robots.txt

Za začetek povejmo, kaj sploh je robots.txt. Gre za preprosto tekstovno datoteko, shranjeno nekje na strežniku, na katerem gostuje vaša spletna stran. Njena naloga je, da spletnim iskalnikom oziroma njihovim pajkom pove, katere podstrani spletnega mesta naj si ogledajo in katerih ne želimo med zadetki.

Pa to res potrebujem?

Nepravilna uporaba te datoteke privede do slabšega rangiranja spletne strani v iskalnikih. Predstavljajte si Googlove »pajke«, ki pridejo do vaše strani in iščejo smerokaze, ki bi jim povedali, kam naj se obrnejo. Težava nastane, kadar jim z ukazom nevede onemogočimo dostop do naših strani, katere bi radi imeli indeksirane. Posledično spletna stran ne bo uvrščena tako visoko, kot bi bila sicer, če bi zadevo uredili, kot je treba.

Seveda pa ni popolnoma nič narobe, če te datoteke sploh nimamo. Na ta način bodo imeli spletni pajki prosto pot do vseh vsebin na naši spletni strani. Vprašanje pa je, ali si tega želimo.

Kako izvem, ali ima moja stran urejen robots.txt?

Na spletu najdemo veliko orodij za preverjanje ustreznosti nastavitev naše spletne strani. Tako tudi v tem primeru ni bojazni, da ne bi našli primernega orodja za hitro testiranje. Orodja so brezplačna in nam ponujajo veliko informacij. Nekatera več, spet druga nekoliko manj.

Tista bolj obsežna nam tudi svetujejo popravke, ki lahko bistveno vplivajo na optimizacijo spletne strani. V Google enostavno vpišite »robots.txt test« in izberite orodje, ki vam najbolj ustreza. Ali pa jih seveda preverite več in izkoristite podatke, ki jih na ta način pridobite.

[mom_video id=’LlJy5LRkUfs’]

Načeloma se je dobro držati vsaj dveh osnovnih točk, ko beseda nanese na temo o datoteki robots.txt.

  1. Najprej ugotovite, ali ima vaša stran datoteko robots.txt. Datoteko vidite tako, da vtipkate www.vasastran.si/robots.txt in pritisnete enter.
  2. Ko ugotovite, da zaseda svoje mesto, pa preverite, ali robotkom (spletnim pajkom) morda ne blokirate ogleda datotek, do katerih bi morali imeti dostop.

Najbolje bo, če boste sledili Googlovim smernicam glede datoteke robots.txt, ki jih lahko najdete tukaj.

Uporaba datoteke robots.txt v praksi

Datoteke robots.txt so javno vidne tistim, ki jih znajo poiskati, zato teh ukazov nikar ne uporabljajte za to, da bi na ta način prikrili določene informacije.

V osnovi sta primarna ukaza iskalnim pajkom videti takole:

Če jim želimo preprečiti celoten dostop do datotek naše strani:

User-agent: *
Disallow: /

Takole pa vsem pajkom odpremo prosto pot našim datotekam:

User-agent: *
Disallow:

Razložimo še nekaj osnovnih pojmov glede obnašanja spletnih pajkov, ki obiščejo našo spletno stran. Vzemimo za primer opcijo, ko na naši strani nimamo nameščene datoteke robots.txt. Spletni pajki obiščejo našo stran, pogledajo za to datoteko in, ker je ne najdejo, neovirano »zaplešejo« po vseh datotekah na naši spletni strani. Tako so pač programirani in za to so ustvarjeni.

Za konec pa še opozorilo!

Bodite skrajno previdni, ko se boste odločali blokirati datoteke pred ogledom spletnih pajkov. Naj se vam ne pripeti, da po nesreči blokirate indeksiranje celotne strani. To bi namreč vodilo v SEO polomijo, če seveda tega niste izbrali nalašč. Tudi to je mogoče, kadar ne želite, da se vaša spletna stran pojavlja med zadetki iskanj v iskalnikih, kot je Google. Morda stran postavljate »v živo« in še ni končana ali pa imate za to kakšen drug, tehten razlog.

Uporabniki spletne platforme WordPress imate na voljo kar nekaj vtičnikov, ki vam tovrstne zadeve precej poenostavijo. V Googlov iskalnik vpišite »wordpress robots.txt plugin« in videli boste, da je izbire zares veliko.