Otsingumootorid on varustatud robotitega, mida nimetatakse ka ämblikeks või robotiteks, mis roomavad ja indekseerivad veebilehti. Kui teie sait või leht on arendamisel või sisaldab tundlikku sisu, võiksite blokeerida robotite saidi roomamise ja indekseerimise. Siit saate teada, kuidas blokeerida terveid veebisaite, lehti ja linke robots.txt failidega ning blokeerida konkreetseid lehti ja linke html-märgendite abil. Lugege edasi, et teada saada, kuidas blokeerida teatud robotite juurdepääs teie sisule.
1
Failide robots.txt mõistmine. Fail robots.txt on tavaline või ASCII-tekstifail, mis annab otsingumootori ämblikele teada, millele neil on teie saidil juurdepääs. Otsingumootori ämblikud ei tohi robots.txt failis loetletud faile ja kaustu roomata ega indekseerida. Teil võib olla vaja faili robots.txt, kui: soovite blokeerida teatud sisu otsingumootori ämblikest.Arendate reaalajas saiti ega ole valmis selleks, et otsingumootori ämblikud saidil roomaksid ja indekseeriksid. Soovite piirata juurdepääsu mainekatele robotitele.
2
Looge ja salvestage fail robots.txt. Faili loomiseks käivitage lihttekstiredaktor või koodiredaktor. Salvestage fail kujul: robots.txt. Faili nimi peab olema üleni väiketähtedega. Ärge unustage tähte “s.” Faili salvestamisel valige laiend “.txt”. Kui kasutate Wordi, valige suvand “Lihttekst”.
3
Kirjutage täielikult keelatud fail robots.txt. On võimalik blokeerida kõik mainekad otsingumootori ämblikud teie saidil roomamast ja indekseerimast failiga “full-disallow†robots.txt. Kirjutage oma tekstifaili järgmised read: User-agent: *Disallow: /Kasutades “full- disallow†robots.txt ei ole tungivalt soovitatav. Kui robot, näiteks Bingbot, seda faili loeb, ei indekseeri see teie saiti ja otsingumootor ei kuva teie veebisaiti.Kasutajaagendid: see on teine termin otsingumootori ämblike või robotite jaoks*: tärn tähistab, et kood kehtib kõigi kasutajaagentide kohta Disallow: /: kaldkriips näitab, et kogu sait on robotite jaoks keelatud
4
Kirjutage tingimus-lubatav fail robots.txt. Kõigi robotite blokeerimise asemel kaaluge teatud ämblike blokeerimist oma saidi teatud piirkondadest. Levinud tingimusliku lubamise käsud on järgmised: Konkreetse roboti blokeerimine: asendage User-agent kõrval olevad tärnid käskudega googlebot, googlebot-news, googlebot-image, bingbot või teoma. Kataloogi ja selle sisu blokeerimine: User-agent: *Keela: /sample-directory/Veebilehe blokeerimine: User-agent: *Disallow: /private_file.htmlBlokeeri pilt: User-agent: googlebot-imageDisallow: /images_mypicture.jpgBlokeeri kõik pildid: User-agent: googlebot-imageDisallow: /Blokeeri konkreetne failivorming: User-agent: *Disallow: /p*.gif$
5
Julgustage roboteid teie saiti indekseerima ja roomama. Paljud inimesed soovivad blokeerimise asemel tervitada otsingumootori ämblikke, sest nad tahavad kogu nende saidi indekseerimist. Selle saavutamiseks on teil kolm võimalust. Esiteks saate loobuda faili robots.txt loomisest, kui robot ei leia faili robots.txt, jätkab ta kogu teie saidi roomamist ja indekseerimist. Teiseks saate luua tühja faili robots.txt, robot leiab faili robots.txt, tuvastab, et see on tühi, ning jätkab teie saidi roomamist ja indekseerimist. Lõpuks saate kirjutada täislubatud faili robots.txt. Kasutage koodi:User-agent: *Keela:Kui robot, näiteks googlebot, loeb seda faili, võib ta vabalt külastada kogu teie saiti.Kasutajaagendid: see on teine termin otsingumootori ämblike või robotite jaoks*: tärn tähendab, et kood kehtib kõigi kasutajaagentide kohta Disallow: tühi keelamiskäsk näitab, et kõik failid ja kaustad on juurdepääsetavad
6
Salvestage txt-fail oma domeeni juure. Pärast faili robots.txt kirjutamist salvestage muudatused. Laadige fail üles oma saidi juurkataloogi. Näiteks kui teie domeen on www.yourdomain.com, asetage fail robots.txt aadressile www.yourdomain.com/robots.txt.
7
HTML-robotite metasiltide mõistmine. Robotite metasilt võimaldab programmeerijatel määrata robotite või otsingumootori ämblike jaoks parameetreid. Neid silte kasutatakse selleks, et blokeerida robotite indekseerimine ja indekseerimine kogu saidil või saidi ainult osades. Neid silte saate kasutada ka selleks, et blokeerida teatud otsingumootori ämblik teie sisu indekseerimast. Need sildid kuvatakse teie HTML-faili päis. Seda meetodit kasutavad tavaliselt programmeerijad, kellel pole juurdepääsu veebisaidi juurkataloogile.
8
Blokeeri robotid ühelt lehelt. Kõigil robotitel on võimalik blokeerida lehe indekseerimine ja või lehe linkide jälgimine. Seda silti kasutatakse tavaliselt aktiivse saidi arendamise ajal. Kui sait on valmis, on tungivalt soovitatav see silt eemaldada. Kui te märgendit ei eemalda, ei indekseerita teie lehte ega otsita otsingumootorite kaudu. Võite blokeerida robotitel lehe indekseerimise ja mis tahes lingi jälgimise:Võite blokeerida kõik robotid lehe linkide jälgimise:
10
Laske otsingumootori ämblikel linke jälgida, kuid mitte lehte indekseerida. Kui lubate robotitel linke jälgida, jääb lingitee sellelt konkreetselt lehelt teistele lehtedele puutumatuks; kui piirate neil lehe indekseerimist, siis teie veebilehte registris ei kuvata. Sisestage oma päisesse järgmine koodirida:Sisestage link blokeeritud lehele
12
Blokeerige konkreetne otsingumootori ämblik. Selle asemel, et blokeerida kõik robotid oma veebilehel, võiksite takistada ühel robotil lehel roomamist ja indekseerimist. Selle saavutamiseks asendage metasildis “robot— konkreetse roboti nimega. Näited: googlebot, googlebot-news, googlebot-image, bingbot ja teoma.