Esimerkki robots.txt-tiedostoista verkkosivustollesi

Sivustosi juuressa tallennettu robots.txt-tiedosto kertoo webrobotteille, kuten hakukoneiden hämähäkit, mitä hakemistoja ja tiedostoja he voivat indeksoida. Robots.txt-tiedostoa on helppo käyttää, mutta joitain asioita kannattaa muistaa:

  1. Musta hattu web robots sivuuttaa robots.txt-tiedoston. Yleisimmät tyypit ovat haittaohjelmien robotteja ja robotteja, jotka etsivät sähköpostiosoitteita sadonkorjuuta varten.
  2. Jotkut uudet ohjelmoijat kirjoittavat robotteja, jotka sivuuttaa robots.txt-tiedoston. Tämä tehdään yleensä virheellisesti.
  1. Jokainen voi nähdä robots.txt-tiedoston. Heitä kutsutaan aina robots.txtiksi ja ne tallennetaan aina sivuston juurelle.
  2. Lopuksi, jos joku linkittää tiedostoon tai hakemistoon, jonka robots.txt-tiedosto jättää sivulta, jota robots.txt-tiedosto ei poista, hakukoneet voivat löytää sen joka tapauksessa.

Älä käytä robots.txt-tiedostoja piilotaksesi mitään tärkeää. Sen sijaan sinun pitäisi laittaa tärkeät tiedot suojattujen salasanojen taakse tai jätä se pois verkosta kokonaan.

Kuinka käyttää näitä esimerkkitiedostoja

Kopioi teksti näytteestä, joka on lähinnä mitä haluat tehdä, ja liitä se robots.txt-tiedostoosi. Vaihda robotti, hakemisto ja tiedostonimet vastaamaan haluamaasi kokoonpanoa.

Kaksi Basic Robots.txt -tiedostoa

Käyttäjä agentti: *
Salli: /

Tämä tiedosto kertoo, että kaikki robotit (Käyttäjäagentti: *), jotka käyttävät sitä, pitäisi sivuuttaa sivun kaikki sivut (Disallow: /).

Käyttäjä agentti: *
Disallow:

Tämä tiedosto kertoo, että kaikki robotit (Käyttäjäagentti: *), jotka pääsevät siihen, voivat tarkastella sivuston kaikkia sivuja (Disallow:).

Voit myös tehdä tämän jättämällä robots.txt-tiedoston tyhjäksi tai olemalla lainkaan sivuillasi.

Suojaa tietyt hakemistot robotteilta

Käyttäjä agentti: *
Salli: / cgi-bin /
Salli: / temp /

Tämä tiedosto kertoo, että mikä tahansa robotti (User-agentti: *), joka käyttää sitä, ei pitäisi jättää hakemistoja / cgi-bin / ja / temp / (Disallow: / cgi-bin / Disallow: / temp /).

Suojaa tietyt sivut robotteilta

Käyttäjä agentti: *
Salli: /jenns-stuff.htm
Salli: /private.php

Tämä tiedosto kertoo, että kaikki robotit (User-agent: *), jotka käyttävät sitä, eivät saa jättää tiedostoja /jenns-stuff.htm ja /private.php (Disallow: /jenns-stuff.htm Disallow: /private.php).

Estä tietyn robotin pääseminen sivustollesi

Käyttäjäagentti: Lycos / xx
Salli: /

Tämä tiedosto kertoo, että Lycos-botti (User-agent: Lycos / xx) ei ole sallittu päästä sivustosta mihinkään (Disallow: /).

Salli vain yksi erityinen robottilukko

Käyttäjä agentti: *
Salli: /
Käyttäjäagentti: Googlebot
Disallow:

Tämä tiedosto estää ensin kaikki robotit, kuten yllä, ja anna Googlebotille (käyttäjäagentille: Googlebotille) nimenomaisesti pääsy kaikkiin (Disallow:).

Yhdistä useita reittejä saadaksesi täsmälleen haluamasi poikkeukset

Vaikka on parempi käyttää hyvin osallistavaa käyttäjäagentti-riviä, kuten User-agentti: *, voit olla niin tarkka kuin haluat. Muista, että robotit lukevat tiedoston järjestyksessä. Joten jos ensimmäiset rivit sanovat, että kaikki robotit ovat estyneet kaikesta, ja sitten myöhemmin tiedostossa, että kaikilla robotteilla on pääsy kaikkiin, robotteilla on pääsy kaikkiin.

Jos et ole varma, onko robots.txt-tiedosto kirjoitettu oikein, voit tarkistaa robots.txt-tiedoston Googlen Verkkovastaavan työkaluilla tai kirjoittaa uuden.