Do czego służy plik robots.txt?

Promocja na hosting WordPres za 1 zł na 6 miesięcy

Plik tekstowy robots.txt jest używany przez roboty indeksujące, które stosowane są przez wyszukiwarki internetowe podczas procesu indeksowania (czyli poszukiwania i zapisywania adresów URL w wynikach wyszukiwania). Jest to pierwszy plik poszukiwany przez roboty wyszukiwarek w celu sprawdzenia czy właściciel witryny określił reguły indeksowania swojej strony WWW (np. czy wszystkie adresy URL mają zostać zaindeksowane).

Plik robots.txt oprócz przekazywania instrukcji odnośnie indeksowania ma również zastosowanie zapobiegające przeciążaniu witryn żądaniami. Plik robots.txt nie powinien być używany do ukrywania CAŁEJ strony internetowej przed wyszukiwarkami lecz tylko do ustalania zasad indeksowania zawartości witryn. Aby całkowicie ukryć stronę internetową przed Google, zalecane jest stosowanie dyrektyw noindex lub zabezpieczenie dostępu do strony hasłem.

Plik robots.txt wpływa na proces pozycjonowania stron WWW, ponieważ jako jeden z elementów mechanizmu Robots Exclusion Protocol pozwala na ustalanie jakie części naszych witryn mają być widoczne w wynikach wyszukiwania. Można powiedzieć, że robots.txt przekazuje instrukcje botom indeksującym co mogą oraz czego nie powinny robić podczas skanowania naszych stron internetowych.

Czy robots.txt jest wymagany?

Plik robots.txt nie jest wymagany, ale jest zalecany, jeśli chcesz przekazać robotom instrukcje jak powinny się one zachowywać podczas sprawdzania strony WWW. Roboty podczas skanowania witryn w pierwszej kolejności próbują odczytać plik robots.txt w celu sprawdzenia czy właściciel witryny zezwala na indeksowanie wszystkich podstron.

Strony internetowe nie posiadające własnego pliku robots.txt, meta-tagów czy nagłówków robots są domyślnie skanowane i indeksowane w wynikach wyszukiwania (dotyczy to zarówno strony głównej oraz wszystkich podstron).

Na czym polega działanie pliku robots.txt?

Wyświetlanie adresów stron internetowych w wynikach wyszukiwania (np. Google) jest wynikiem pracy tzw. robotów indeksujących, które nieustannie przemierzają całą sieć Internet w poszukiwaniu nowych treści do zaindeksowania.

Praca robotów polega na podążaniu za linkami, na które natrafiają i następnie na zapisywaniu całej zawartości stron WWW do swoich baz danych z wynikami wyszukiwania. Jeśli roboty natrafią na plik robots.txt, w którym będą ustalone instrukcje co można zaindeksować, to wtedy indeksowane są tylko wskazane treści z pominięciem tych wpisanych do pliku robots.txt.

Plik robots.txt należy umieścić w tym samym katalogu na serwerze FTP, na który jest przekierowana domena (np. mojadomena.pl). Plik robots.txt możesz utworzyć w zwykłym edytorze tekstowym (np. Notatnik w systemie Windows).

Boty indeksujące podczas odwiedzin stron internetowych szczegółowo analizują budowę, strukturę oraz opublikowaną na witrynie treść. Następnie na podstawie nieznanych nikomu algorytmów oceniają i umieszczają podstronę na odpowiedniej pozycji w wynikach wyszukiwania (np. Google).

Warto wiedzieć, że plik robots.txt ma jedynie charakter informacyjny i nie wymusza w żaden sposób blokady przed indeksowaniem. Roboty indeksujące należące do uznanych wyszukiwarek (np. Google) przestrzegają wszystkich reguł umieszczonych w pliku robots.txt, lecz niektóre roboty mogę je po prostu ignorować.

WAŻNE! Przestrzegamy przed używaniem robots.txt w celu ochrony poufnych informacji przed zaindeksowaniem w wyszukiwarkach, ponieważ spamerzy mogą nie przestrzegać reguł zawartych w robots.txt. W celu zabezpieczania poufnych danych przed zaindeksowaniem, zalecamy ustawianie haseł dostępu w celu uzyskaniu do nich dostępu – wtedy zarówno roboty indeksujące oraz spamerzy nie uzyskają dostępu do zabezpieczonych w ten sposób informacji.

Przykłady dyrektyw dla robots.txt

Wszystkie roboty indeksujące mają pozwolenie na indeksowanie całej witryny

User-agent: *
Allow: /

Robot indeksujący Google (tzw. Googlebot) nie powinien indeksować całej witryny

User-agent: Googlebot 
Disallow: /

Wszystkie roboty indeksujące nie będą indeksowały katalogów: /images oraz /private (wraz z podkatalogami)

User-agent: *
Disallow: /images/
Disallow: /private/

Robot indeksujący Google (tzw. Googlebot) nie będzie indeksował pliku index.php w katalogu: /strona_www

User-agent: Googlebot
Disallow: /strona_www/index.php

Najczęstsze pytania odnośnie robots.txt

Sprawdź odpowiedzi na najczęstsze pytania użytkowników odnośnie plików robots.txt:

Czy wszystkie roboty akceptują reguły zawarte w pliku robots.txt?

Roboty najpopularniejszych wyszukiwarek internetowych (np. Google) akceptują i przestrzegają wszystkich reguł zawartych w robots.txt, ale inne roboty, np. należące do oszustów, które skanują Internet w poszukiwaniu podatnych na ataki aplikacji lub gromadzące napotkane adresy e-mail i/lub dane osobowe w celu wysyłki spamu, mogę ignorować zawarte w robots.txt reguły.

Czy wymagane jest stosowanie dyrektywy allow, aby umożliwić indeksowanie?

Nie musisz używać dyrektywy allow w celu umożliwienia indeksowania, ponieważ służy ona jedynie do nadpisywania dyrektyw disallow w tym samym pliku robots.txt.

Czy robots.txt skutecznie zabezpiecza dostęp do wskazanych zasobów?

Plik robots.txt nie jest metodą zabezpieczania dostępu do zasobów! Jeśli dodasz regułę blokującą indeksowanie zasobów, to nadal wskazane zasoby będą publicznie dostępne i mogą zostać wywołane przez dowolnego użytkownika.

Czy plik robots.txt powinien być umieszczany również w podkatalogach?

Plik robots.txt należy umieścić tylko w katalogu głównym, do którego skierowana jest domena internetowa. Umieszczanie dodatkowych plików robots.txt w podkatalogach jest zbędne.

Czy roboty indeksujące obciążają strony WWW?

Tak, niektóre roboty sprawdzające strony internetowe mogą bardzo szybko i bardzo często wysyłać żądania do serwerów w celu indeksowania witryn. Takie operacje mogą znacząco obciążyć serwery, na których znajdują się pliki stron WWW. Pliki robots.txt stosowane są w takich przypadkach w celu zablokowania wybranych robotów przed indeksowaniem (czyli przed wysyłaniem obciążających zasobów). Inna metodą jest zablokowanie adresów IP należących do obciążających robotów, aby nie miały dostępu do witryny.

Czy plik robots.txt jest mi potrzebny, jeśli chcę indeksować całą witrynę?

Stosowanie robots.txt jest zalecane tylko wtedy, jeśli chcesz zablokować jakąkolwiek treść swojej witryny przed zaindeksowaniem w wyszukiwarkach internetowych. Jeśli chcesz, aby wszystkie treści mają znaleźć się w wynikach wyszukiwania, to tworzenie pliku robots.txt jest niepotrzebne.

  • Czy ten artykuł był pomocny?
  • TakNie
Promocja na hosting WordPres za 1 zł na 6 miesięcy