Plik tekstowy robots.txt jest używany przez roboty indeksujące, które stosowane są przez wyszukiwarki internetowe podczas procesu indeksowania (czyli poszukiwania i zapisywania adresów URL w wynikach wyszukiwania). Jest to pierwszy plik poszukiwany przez roboty wyszukiwarek w celu sprawdzenia czy właściciel witryny określił reguły indeksowania swojej strony WWW (np. czy wszystkie adresy URL mają zostać zaindeksowane).
- Czy robots.txt jest wymagany?
- Na czym polega działanie pliku robots.txt?
- Przykłady dyrektyw dla robots.txt
- Najczęstsze pytania odnośnie robots.txt
Plik robots.txt oprócz przekazywania instrukcji odnośnie indeksowania ma również zastosowanie zapobiegające przeciążaniu witryn żądaniami. Plik robots.txt nie powinien być używany do ukrywania CAŁEJ strony internetowej przed wyszukiwarkami lecz tylko do ustalania zasad indeksowania zawartości witryn. Aby całkowicie ukryć stronę internetową przed Google, zalecane jest stosowanie dyrektyw noindex lub zabezpieczenie dostępu do strony hasłem.
Czy robots.txt jest wymagany?
Plik robots.txt nie jest wymagany, ale jest zalecany, jeśli chcesz przekazać robotom instrukcje jak powinny się one zachowywać podczas sprawdzania strony WWW. Roboty podczas skanowania witryn w pierwszej kolejności próbują odczytać plik robots.txt w celu sprawdzenia czy właściciel witryny zezwala na indeksowanie wszystkich podstron.
Strony internetowe nie posiadające własnego pliku robots.txt, meta-tagów czy nagłówków robots są domyślnie skanowane i indeksowane w wynikach wyszukiwania (dotyczy to zarówno strony głównej oraz wszystkich podstron).
Na czym polega działanie pliku robots.txt?
Wyświetlanie adresów stron internetowych w wynikach wyszukiwania (np. Google) jest wynikiem pracy tzw. robotów indeksujących, które nieustannie przemierzają całą sieć Internet w poszukiwaniu nowych treści do zaindeksowania.
Praca robotów polega na podążaniu za linkami, na które natrafiają i następnie na zapisywaniu całej zawartości stron WWW do swoich baz danych z wynikami wyszukiwania. Jeśli roboty natrafią na plik robots.txt, w którym będą ustalone instrukcje co można zaindeksować, to wtedy indeksowane są tylko wskazane treści z pominięciem tych wpisanych do pliku robots.txt.
Boty indeksujące podczas odwiedzin stron internetowych szczegółowo analizują budowę, strukturę oraz opublikowaną na witrynie treść. Następnie na podstawie nieznanych nikomu algorytmów oceniają i umieszczają podstronę na odpowiedniej pozycji w wynikach wyszukiwania (np. Google).
Warto wiedzieć, że plik robots.txt ma jedynie charakter informacyjny i nie wymusza w żaden sposób blokady przed indeksowaniem. Roboty indeksujące należące do uznanych wyszukiwarek (np. Google) przestrzegają wszystkich reguł umieszczonych w pliku robots.txt, lecz niektóre roboty mogę je po prostu ignorować.
Przykłady dyrektyw dla robots.txt
Wszystkie roboty indeksujące mają pozwolenie na indeksowanie całej witryny
User-agent: * Allow: /
Robot indeksujący Google (tzw. Googlebot) nie powinien indeksować całej witryny
User-agent: Googlebot Disallow: /
Wszystkie roboty indeksujące nie będą indeksowały katalogów: /images oraz /private (wraz z podkatalogami)
User-agent: * Disallow: /images/ Disallow: /private/
Robot indeksujący Google (tzw. Googlebot) nie będzie indeksował pliku index.php w katalogu: /strona_www
User-agent: Googlebot Disallow: /strona_www/index.php
Najczęstsze pytania odnośnie robots.txt
Sprawdź odpowiedzi na najczęstsze pytania użytkowników odnośnie plików robots.txt:
Czy wszystkie roboty akceptują reguły zawarte w pliku robots.txt?
Roboty najpopularniejszych wyszukiwarek internetowych (np. Google) akceptują i przestrzegają wszystkich reguł zawartych w robots.txt, ale inne roboty, np. należące do oszustów, które skanują Internet w poszukiwaniu podatnych na ataki aplikacji lub gromadzące napotkane adresy e-mail i/lub dane osobowe w celu wysyłki spamu, mogę ignorować zawarte w robots.txt reguły.
Czy wymagane jest stosowanie dyrektywy allow, aby umożliwić indeksowanie?
Nie musisz używać dyrektywy allow w celu umożliwienia indeksowania, ponieważ służy ona jedynie do nadpisywania dyrektyw disallow w tym samym pliku robots.txt.
Czy robots.txt skutecznie zabezpiecza dostęp do wskazanych zasobów?
Plik robots.txt nie jest metodą zabezpieczania dostępu do zasobów! Jeśli dodasz regułę blokującą indeksowanie zasobów, to nadal wskazane zasoby będą publicznie dostępne i mogą zostać wywołane przez dowolnego użytkownika.
Czy plik robots.txt powinien być umieszczany również w podkatalogach?
Plik robots.txt należy umieścić tylko w katalogu głównym, do którego skierowana jest domena internetowa. Umieszczanie dodatkowych plików robots.txt w podkatalogach jest zbędne.
Czy roboty indeksujące obciążają strony WWW?
Tak, niektóre roboty sprawdzające strony internetowe mogą bardzo szybko i bardzo często wysyłać żądania do serwerów w celu indeksowania witryn. Takie operacje mogą znacząco obciążyć serwery, na których znajdują się pliki stron WWW. Pliki robots.txt stosowane są w takich przypadkach w celu zablokowania wybranych robotów przed indeksowaniem (czyli przed wysyłaniem obciążających zasobów). Inna metodą jest zablokowanie adresów IP należących do obciążających robotów, aby nie miały dostępu do witryny.
Czy plik robots.txt jest mi potrzebny, jeśli chcę indeksować całą witrynę?
Stosowanie robots.txt jest zalecane tylko wtedy, jeśli chcesz zablokować jakąkolwiek treść swojej witryny przed zaindeksowaniem w wyszukiwarkach internetowych. Jeśli chcesz, aby wszystkie treści mają znaleźć się w wynikach wyszukiwania, to tworzenie pliku robots.txt jest niepotrzebne.