Robots.txt to plik tekstowy, który tworzą webmasterzy, aby poinstruować roboty wyszukiwarek, jak mają indeksować dane podstrony. Opiera się on na protokole REP (Robots Exclusion Protocol), czyli zbiorze poleceń, które wspomagają właściwy odczyt witryny.
Dzięki tej metodzie, możemy zapobiec indeksacji podstron o zbliżonej treści i tych mało istotnych, a co za tym idzie, uchronić serwer przed przeciążeniem, jakie może nastąpić, gdy robot Google dokonuje analizy zawartości. Nie należy jednak posługiwać się plikiem robots.txt, aby zatrzymać pojawianie się danej podstrony w wynikach wyszukiwania. Do tego celu najlepiej jest zastosować nagłówek odpowiedzi noindex, metatagi lub też wprowadzić hasło.
Do blokowania zasobów należy podejść z ogromną rozwagą, gdyż muszą to być jedynie skrypty, style lub grafiki, bez których stronę można nadal otworzyć w pełni poprawnie. Nie warto dopuszczać do sytuacji, w której robot wyszukiwarki nie może właściwie odczytać witryny, gdyż znacząco działa to na jej niekorzyść.
Ważne zasady:
- W większości przypadków, znacznik meta robots z parametrami "noindex, follow" powinno się stosować do ograniczenia odczytu i indeksacji.
- Warto pamiętać, że niektóre roboty (w tym również te złośliwe) mogą zupełnie zignorować plik robots.txt, więc protokół ten nie jest skutecznym mechanizmem ochronnym.
- Tylko jedno polecenie "Disallow" jest dozwolone dla danego adresu URL.
- Każda subdomena korzysta z osobnego pliku robots.txt.
- Wyszukiwarki Google i Bing akceptują dwa typowe oznaczenia wykluczonych stron (* oraz $).
- Należy zachować odpowiednią wielkość liter. Poprawna wersja to: "robots.txt", a nie np. "Robots.TXT".
- Używanie spacji dla rozdzielenia parametrów jest niedozwolone. Na przykład, zapis:
"/kategoria/ /strona produktu" nie zostanie uwzględniony przez robots.txt.
Najkorzystniejsze dla SEO sposoby blokowania stron
- plik robots.txt - plik ten wskazuje robotom wyszukiwarek, których adresów URL nie powinny odczytywać, ale mogą one przy tym zachować stronę w indeksie i nadal wyświetlać ją w wynikach.
- meta robots - ta technika pozwala poinformować wyszukiwarkę, że może odwiedzić stronę, ale wyświetlać ją w wynikach już nie. Jest to zdecydowanie najbardziej zalecana metoda.
- rel="nofollow" - zazwyczaj ta opcja jest najsłabsza i w 100% nie blokuje odczytu strony przez algorytmy wyszukiwarek, a jedynie zapobiega podążaniu za linkami. W takim przypadku, roboty wyszukiwarek mogą odkryć podstrony na inne sposoby np. za pomoca linków z innych witryn.
Interpretacja składni
Popularne roboty wyszukiwarek przestrzegają instrukcji określonych w pliku robots.txt, lecz nie zawsze interpretują je w taki sam sposób. Chcąc pokierować każdym z nich, trzeba zastosować zrozumiałą dla nich składnię, aby mogły identyfikować polecenia w pełni prawidłowo.
Wskazówki z pliku robots.txt nie dotyczą przekierowań z innych witryn. Nawet jeśli roboty wyszukiwarek nie indeksują wymienionej w pliku robots.txt strony, są w stanie odczytać link do niej zamieszczony na innych witrynach. Co za tym idzie, opublikowane pod danym odnośnikiem informacje, takie jak tekst kotwicy, mogą mimo wszystko wyświetlić się w wynikach. Chcąc całkowicie zablokować dany adres, należy, tak jak zostało to wcześniej powiedziane, zastosować nagłówek odpowiedzi noindex, właściwy metatag lub też ograniczyć dostęp do strony przez wprowadzenie hasła.