Plik robots.txt - najnowsze zasady i wytyczne Google
W ostatnim czasie Google wprowadziło istotne zmiany w interpretacji pliku robots.txt, znacząco upraszczając i standaryzując jego obsługę. Co się zmieni? Ograniczona została liczba obsługiwanych reguł do 4 najważniejszych - wszystkie pozostałe będą ignorowane. W związku z tym trzeba przejrzeć swoją konfigurację „robotsa” i upewnić się, że wszystko, co ma być zaindeksowane i co jest wyłączone z indeksacji, zostanie poprawnie zinterpretowane przez Googleboty.
Co to jest robots.txt i dlaczego jest tak ważny?
Przypomnijmy krótko - plik robots.txt zawiera instrukcje dla robotów wyszukiwarek określające, które sekcje i podstrony witryny mogą być indeksowane, a których nie chcemy pokazywać w organicznych wynikach wyszukiwania. Robots znajduje się zawsze w katalogu głównym naszej strony i można go najczęściej znaleźć pod taką adresacją www.example.com/robots.txt.
Nowe wytyczne Google dot. robots.txt
W najnowszych wytycznych znajdujących się w dokumentacji Google (https://developers.google.com/search/docs/crawling-indexing/robots/create-robots-txt?hl=pl) znajdziemy informację, że plik robots.txt należy przygotować jedynie z uwzględnieniem 4 reguł:
- User-agent - określa, którego robota dotyczą dane instrukcje,
- Allow - wskazuje, które części witryny robot może odwiedzać,
- Disallow - blokuje dostęp do określonych sekcji strony,
- Sitemap - informuje o lokalizacji mapy witryny.
Pozostałe, przestarzałe reguły nie będą brane pod uwagę przez roboty Google. W ten sposób ujednolicona zostaje składnia pliku, co ma zapobiec potencjalnym błędom i ułatwić proces indeksacji strony. Jak ta zmiana wpłynie na proces pozycjonowania strony? Należy przejrzeć zapis pliku robots.txt i dostosować się do nowych wytycznych.
Jak przygotować plik robots.txt wg nowych wytycznych Google?
Na początek pamiętaj o podstawowych zasadach tworzenia pliku robots.txt:
- Nazwa pliku musi być dokładnie „robots.txt”,
- Na daną domenę można przygotować 1 plik,
- Robots musi znajdować się w katalogu głównym naszej strony,
- Należy zastosować kodowanie UTF-8; jest obowiązkowe.
Tworzenie reguł w pliku robots.txt
Dla każdego robota należy przygotować osobną grupę reguł, wskazując, co ma zaindeksować, a czego nie. Zaczynamy ją od reguły user-agent. Pamiętaj, że:
- Reguły są przetwarzane od góry do dołu,
- Wielkość liter ma znaczenie,
- Można używać komend zaczynających się od znaku #,
- Gwiazdka (*) powoduje, że reguła odnosi się do wszystkich robotów z wyjątkiem różnych robotów AdsBot, które należy wyraźnie wskazać,
- W danej grupie reguł dot. danego robota należy dodać wpis allow lub disallow, wskazując, co ma lub nie ma być zaindeksowane,
- w przypadku pojedynczej strony (tzw. strony one page) należy podać jej pełną nazwę widoczną w przeglądarce,
- wpis zaczynamy shashem (/), a jeśli odnosimy się do całego katalogu, również kończymy go shlashem (/).
Podczas tworzenia pliku robots warto skorzystać ze specyfikacji dostępnej na stronie: robotstxt.org.
Przykładowa składnia pliku robots.txt
Blokowanie całej witryny przed indeksowaniem
```
User-agent: *
Disallow: /
```
Blokowanie konkretnego katalogu przed indeksacją
```
User-agent: *
Disallow: /prywatne/
```
Zezwalanie na dostęp tylko określonemu robotowi
```
User-agent: Googlebot-news
Allow: /
User-agent: *
Disallow: /
```
Zaawansowane komendy pliku robots.txt
Wykorzystanie symboli wieloznacznych
```
User-agent: Googlebot
Disallow: /*.pdf$ # Blokuje wszystkie pliki PDF
Disallow: /2023*/ # Blokuje wszystkie katalogi zaczynające się od "2023"
```
Grupy reguł skierowane do różnych robotów
```
User-agent: Googlebot-Image
Disallow: /prywatne-obrazy/
User-agent: Googlebot-News
Allow: /aktualnosci/
Disallow: /
User-agent: *
Disallow: /admin/
Disallow: /tmp/
```
Jak wdrożyć nowy plik robots.txt na stronie?
Najlepiej podmienić stary plik robots.txt na nowy w kilku prostych krokach.
- Pobierz i zapisz składnię obecnego pliku robots, backup pliku jak kopia zapasowa strony zawsze się przyda.
- Następnie przygotuj nowy plik zgodnie z najnowszymi wytycznymi Google. Przemyśl, które podstrony lub katalogi chcesz, a których nie chcesz indeksować.
- Zweryfikuj poprawność składni.
- Prześlij plik na serwer, zastępując tym samym stary.
- Przetestuj poprawność wdrożenia w Google Search Console (https://search.google.com/search-console/settings/robots-txt).
Najczęstsze problemy związane z plikiem robots.txt
Problem: strona nie jest indeksowana mimo braku blokad
- Rozwiązanie: sprawdź, czy nie ma konfliktowych reguł lub problemów z formatowaniem pliku
Problem: robots.txt nie jest respektowany przez Google
- Rozwiązanie: Upewnij się, że plik jest dostępny i ma poprawne kodowanie UTF-8
Szczególne przypadki tworzenia pliku robots.txt
Witryny na platformach hostingowych typu Wix, WordPress.com czy Blogger często nie pozwalają na wgranie pliku robots do głównego katalogu i udostępniają własne rozwiązania pozwalające na wyłączenie z indeksacji określonych podstron lub katalogów. W tym przypadku trzeba zapoznać się z dostępnymi opcjami danej platformy.
Z kolei w przypadku subdomen i portów niestandardowych:
- Każda subdomena może mieć własny plik robots.txt,
- Taki plik działa tylko w ramach swojego protokołu i hosta.
Nowe zasady tworzenia pliku robots.txt - podsumowanie
Google co jakiś czas wprowadza zmiany w dokumentacji i sposobie działania botów indeksujących. Nie inaczej jest w przypadku zaktualizowanych wytycznych dot. pliku robots.txt. Nowe zasady mają ujednolicić tworzenie reguł dla robotów, upraszczając proces indeksowania. Co więc trzeba zrobić? Sprawdź swój plik robots, wprowadź zmiany i przetestuj w Search Console, czy działa poprawnie.
Jeśli potrzebujesz wsparcia przy pozycjonowaniu strony, napisz do nas!
Źródła:
https://developers.google.com/search/docs/crawling-indexing/robots/create-robots-txt?hl=pl [dostęp: 22.10.2024]