Plik robots.txt - najnowsze zasady i wytyczne Google

Plik robots txt zasady i wytyczne

W ostatnim czasie Google wprowadziło istotne zmiany w interpretacji pliku robots.txt, znacząco upraszczając i standaryzując jego obsługę. Co się zmieni? Ograniczona została liczba obsługiwanych reguł do 4 najważniejszych - wszystkie pozostałe będą ignorowane.  W związku z tym trzeba przejrzeć swoją konfigurację „robotsa” i upewnić się, że wszystko, co ma być zaindeksowane i co jest wyłączone z indeksacji, zostanie poprawnie zinterpretowane przez Googleboty.

Co to jest robots.txt i dlaczego jest tak ważny?

Przypomnijmy krótko - plik robots.txt zawiera instrukcje dla robotów wyszukiwarek określające, które sekcje i podstrony witryny mogą być indeksowane, a których nie chcemy pokazywać w organicznych wynikach wyszukiwania. Robots znajduje się zawsze w katalogu głównym naszej strony i można go najczęściej znaleźć pod taką adresacją  www.example.com/robots.txt.

Nowe wytyczne Google dot. robots.txt

W najnowszych wytycznych znajdujących się w dokumentacji Google (https://developers.google.com/search/docs/crawling-indexing/robots/create-robots-txt?hl=pl) znajdziemy informację, że plik robots.txt należy przygotować jedynie z uwzględnieniem 4 reguł

  • User-agent - określa, którego robota dotyczą dane instrukcje,
  • Allow - wskazuje, które części witryny robot może odwiedzać,
  • Disallow - blokuje dostęp do określonych sekcji strony,
  • Sitemap - informuje o lokalizacji mapy witryny.

Pozostałe, przestarzałe reguły nie będą brane pod uwagę przez roboty Google. W ten sposób ujednolicona zostaje składnia pliku, co ma zapobiec potencjalnym błędom i ułatwić proces indeksacji strony. Jak ta zmiana wpłynie na proces pozycjonowania strony? Należy przejrzeć zapis pliku robots.txt i dostosować się do nowych wytycznych.

Jak przygotować plik robots.txt wg nowych wytycznych Google?

Na początek pamiętaj o podstawowych zasadach tworzenia pliku robots.txt:

  • Nazwa pliku musi być dokładnie „robots.txt”,
  • Na daną domenę można przygotować 1 plik,
  • Robots musi znajdować się w katalogu głównym naszej strony,
  • Należy zastosować kodowanie UTF-8; jest obowiązkowe.

Tworzenie reguł w pliku robots.txt

Dla każdego robota należy przygotować osobną grupę reguł, wskazując, co ma zaindeksować, a czego nie. Zaczynamy ją od reguły user-agent. Pamiętaj, że:

  • Reguły są przetwarzane od góry do dołu,
  • Wielkość liter ma znaczenie, 
  • Można używać komend zaczynających się od znaku #, 
  • Gwiazdka (*) powoduje, że reguła odnosi się do wszystkich robotów z wyjątkiem różnych robotów AdsBot, które należy wyraźnie wskazać,
  • W danej grupie reguł dot. danego robota należy dodać wpis allow lub disallow, wskazując, co ma lub nie ma być zaindeksowane, 
    • w przypadku pojedynczej strony (tzw. strony one page) należy podać jej pełną nazwę widoczną w przeglądarce, 
    • wpis zaczynamy shashem (/), a jeśli odnosimy się do całego katalogu, również kończymy go shlashem (/).

Podczas tworzenia pliku robots warto skorzystać ze specyfikacji dostępnej na stronie: robotstxt.org.

Przykładowa składnia pliku robots.txt

Blokowanie całej witryny przed indeksowaniem

```

User-agent: *

Disallow: /

```

Blokowanie konkretnego katalogu przed indeksacją

```

User-agent: *

Disallow: /prywatne/

```

Zezwalanie na dostęp tylko określonemu robotowi

```

User-agent: Googlebot-news

Allow: /

User-agent: *

Disallow: /

```

Zaawansowane komendy pliku robots.txt

Wykorzystanie symboli wieloznacznych

```

User-agent: Googlebot

Disallow: /*.pdf$ # Blokuje wszystkie pliki PDF

Disallow: /2023*/ # Blokuje wszystkie katalogi zaczynające się od "2023"

```

Grupy reguł skierowane do różnych robotów

```

User-agent: Googlebot-Image

Disallow: /prywatne-obrazy/

 

User-agent: Googlebot-News

Allow: /aktualnosci/

Disallow: /

 

User-agent: *

Disallow: /admin/

Disallow: /tmp/

```

Jak wdrożyć nowy plik robots.txt na stronie?

Najlepiej podmienić stary plik robots.txt na nowy w kilku prostych krokach.

  1. Pobierz i zapisz składnię obecnego pliku robots, backup pliku jak kopia zapasowa strony zawsze się przyda.
  2. Następnie przygotuj nowy plik zgodnie z najnowszymi wytycznymi Google. Przemyśl, które podstrony lub katalogi chcesz, a których nie chcesz indeksować.
  3. Zweryfikuj poprawność składni.
  4. Prześlij plik na serwer, zastępując tym samym stary.
  5. Przetestuj poprawność wdrożenia w Google Search Console (https://search.google.com/search-console/settings/robots-txt).

Najczęstsze problemy związane z plikiem robots.txt

Problem: strona nie jest indeksowana mimo braku blokad

  • Rozwiązanie: sprawdź, czy nie ma konfliktowych reguł lub problemów z formatowaniem pliku

Problem: robots.txt nie jest respektowany przez Google

  • Rozwiązanie: Upewnij się, że plik jest dostępny i ma poprawne kodowanie UTF-8

Szczególne przypadki tworzenia pliku robots.txt

Witryny na platformach hostingowych typu Wix, WordPress.com czy Blogger często nie pozwalają na wgranie pliku robots do głównego katalogu i udostępniają własne rozwiązania pozwalające na wyłączenie z indeksacji określonych podstron lub katalogów. W tym przypadku trzeba zapoznać się z dostępnymi opcjami danej platformy.

Z kolei w przypadku subdomen i portów niestandardowych: 

  • Każda subdomena może mieć własny plik robots.txt,
  • Taki plik działa tylko w ramach swojego protokołu i hosta.

Nowe zasady tworzenia pliku robots.txt - podsumowanie

Google co jakiś czas wprowadza zmiany w dokumentacji i sposobie działania botów indeksujących. Nie inaczej jest w przypadku zaktualizowanych wytycznych dot. pliku robots.txt. Nowe zasady mają ujednolicić tworzenie reguł dla robotów, upraszczając proces indeksowania. Co więc trzeba zrobić? Sprawdź swój plik robots, wprowadź zmiany i przetestuj w Search Console, czy działa poprawnie.

Jeśli potrzebujesz wsparcia przy pozycjonowaniu strony, napisz do nas!

Źródła:

https://developers.google.com/search/docs/crawling-indexing/robots/create-robots-txt?hl=pl  [dostęp: 22.10.2024]

×