Plik robots.txt - najnowsze zasady i wytyczne Google

SEO

30.10.2024

7 min

Arkadiusz Tyka

W ostatnim czasie Google wprowadziło istotne zmiany w interpretacji pliku robots.txt, znacząco upraszczając i standaryzując jego obsługę. Co się zmieni? Ograniczona została liczba obsługiwanych reguł do 4 najważniejszych - wszystkie pozostałe będą ignorowane. W związku z tym trzeba przejrzeć swoją konfigurację „robotsa” i upewnić się, że wszystko, co ma być zaindeksowane i co jest wyłączone z indeksacji, zostanie poprawnie zinterpretowane przez Googleboty.

Co to jest robots.txt i dlaczego jest tak ważny?

Przypomnijmy krótko - plik robots.txt zawiera instrukcje dla robotów wyszukiwarek określające, które sekcje i podstrony witryny mogą być indeksowane, a których nie chcemy pokazywać w organicznych wynikach wyszukiwania. Robots znajduje się zawsze w katalogu głównym naszej strony i można go najczęściej znaleźć pod taką adresacją www.example.com/robots.txt.

Nowe wytyczne Google dot. robots.txt

W najnowszych wytycznych znajdujących się w dokumentacji Google (https://developers.google.com/search/docs/crawling-indexing/robots/create-robots-txt?hl=pl) znajdziemy informację, że plik robots.txt należy przygotować jedynie z uwzględnieniem 4 reguł:

User-agent - określa, którego robota dotyczą dane instrukcje,
Allow - wskazuje, które części witryny robot może odwiedzać,
Disallow - blokuje dostęp do określonych sekcji strony,
Sitemap - informuje o lokalizacji mapy witryny.

Pozostałe, przestarzałe reguły nie będą brane pod uwagę przez roboty Google. W ten sposób ujednolicona zostaje składnia pliku, co ma zapobiec potencjalnym błędom i ułatwić proces indeksacji strony. Jak ta zmiana wpłynie na proces pozycjonowania strony? Należy przejrzeć zapis pliku robots.txt i dostosować się do nowych wytycznych.

Jak przygotować plik robots.txt wg nowych wytycznych Google?

Na początek pamiętaj o podstawowych zasadach tworzenia pliku robots.txt:

Nazwa pliku musi być dokładnie „robots.txt”,
Na daną domenę można przygotować 1 plik,
Robots musi znajdować się w katalogu głównym naszej strony,
Należy zastosować kodowanie UTF-8; jest obowiązkowe.

Tworzenie reguł w pliku robots.txt

Dla każdego robota należy przygotować osobną grupę reguł, wskazując, co ma zaindeksować, a czego nie. Zaczynamy ją od reguły user-agent. Pamiętaj, że:

Reguły są przetwarzane od góry do dołu,
Wielkość liter ma znaczenie,
Można używać komend zaczynających się od znaku #,
Gwiazdka (*) powoduje, że reguła odnosi się do wszystkich robotów z wyjątkiem różnych robotów AdsBot, które należy wyraźnie wskazać,
W danej grupie reguł dot. danego robota należy dodać wpis allow lub disallow, wskazując, co ma lub nie ma być zaindeksowane,
- w przypadku pojedynczej strony (tzw. strony one page) należy podać jej pełną nazwę widoczną w przeglądarce,
- wpis zaczynamy shashem (/), a jeśli odnosimy się do całego katalogu, również kończymy go shlashem (/).

Podczas tworzenia pliku robots warto skorzystać ze specyfikacji dostępnej na stronie: robotstxt.org.

Nie widzisz swojej strony w Google? Przyczyną może być błędnie przygotowany plik robots.

Przykładowa składnia pliku robots.txt

Blokowanie całej witryny przed indeksowaniem

```

User-agent: *

Disallow: /

```

Blokowanie konkretnego katalogu przed indeksacją

```

User-agent: *

Disallow: /prywatne/

```

Zezwalanie na dostęp tylko określonemu robotowi

```

User-agent: Googlebot-news

Allow: /

User-agent: *

Disallow: /

```

Zaawansowane komendy pliku robots.txt

Wykorzystanie symboli wieloznacznych

```

User-agent: Googlebot

Disallow: /*.pdf$ # Blokuje wszystkie pliki PDF

Disallow: /2023*/ # Blokuje wszystkie katalogi zaczynające się od "2023"

```

Grupy reguł skierowane do różnych robotów

```

User-agent: Googlebot-Image

Disallow: /prywatne-obrazy/

User-agent: Googlebot-News

Allow: /aktualnosci/

Disallow: /

User-agent: *

Disallow: /admin/

Disallow: /tmp/

```

Jak wdrożyć nowy plik robots.txt na stronie?

Najlepiej podmienić stary plik robots.txt na nowy w kilku prostych krokach.

Pobierz i zapisz składnię obecnego pliku robots, backup pliku jak kopia zapasowa strony zawsze się przyda.
Następnie przygotuj nowy plik zgodnie z najnowszymi wytycznymi Google. Przemyśl, które podstrony lub katalogi chcesz, a których nie chcesz indeksować.
Zweryfikuj poprawność składni.
Prześlij plik na serwer, zastępując tym samym stary.
Przetestuj poprawność wdrożenia w Google Search Console (https://search.google.com/search-console/settings/robots-txt).

Najczęstsze problemy związane z plikiem robots.txt

Problem: strona nie jest indeksowana mimo braku blokad

Rozwiązanie: sprawdź, czy nie ma konfliktowych reguł lub problemów z formatowaniem pliku

Problem: robots.txt nie jest respektowany przez Google

Rozwiązanie: Upewnij się, że plik jest dostępny i ma poprawne kodowanie UTF-8

Szczególne przypadki tworzenia pliku robots.txt

Witryny na platformach hostingowych typu Wix, WordPress.com czy Blogger często nie pozwalają na wgranie pliku robots do głównego katalogu i udostępniają własne rozwiązania pozwalające na wyłączenie z indeksacji określonych podstron lub katalogów. W tym przypadku trzeba zapoznać się z dostępnymi opcjami danej platformy.

Z kolei w przypadku subdomen i portów niestandardowych:

Każda subdomena może mieć własny plik robots.txt,
Taki plik działa tylko w ramach swojego protokołu i hosta.

Nowe zasady tworzenia pliku robots.txt - podsumowanie

Google co jakiś czas wprowadza zmiany w dokumentacji i sposobie działania botów indeksujących. Nie inaczej jest w przypadku zaktualizowanych wytycznych dot. pliku robots.txt. Nowe zasady mają ujednolicić tworzenie reguł dla robotów, upraszczając proces indeksowania. Co więc trzeba zrobić? Sprawdź swój plik robots, wprowadź zmiany i przetestuj w Search Console, czy działa poprawnie.

Jeśli potrzebujesz wsparcia przy pozycjonowaniu strony, napisz do nas!

Źródła:

https://developers.google.com/search/docs/crawling-indexing/robots/create-robots-txt?hl=pl [dostęp: 22.10.2024]

Arkadiusz Tyka

Lider Działu SEO/Co-owner

Arkadiusz Tyka to wiodący ekspert SEO i strateg marketingu internetowego z ponad 18-letnim doświadczeniem. Jako współwłaściciel i Head of SEO w firmach Greenfields i growAp rozwija innowacyjne rozwiązania w zakresie SEO i marketingu cyfrowego. Wcześniej pełnił rolę dyrektora ds. badań i rozwoju w Artefakt Sp. z o.o. sp. k. Jest uznawany za jednego z najlepszych specjalistów SEO w Polsce, łączącego głęboką wiedzę techniczną ze strategicznym myśleniem biznesowym. Ceniony mentor i lider, skutecznie wspiera rozwój młodszego pokolenia specjalistów marketingu cyfrowego.