Jak edytować plik txt pliku robots. Roboty Yandex Jak poprawnie utworzyć plik txt robotów


Jednym z etapów optymalizacji witryny pod kątem wyszukiwarek jest skompilowanie pliku robots.txt. Za pomocą tego pliku możesz uniemożliwić niektórym lub wszystkim robotom wyszukiwania indeksowanie Twojej witryny lub niektórych jej części, które nie są przeznaczone do indeksowania. W szczególności można zapobiec indeksowaniu zduplikowanych treści, takich jak wersje stron do druku.

Przed rozpoczęciem indeksowania roboty wyszukujące zawsze odwołują się do pliku robots.txt w katalogu głównym Twojej witryny, na przykład http://site.ru/robots.txt, aby dowiedzieć się, które sekcje witryny są zabronione przez robota z indeksowania. Ale nawet jeśli nie masz zamiaru niczego zabraniać, nadal zaleca się utworzenie tego pliku.

Jak widać z rozszerzenia robots.txt, jest to plik tekstowy. Aby utworzyć lub edytować ten plik, lepiej skorzystać z najprostszych edytorów tekstu, takich jak Notatnik. plik robots.txt musi znajdować się w katalogu głównym witryny i ma swój własny format, który omówimy poniżej.

Format pliku robots.txt

Plik robots.txt musi zawierać co najmniej dwa wymagane wpisy. Pierwszą z nich jest dyrektywa User-agent wskazująca, który robot wyszukujący powinien postępować zgodnie z kolejnymi instrukcjami. Wartością może być nazwa robota (googlebot, Yandex, StackRambler) lub symbol *, jeśli uzyskujesz dostęp do wszystkich robotów jednocześnie. Na przykład:

Klient użytkownika: Googlebot

Nazwę robota można znaleźć na stronie internetowej odpowiedniej wyszukiwarki. Następnie powinna pojawić się jedna lub więcej dyrektyw Disallow. Dyrektywy te informują robota, które pliki i foldery nie mogą być indeksowane. Na przykład poniższe linie uniemożliwiają robotom indeksowanie pliku feedback.php i katalogu cgi-bin:

Zabroń: /feedback.php Zabroń: /cgi-bin/

Można także używać tylko początkowych znaków plików lub folderów. Linia Disallow: /forum zabrania indeksowania wszystkich plików i folderów w katalogu głównym witryny, której nazwa zaczyna się od forum, na przykład pliku http://site.ru/forum.php i folderu http://site. ru/forum/ wraz z całą zawartością. Jeśli pole Disallow jest puste, oznacza to, że robot może indeksować wszystkie strony. Jeśli wartością Disallow jest symbol /, oznacza to, że cała witryna nie może być indeksowana.

Dla każdego pola User-agent musi istnieć co najmniej jedno pole Disallow. Oznacza to, że jeśli nie zamierzasz zabronić indeksowania czegokolwiek, plik robots.txt powinien zawierać następujące wpisy:

Klient użytkownika: * Nie zezwalaj:

Dodatkowe dyrektywy

Oprócz wyrażeń regularnych Yandex i Google pozwalają na użycie dyrektywy Zezwalaj, która jest przeciwieństwem Disallow, to znaczy wskazuje, które strony można zaindeksować. W poniższym przykładzie Yandex nie może indeksować wszystkiego z wyjątkiem adresów stron zaczynających się od /articles:

Agent użytkownika: Yandex Zezwalaj: /articles Disallow: /

W tym przykładzie dyrektywa Zezwalaj musi zostać napisana przed Disallow, w przeciwnym razie Yandex zrozumie to jako całkowity zakaz indeksowania witryny. Pusta dyrektywa Zezwalaj również całkowicie wyłącza indeksowanie witryny:

Agent użytkownika: Yandex Zezwalaj:

równowartość

Agent użytkownika: Yandex Disallow: /

Niestandardowe dyrektywy należy określić tylko dla tych wyszukiwarek, które je obsługują. W przeciwnym razie robot, który nie rozumie tego wpisu, może błędnie przetworzyć go lub cały plik robots.txt. Więcej informacji o dodatkowych dyrektywach i ogólnie o rozumieniu poleceń zawartych w pliku robots.txt przez pojedynczego robota można znaleźć na stronie odpowiedniej wyszukiwarki.

Wyrażenia regularne w pliku robots.txt

Większość wyszukiwarek bierze pod uwagę tylko wyraźnie określone nazwy plików i folderów, ale są też bardziej zaawansowane wyszukiwarki. Google Robot i Yandex Robot obsługują proste wyrażenia regularne w pliku robots.txt, co znacznie odciąża webmasterów. Na przykład poniższe polecenia uniemożliwiają Googlebotowi indeksowanie wszystkich plików z rozszerzeniem .pdf:

Klient użytkownika: googlebot Disallow: *.pdf$

W powyższym przykładzie * to dowolny ciąg znaków, a $ oznacza koniec łącza.

Klient użytkownika: Yandex Zezwalaj: /articles/*.html$ Nie zezwalaj: /

Powyższe dyrektywy pozwalają Yandexowi indeksować tylko pliki z rozszerzeniem „.html” znajdujące się w folderze /articles/. Wszystko inne jest zabronione w przypadku indeksowania.

Mapa serwisu

Możesz określić lokalizację mapy witryny XML w pliku robots.txt:

Klient użytkownika: googlebot Disallow: Mapa witryny: http://site.ru/sitemap.xml

Jeśli masz bardzo dużą liczbę stron w serwisie i musiałeś podzielić mapę witryny na części, to musisz wskazać wszystkie części mapy w pliku robots.txt:

Agent użytkownika: Yandex Disallow: Mapa witryny: http://mysite.ru/my_sitemaps1.xml Mapa witryny: http://mysite.ru/my_sitemaps2.xml

Lustra witryny

Jak wiadomo, zazwyczaj dostęp do tej samej witryny można uzyskać pod dwoma adresami: zarówno z www, jak i bez niego. Dla robota wyszukiwania site.ru i www.site.ru to różne witryny, ale zawierające tę samą treść. Nazywa się je lustrami.

Ze względu na fakt, że istnieją linki do stron serwisu zarówno z www, jak i bez niego, wagę stron można podzielić pomiędzy www.site.ru i site.ru. Aby temu zapobiec, wyszukiwarka musi wskazać główne lustro witryny. W wyniku „sklejenia” cały ciężar będzie należeć do jednego głównego lustra, a strona będzie mogła zająć wyższą pozycję w wynikach wyszukiwania.

Możesz określić główne lustro dla Yandex bezpośrednio w pliku robots.txt za pomocą dyrektywy Host:

Agent użytkownika: Yandex Disallow: /feedback.php Disallow: /cgi-bin/ Host: www.site.ru

Po sklejeniu lustro www.site.ru przejmie całą wagę i zajmie wyższą pozycję w wynikach wyszukiwania. A wyszukiwarka w ogóle nie będzie indeksować site.ru.

W przypadku innych wyszukiwarek wyborem głównego serwera lustrzanego jest stałe przekierowanie po stronie serwera (kod 301) z dodatkowych serwerów lustrzanych do głównego. Odbywa się to za pomocą pliku .htaccess i modułu mod_rewrite. Aby to zrobić, umieść plik .htaccess w katalogu głównym witryny i wpisz tam:

RewriteEngine On Opcje +FollowSymlinks RewriteBase / RewriteCond %(HTTP_HOST) ^site.ru$ RewriteRule ^(.*)$ http://www.site.ru/$1

W rezultacie wszystkie żądania z site.ru będą kierowane do www.site.ru, to znaczy site.ru/page1.php zostaną przekierowane do www.site.ru/page1.php.

Metoda przekierowania będzie działać we wszystkich wyszukiwarkach i przeglądarkach, ale nadal zaleca się dodanie dyrektywy Host do pliku robots.txt dla Yandex.

Komentarze w pliku robots.txt

Możesz także dodać komentarze do pliku robots.txt - zaczynają się one od symbolu # i kończą nową linią. Wskazane jest pisanie komentarzy w osobnej linii lub lepiej ich nie używać w ogóle.

Przykład wykorzystania komentarzy:

User-agent: StackRambler Disallow: /garbage/ # w tym folderze nie ma nic przydatnego Disallow: /doc.xhtml # i na tej stronie też # i wszystkie komentarze w tym pliku również są bezużyteczne

Przykłady plików robots.txt

1. Zezwól wszystkim robotom na indeksowanie wszystkich dokumentów witryny:

Klient użytkownika: * Nie zezwalaj:
Klient użytkownika: * Nie zezwalaj: /

3. Zabraniamy robotowi wyszukiwarki Google indeksowania pliku feedback.php oraz zawartości katalogu cgi-bin:

Klient użytkownika: googlebot Disallow: /cgi-bin/ Disallow: /feedback.php

4. Zezwalamy wszystkim robotom na indeksowanie całej witryny i zabraniamy robotowi wyszukiwarki Yandex indeksowanie pliku feedback.php oraz zawartości katalogu cgi-bin:

Agent użytkownika: Yandex Disallow: /cgi-bin/ Disallow: /feedback.php Host: www.site.ru User-agent: * Disallow:

5. Pozwalamy wszystkim robotom indeksować całą witrynę, a robotowi Yandex pozwalamy na indeksowanie tylko tej części witryny, która jest dla niego przeznaczona:

Agent użytkownika: Yandex Zezwól: /yandex Disallow: / Host: www.site.ru User-agent: * Disallow:

Puste linie oddzielają ograniczenia dla różnych robotów. Każdy blok ograniczeń musi zaczynać się od linii z polem User-Agent, wskazującym robota, którego dotyczą te zasady indeksowania witryny.

Powszechne błędy

Należy pamiętać, że pusta linia w pliku robots.txt stanowi separator pomiędzy dwoma wpisami dotyczącymi różnych robotów. Nie można także określić wielu dyrektyw w jednym wierszu. Uniemożliwiając indeksowanie pliku, webmasterzy często pomijają znak / przed nazwą pliku.

Nie ma potrzeby określania w pliku robots.txt zakazu indeksowania witryny przez różne programy przeznaczone do całkowitego pobrania witryny, na przykład TeleportPro. Ani programy do pobierania, ani przeglądarki nigdy nie przeglądają tego pliku i nie wykonują zawartych w nim instrukcji. Jest przeznaczony wyłącznie dla wyszukiwarek. Nie należy także blokować panelu administracyjnego swojej witryny w pliku robots.txt, ponieważ jeśli nigdzie nie będzie linku do niej, to nie zostanie ona zaindeksowana. Położenie obszaru administracyjnego ujawnisz tylko osobom, które nie powinny o tym wiedzieć. Warto też pamiętać, że zbyt duży plik robots.txt może zostać zignorowany przez wyszukiwarkę. Jeśli masz zbyt wiele stron, które nie są przeznaczone do indeksowania, lepiej po prostu usunąć je z serwisu lub przenieść do osobnego katalogu i uniemożliwić indeksowanie tego katalogu.

Sprawdzanie pliku robots.txt pod kątem błędów

Koniecznie sprawdź, jak wyszukiwarki rozumieją Twój plik robots. Aby sprawdzić Google, możesz skorzystać z Narzędzi Google dla webmasterów. Jeśli chcesz dowiedzieć się, jak Twój plik robots.txt jest interpretowany przez Yandex, możesz skorzystać z usługi Yandex.Webmaster. Dzięki temu będziesz mógł w odpowiednim czasie skorygować wszelkie błędy. Również na stronach tych serwisów można znaleźć zalecenia dotyczące tworzenia pliku robots.txt i wiele innych przydatnych informacji.

Kopiowanie artykułu jest zabronione.

Wydaliśmy nową książkę „Marketing treści w mediach społecznościowych: jak dostać się do głów obserwujących i sprawić, by zakochali się w Twojej marce”.

Robots.txt to plik tekstowy zawierający informacje dla robotów wyszukiwania, które pomagają indeksować strony portalu.


Więcej filmów na naszym kanale - ucz się marketingu internetowego z SEMANTICA

Wyobraź sobie, że udałeś się na wyspę w poszukiwaniu skarbu. Masz mapę. Trasa jest tam wskazana: „Zbliż się do dużego pnia. Stamtąd idź 10 kroków na wschód, a następnie dotrzyj do klifu. Skręć w prawo i znajdź jaskinię.

To są wskazówki. Podążając za nimi, podążasz wyznaczoną trasą i odnajdujesz skarb. Bot wyszukiwania działa w podobny sposób, gdy rozpoczyna indeksowanie witryny lub strony. Znajduje plik robots.txt. Odczytuje, które strony wymagają indeksowania, a które nie. Postępując zgodnie z tymi poleceniami, przeszukuje portal i dodaje jego strony do indeksu.

Do czego służy plik robots.txt?

Zaczynają odwiedzać witryny i indeksować strony po przesłaniu witryny na hosting i zarejestrowaniu DNS. Wykonują swoją pracę niezależnie od tego, czy masz jakieś dokumenty techniczne, czy nie. Robots informuje wyszukiwarki, że podczas indeksowania witryny internetowej muszą wziąć pod uwagę zawarte w niej parametry.

Brak pliku robots.txt może powodować problemy z szybkością indeksowania witryny i obecność śmieci w indeksie. Nieprawidłowa konfiguracja pliku może spowodować wykluczenie ważnych części zasobu z indeksu i obecność niepotrzebnych stron w wynikach.

Wszystko to w efekcie prowadzi do problemów z awansem.

Przyjrzyjmy się bliżej, jakie instrukcje znajdują się w tym pliku i jak wpływają one na zachowanie bota na Twojej stronie.

Jak zrobić plik robots.txt

Najpierw sprawdź, czy masz ten plik.

Wpisz adres witryny w pasku adresu przeglądarki, a następnie ukośnikiem nazwę pliku, na przykład https://www.xxxxx.ru/robots.txt

Jeżeli plik istnieje, na ekranie pojawi się lista jego parametrów.

Jeśli nie ma pliku:

  1. Plik tworzony jest w zwykłym edytorze tekstu takim jak Notatnik lub Notepad++.
  2. Musisz ustawić nazwę robots, rozszerzenie .txt. Wprowadź dane z uwzględnieniem przyjętych standardów projektowych.
  3. Możesz sprawdzić błędy, korzystając z usług takich jak Yandex Webmaster.Tam musisz wybrać element „Analiza Robots.txt” w sekcji „Narzędzia” i postępować zgodnie z instrukcjami.
  4. Gdy plik będzie gotowy, prześlij go do katalogu głównego witryny.

Ustalanie zasad

Wyszukiwarki mają więcej niż jednego robota. Niektóre boty indeksują tylko treść tekstową, inne tylko treść graficzną. Nawet w przypadku samych wyszukiwarek sposób działania robotów indeksujących może się różnić. Należy to wziąć pod uwagę podczas kompilacji pliku.

Niektóre z nich mogą ignorować niektóre zasady, np. GoogleBot nie reaguje na informację, który serwer lustrzany witryny jest uważany za główny. Ale ogólnie rzecz biorąc, postrzegają akta i kierują się nimi.

Składnia pliku

Parametry dokumentu: nazwa robota (bota) „User-agent”, dyrektywy: zezwalanie na „Zezwalaj” i zabranianie „Nie zezwalaj”.

Obecnie istnieją dwie kluczowe wyszukiwarki: odpowiednio Yandex i Google. Podczas tworzenia strony internetowej należy wziąć pod uwagę wymagania obu.

Format tworzenia wpisów jest następujący, należy zwrócić uwagę na wymagane spacje i puste linie.

Dyrektywa agenta użytkownika

Robot szuka rekordów rozpoczynających się od User-agent, powinien on zawierać wskazanie nazwy robota wyszukującego. Jeśli nie jest to określone, dostęp bota uważa się za nieograniczony.

Dyrektywy Disallow i Zezwalaj

Jeśli chcesz wyłączyć indeksowanie w pliku robots.txt, użyj opcji Nie zezwalaj. Z jego pomocą dostęp bota do serwisu lub niektórych jego sekcji jest ograniczony.

Jeśli plik robots.txt nie zawiera żadnych zakazujących dyrektyw „Nie zezwalaj”, uznaje się, że indeksowanie całej witryny jest dozwolone. Zwykle bany są nadawane po każdym bocie osobno.

Wszelkie informacje pojawiające się po znaku # stanowią komentarz i nie nadają się do odczytu maszynowego.

Zezwalaj służy do zezwalania na dostęp.

Symbol gwiazdki wskazuje, co dotyczy wszystkich: Klient użytkownika: *.

Opcja ta natomiast oznacza całkowity zakaz indeksowania dla wszystkich.

Uniemożliwia przeglądanie całej zawartości określonego folderu katalogu

Aby zablokować jeden plik należy podać jego ścieżkę bezwzględną


Mapa witryny, Dyrektywy hosta

W przypadku Yandex zwyczajowo wskazuje się, które lustro chcesz oznaczyć jako główne. A Google, jak pamiętamy, ignoruje to. Jeśli nie ma kopii lustrzanych, po prostu zwróć uwagę, czy uważasz, że poprawne jest wpisanie nazwy Twojej witryny z www czy bez www.

Dyrektywa o czystych parametrach

Można go zastosować, jeśli adresy URL stron serwisu zawierają zmienne parametry, które nie mają wpływu na ich zawartość (mogą to być identyfikatory użytkowników, strony odsyłające).

Przykładowo w adresie strony „ref” określa źródło ruchu, tj. wskazuje, skąd użytkownik trafił na witrynę. Strona będzie taka sama dla wszystkich użytkowników.

Możesz wskazać to robotowi, a on nie pobierze zduplikowanych informacji. Zmniejszy to obciążenie serwera.

Dyrektywa dotycząca opóźnienia indeksowania

Dzięki temu możesz określić, jak często bot będzie ładować strony do analizy. Polecenie to stosowane jest w przypadku przeciążenia serwera i wskazuje, że należy przyspieszyć proces indeksowania.

Błędy w pliku robots.txt

  1. Plik nie znajduje się w katalogu głównym. Robot nie będzie tego szukać głębiej i nie weźmie tego pod uwagę.
  2. Litery w nazwie muszą być małe, łacińskie.
    W nazwie jest błąd, czasami brakuje im litery S na końcu i pisze robot.
  3. W pliku robots.txt nie można używać znaków cyrylicy. Jeśli chcesz określić domenę w języku rosyjskim, użyj formatu w specjalnym kodowaniu Punycode.
  4. Jest to metoda konwersji nazw domen na ciąg znaków ASCII. Aby to zrobić, możesz użyć specjalnych konwerterów.

To kodowanie wygląda następująco:
site.rf = xn--80aswg.xn--p1ai

Dodatkowe informacje o tym, co zamknąć w pliku robots txt oraz o ustawieniach zgodnych z wymaganiami wyszukiwarek Google i Yandex, znajdziesz w dokumentach pomocy. Różne cm mogą mieć również swoje własne cechy, należy to wziąć pod uwagę.

Prawidłowe skonfigurowanie pliku robots.txt wyeliminuje ewentualne problemy pojawiające się podczas indeksowania.

W szczególności właściciel witryny ma możliwość ograniczenia indeksowania sekcji usługowych i osobistych zasobu. W tej publikacji porozmawiamy o tym, jak utworzyć plik i skonfigurować go dla różnych wyszukiwarek, a także popularnych systemów CMS.

Do czego służy plik robots.txt?

Jak można się domyślić, plik ten zawiera instrukcje przeznaczone dla botów wyszukujących. Musi być umieszczony w katalogu głównym, aby boty rozpoczęły indeksowanie strony, czytając warunki określone w pliku robots.txt.

Tym samym plik wskazuje robotom przeszukującym, które katalogi serwisu mogą być indeksowane, a które nie podlegają temu procesowi.

Biorąc pod uwagę, że obecność pliku nie ma wpływu na proces rankingu, wiele witryn nie zawiera pliku robots.txt. Ale to nie jest do końca właściwa droga. Przyjrzyjmy się zaletom, jakie plik robots.txt daje zasobowi.

Możesz zabronić indeksowania zasobu w całości lub w części oraz ograniczyć zakres robotów wyszukujących, które będą miały prawo przeprowadzać indeksowanie. Możesz całkowicie zabezpieczyć zasób przed tym procesem (na przykład podczas tworzenia lub rekonstrukcji strony internetowej).

Ponadto plik robots ogranicza dostęp do zasobu wszelkiego rodzaju robotom spamowym, których celem jest przeskanowanie witryny w poszukiwaniu adresów e-mail, które następnie zostaną wykorzystane do wysyłania spamu. Nie rozwodźmy się nad tym, do czego to może doprowadzić – i jest to zrozumiałe.

Możesz ukryć przed indeksowaniem sekcje witryny, które nie są przeznaczone dla wyszukiwarek, ale dla określonego kręgu użytkowników, sekcje zawierające informacje prywatne i inne podobne.

Jak utworzyć poprawny plik robots.txt

Odpowiednie roboty można łatwo napisać ręcznie, bez uciekania się do pomocy różnych konstruktorów. Proces sprowadza się do zapisania niezbędnych dyrektyw w zwykłym pliku notatnika, który następnie należy zapisać pod nazwą „robots” i wgrać do katalogu głównego własnego zasobu. Dla jednej witryny potrzebny jest jeden taki plik. Może zawierać instrukcje dla botów wyszukiwania wszystkich odpowiednich wyszukiwarek. Oznacza to, że nie ma potrzeby tworzenia osobnego pliku dla każdej wyszukiwarki.

Co należy zapisać w pliku? Obowiązkowe jest użycie dwóch dyrektyw: User-agent i Disallow. Pierwszy określa, do którego bota skierowana jest ta wiadomość, drugi pokazuje, która strona lub katalog zasobów nie może być indeksowany.

Aby ustawić te same reguły dla wszystkich botów, możesz użyć symbolu gwiazdki zamiast nazwy w dyrektywie User-agent.
Plik robots.txt w tym przypadku będzie wyglądał następująco:

Nawiasem mówiąc, programiści Google wielokrotnie przypominali webmasterom, że rozmiar pliku robots.txt nie powinien przekraczać 500 KB. Z pewnością będzie to prowadzić do błędów podczas indeksowania. Jeśli tworzysz plik ręcznie, to „osiągnięcie” takiego rozmiaru jest oczywiście nierealne. Jednak niektóre CMS-y, które automatycznie generują zawartość pliku robots.txt, mogą sprawić, że będzie on znacznie cięższy.

Z łatwością utwórz plik dla dowolnej wyszukiwarki

Jeśli boisz się popełnić błędy przy pisaniu pliku (lub po prostu jesteś na to zbyt leniwy), możesz powierzyć stworzenie niezbędnych dyrektyw konstruktorowi. Jest to tak proste, jak dwa razy dwa, ale nadal podamy krótkie wyjaśnienie, jak z nim pracować.

Pierwsze pole zawiera adres zasobu. Dopiero po tym użytkownik będzie miał możliwość wyboru wyszukiwarki, dla której ustawione są te reguły (można wybrać kilka wyszukiwarek sekwencyjnie). Następnie musisz określić foldery i pliki, do których dostęp będzie zabroniony, podać adres kopii lustrzanej witryny i wskazać lokalizację mapy zasobów.

Po wypełnieniu pól wymagane katalogi zostaną wpisane w dolnym polu. Na koniec wystarczy skopiować je do pliku txt i nadać mu nazwę robots.

Jak sprawdzić skuteczność pliku robots.txt

Aby przeanalizować działanie pliku w Yandex, należy przejść do odpowiedniej strony w sekcji Yandex.Webmaster. W oknie dialogowym podaj nazwę witryny i kliknij przycisk „pobierz”.

System przeanalizuje plik robots.txt i wskaże, czy robot wyszukiwania będzie indeksował strony, których indeksowanie jest zabronione. Jeśli pojawią się problemy, dyrektywy można edytować i testować bezpośrednio w oknie dialogowym, a następnie kopiować i wklejać do pliku robots.txt w katalogu głównym.

Podobną usługę zapewnia usługa Narzędzia dla webmasterów z poziomu wyszukiwarki Google.

Tworzenie pliku robots.txt dla WordPress, Joomla i Ucoz

Różne systemy CMS, które zyskały dużą popularność w naszych otwartych przestrzeniach, oferują użytkownikom własne wersje plików robots.txt (lub nie mają ich wcale). Często pliki te są albo zbyt uniwersalne i nie uwzględniają cech zasobu użytkownika, albo mają szereg istotnych niedociągnięć.

Możesz spróbować wprowadzić w nich zmiany ręcznie (co jest mało skuteczne, jeśli brakuje Ci wiedzy) lub możesz skorzystać z doświadczenia bardziej profesjonalnych kolegów. Jak to mówią, wszystko było już przed nami zrobione. Na przykład plik robots.txt dla WordPressa może wyglądać następująco:


Linię www.site.ru należy oczywiście zastąpić adresem strony internetowej użytkownika.

Każdy blog ma na to swoją odpowiedź. Dlatego nowicjusze w promocji w wyszukiwarkach często są zdezorientowani, na przykład:

Jakie roboty ti ex ti?

Plik plik robots.txt Lub plik indeksu- zwykły dokument tekstowy w kodowaniu UTF-8, ważny dla protokołów http, https i FTP. Plik zawiera rekomendacje robotów wyszukiwania: które strony/pliki należy przeszukać. Jeżeli plik zawiera znaki w kodowaniu innym niż UTF-8, roboty wyszukujące mogą je nieprawidłowo przetworzyć. Reguły wymienione w pliku robots.txt obowiązują tylko w przypadku hosta, protokołu i numeru portu, na którym znajduje się plik.

Plik powinien znajdować się w katalogu głównym jako dokument tekstowy i być dostępny pod adresem: https://site.com.ua/robots.txt.

W innych plikach zwyczajowo oznacza się BOM (znak kolejności bajtów). Jest to znak Unicode używany do określenia sekwencji bajtów podczas odczytywania informacji. Jego znak kodowy to U+FEFF. Na początku pliku robots.txt znacznik sekwencji bajtów jest ignorowany.

Google ustaliło limit rozmiaru pliku robots.txt – nie powinien on ważyć więcej niż 500 KB.

OK, jeśli interesują Cię szczegóły czysto techniczne, plik robots.txt to opis w formie Backus-Naur (BNF). Wykorzystuje to reguły RFC 822.

Podczas przetwarzania reguł w pliku robots.txt roboty wyszukujące otrzymują jedną z trzech instrukcji:

  • dostęp częściowy: możliwe jest skanowanie poszczególnych elementów serwisu;
  • pełny dostęp: możesz skanować wszystko;
  • całkowity zakaz: robot nie może niczego skanować.

Podczas skanowania pliku robots.txt roboty otrzymują następujące odpowiedzi:

  • 2xx — skanowanie zakończyło się pomyślnie;
  • 3xx — robot wyszukiwania podąża za przekierowaniem, dopóki nie otrzyma kolejnej odpowiedzi. Najczęściej następuje pięć prób otrzymania przez robota odpowiedzi innej niż odpowiedź 3xx, po czym rejestrowany jest błąd 404;
  • 4xx — robot wyszukiwania wierzy, że możliwe jest przeszukanie całej zawartości witryny;
  • 5xx — są oceniane jako tymczasowe błędy serwera, skanowanie jest całkowicie zabronione. Robot będzie miał dostęp do pliku do czasu otrzymania kolejnej odpowiedzi. Robot wyszukiwarki Google może określić, czy odpowiedź na brakujące strony w serwisie jest skonfigurowana prawidłowo czy nie, czyli czy zamiast błędu 404 strona zwróci odpowiedź 5xx, w w tym przypadku strona zostanie przetworzona z kodem odpowiedzi 404.

Nie wiadomo jeszcze, w jaki sposób przetwarzany jest plik robots.txt, który jest niedostępny ze względu na problemy serwera z dostępem do Internetu.

Dlaczego potrzebujesz pliku robots.txt?

Na przykład czasami roboty nie powinny odwiedzać:

  • strony z danymi osobowymi użytkowników serwisu;
  • strony z różnymi formularzami przesyłania informacji;
  • witryny lustrzane;
  • strony z wynikami wyszukiwania.

Ważne: nawet jeśli strona znajduje się w pliku robots.txt, istnieje możliwość, że pojawi się w wynikach, jeśli link do niej został znaleziony w obrębie serwisu lub gdzieś w zasobie zewnętrznym.

Tak roboty wyszukiwarek widzą witrynę z plikiem robots.txt i bez niego:

Bez pliku robots.txt informacje, które powinny być ukryte przed wzrokiem ciekawskich, mogą trafić do wyników wyszukiwania, na czym ucierpi zarówno Ty, jak i witryna.

Tak robot wyszukiwarki widzi plik robots.txt:

Google wykrył w witrynie plik robots.txt i znalazł zasady, według których powinny być indeksowane strony witryny

Jak utworzyć plik robots.txt

Korzystanie z notatnika, Notatnika, Sublime lub dowolnego innego edytora tekstu.

User-agent - wizytówka dla robotów

User-agent — reguła określająca, które roboty muszą przeglądać instrukcje opisane w pliku robots.txt. Obecnie znanych jest 302 robotów wyszukujących

Mówi, że w pliku robots.txt określamy reguły dla wszystkich robotów wyszukujących.

Dla Google głównym robotem jest Googlebot. Jeśli chcemy uwzględnić tylko to, zapis w pliku będzie wyglądał następująco:

W takim przypadku wszystkie inne roboty będą indeksować treść w oparciu o swoje dyrektywy dotyczące przetwarzania pustego pliku robots.txt.

Dla Yandex głównym robotem jest... Yandex:

Inne roboty specjalne:

  • Mediapartners-Google— za usługę AdSense;
  • AdsBot-Google— aby sprawdzić jakość strony docelowej;
  • Obrazy Yandex— indeksator Yandex.Images;
  • Obraz Googlebota- do zdjęć;
  • YandexMetrika— robot Yandex.Metrica;
  • YandexMedia— robot indeksujący dane multimedialne;
  • YaDirectFetcher— Robot Yandex.Direct;
  • Wideo Googlebota— dla wideo;
  • Googlebot-mobilny- dla wersji mobilnej;
  • YandexDirectDyn— robot do dynamicznego generowania banerów;
  • Blogi Yandex— robot przeszukujący blogi, który indeksuje posty i komentarze;
  • Rynek Yandex— robot Yandex.Market;
  • Wiadomości Yandex— robot Yandex.News;
  • Yandex Direct— pobiera informacje o zawartości stron partnerskich Sieci Reklamowej w celu wyjaśnienia ich tematyki w celu doboru odpowiednich reklam;
  • YandexPagechecker— walidator mikroznaczników;
  • Kalendarz Yandex— Robot Yandex.Calendar.

Nie zezwalaj - umieszczanie „cegieł”

Warto skorzystać, jeśli witryna jest w trakcie udoskonalania, a nie chcesz, aby pojawiała się w wynikach wyszukiwania w obecnym stanie.

Ważne jest, aby usunąć tę regułę, gdy tylko witryna będzie gotowa do wyświetlenia użytkownikom. Niestety wielu webmasterów o tym zapomina.

Przykład. Jak skonfigurować regułę Nie zezwalaj, aby informować roboty, aby nie przeglądały zawartości folderu /paczka/:

Ta linia zabrania indeksowania wszystkich plików z rozszerzeniem .gif

Pozwól – kierujemy robotami

Zezwalaj umożliwia skanowanie dowolnego pliku/dyrektywy/strony. Załóżmy, że chcesz, aby roboty mogły przeglądać tylko strony rozpoczynające się od /catalog i zamykać całą pozostałą zawartość. W takim przypadku zalecana jest następująca kombinacja:

Reguły Zezwalaj i Nie zezwalaj są sortowane według długości prefiksu adresu URL (od najmniejszego do największego) i stosowane sekwencyjnie. Jeśli na stronę pasuje więcej niż jedna reguła, robot wybiera ostatnią regułę z posortowanej listy.

Host — wybierz witrynę lustrzaną

Host to jedna z obowiązkowych reguł pliku robots.txt, która informuje robota Yandex, który z serwerów lustrzanych witryny powinien zostać wzięty pod uwagę przy indeksowaniu.

Lustro witryny to dokładna lub prawie dokładna kopia witryny, dostępna pod różnymi adresami.

Robot nie pomyli się podczas wyszukiwania serwerów lustrzanych witryny i zrozumie, że główne lustro jest określone w pliku robots.txt. Adres witryny jest podawany bez przedrostka „http://”, natomiast jeśli witryna działa w oparciu o protokół HTTPS, należy podać przedrostek „https://”.

Jak napisać tę regułę:

Przykład pliku robots.txt jeśli witryna działa w oparciu o protokół HTTPS:

Mapa serwisu - mapa serwisu medycznego

Mapa witryny informuje roboty, pod którymi znajdują się wszystkie adresy URL witryn wymagane do indeksowania http://site.ua/sitemap.xml. Przy każdym przeszukaniu robot będzie sprawdzał, jakie zmiany zostały wprowadzone w tym pliku i szybko aktualizuje informacje o witrynie w bazach wyszukiwarki.

Opóźnienie indeksowania - stoper dla słabych serwerów

Opóźnienie indeksowania to parametr, za pomocą którego można ustawić czas, po którym strony witryny będą się ładować. Ta zasada jest istotna, jeśli masz słaby serwer. W takim przypadku mogą wystąpić duże opóźnienia w dostępie robotów wyszukiwania do stron witryny. Parametr ten mierzony jest w sekundach.

Clean-param - łowca duplikatów treści

Clean-param pomaga radzić sobie z parametrami get, aby uniknąć powielania treści, które mogą być dostępne pod różnymi adresami dynamicznymi (ze znakami zapytania). Takie adresy pojawiają się, jeśli witryna ma różne sortowanie, identyfikatory sesji i tak dalej.

Załóżmy, że strona jest dostępna pod następującymi adresami:

www.site.com/catalog/get_phone.ua?ref=page_1&phone_id=1

www.site.com/catalog/get_phone.ua?ref=page_2&phone_id=1

www.site.com/catalog/get_phone.ua?ref=page_3&phone_id=1

W tym przypadku plik robots.txt będzie wyglądał następująco:

Tutaj ref wskazuje, skąd pochodzi link, więc jest on zapisany na samym początku, a dopiero potem wskazywana jest reszta adresu.

Zanim jednak przejdziesz do pliku referencyjnego, musisz jeszcze poznać pewne znaki używane podczas pisania pliku robots.txt.

Symbole w pliku robots.txt

Głównymi znakami pliku są „/, *, $, #”.

Używając ukośnik „/” pokazujemy, że chcemy zapobiec wykryciu przez roboty. Na przykład, jeśli w regule Nie zezwalaj znajduje się jeden ukośnik, zabraniamy skanowania całej witryny. Używając dwóch znaków ukośnika możesz uniemożliwić skanowanie określonego katalogu, na przykład: /katalog/.

Ten wpis mówi, że zabraniamy skanowania całej zawartości folderu katalogu, ale jeśli napiszemy /catalog, zablokujemy wszystkie linki w witrynie rozpoczynające się od /catalog.

Gwiazdka „*” oznacza dowolną sekwencję znaków w pliku. Umieszcza się go po każdej regule.

Wpis ten mówi, że wszystkie roboty nie powinny indeksować żadnych plików z rozszerzeniem .gif w folderze /catalog/

Znak dolara «$» ogranicza działanie znaku gwiazdki. Jeśli chcesz zablokować całą zawartość folderu katalogu, ale nie możesz blokować adresów URL zawierających /catalog, wpis w pliku indeksu będzie wyglądał następująco:

Siatka "#" używany w komentarzach, które webmaster zostawia dla siebie lub innych webmasterów. Robot nie będzie ich brał pod uwagę podczas skanowania witryny.

Na przykład:

Jak wygląda idealny plik robots.txt

Plik otwiera zawartość witryny do zaindeksowania, host zostaje zarejestrowany i wskazana jest mapa witryny, dzięki której wyszukiwarki zawsze zobaczą adresy, które powinny zostać zaindeksowane. Zasady Yandexa są określone osobno, ponieważ nie wszystkie roboty rozumieją instrukcje Hosta.

Ale nie spiesz się, aby skopiować zawartość pliku do siebie - każda witryna musi mieć unikalne zasady, które zależą od rodzaju witryny i systemu CMS. Dlatego warto pamiętać o wszystkich zasadach podczas wypełniania pliku robots.txt.

Jak sprawdzić plik robots.txt

Jeśli chcesz wiedzieć, czy plik robots.txt został poprawnie wypełniony, sprawdź to w narzędziach dla webmasterów Google i Yandex. Wystarczy wpisać kod źródłowy pliku robots.txt do formularza poprzez link i wskazać witrynę, którą chcemy sprawdzić.

Jak nie wypełniać pliku robots.txt

Często przy wypełnianiu pliku indeksu popełniane są irytujące błędy, które wiążą się ze zwykłą nieuwagą lub pośpiechem. Poniżej znajduje się tabela błędów, z którymi spotkałem się w praktyce.

2. Zapisywanie kilku folderów/katalogów w jednej instrukcji Disallow:

Taki wpis może zmylić roboty wyszukiwarek, mogą nie zrozumieć, czego dokładnie nie powinny indeksować: albo pierwszego folderu, albo ostatniego, dlatego każdą regułę trzeba pisać osobno.

3. Sam plik musi zostać wywołany tylko plik robots.txt, a nie plik Robots.txt, ROBOTS.TXT lub cokolwiek innego.

4. Nie możesz pozostawić reguły User-agent pustej - musisz określić, który robot ma uwzględniać reguły zapisane w pliku.

5. Dodatkowe znaki w pliku (ukośniki, gwiazdki).

6. Dodanie do pliku stron, które nie powinny znajdować się w indeksie.

Niestandardowe wykorzystanie pliku robots.txt

Oprócz bezpośrednich funkcji, plik indeksu może stać się platformą kreatywności i sposobem na znalezienie nowych pracowników.

Oto witryna, w której plik robots.txt sam w sobie jest małą witryną zawierającą elementy robocze, a nawet jednostkę reklamową.

Plik jest wykorzystywany głównie przez agencje SEO jako platforma do wyszukiwania specjalistów. Kto jeszcze może wiedzieć o jego istnieniu? :)

Google ma specjalny plik ludzie.txt, abyście nie dopuszczali do siebie myśli o dyskryminacji specjalistów od skór i mięsa.

wnioski

Za pomocą pliku Robots.txt możesz wydawać instrukcje dotyczące wyszukiwania robotów, reklamować siebie, swoją markę i szukać specjalistów. To świetne pole do eksperymentów. Najważniejsze jest, aby pamiętać o prawidłowym wypełnieniu pliku i typowych błędach.

Reguły, zwane także dyrektywami lub instrukcjami w pliku robots.txt:

  1. User-agent - reguła określająca, które roboty mają przeglądać instrukcje opisane w pliku robots.txt.
  2. Disallow zawiera zalecenia dotyczące tego, jakich informacji nie należy skanować.
  3. Mapa witryny informuje roboty, że wszystkie adresy URL witryn wymagane do indeksowania znajdują się pod adresem http://site.ua/sitemap.xml.
  4. Gospodarz informuje robota Yandex, które z serwerów lustrzanych witryny powinny zostać uwzględnione przy indeksowaniu.
  5. Zezwalaj umożliwia skanowanie dowolnego pliku/dyrektywy/strony.

Znaki podczas kompilacji pliku robots.txt:

  1. Znak dolara „$” ogranicza działanie znaku gwiazdki.
  2. Za pomocą ukośnika „/” wskazujemy, że chcemy go ukryć przed wykryciem przez roboty.
  3. Gwiazdka „*” oznacza dowolną sekwencję znaków w pliku. Umieszcza się go po każdej regule.
  4. Hash „#” służy do oznaczania komentarzy, które webmaster pisze dla siebie lub innych webmasterów.

Korzystaj mądrze z pliku indeksu – a strona zawsze znajdzie się w wynikach wyszukiwania.

Tworzenie samego pliku

Robots.txt to plik z instrukcjami dla robotów wyszukujących. Jest tworzony w katalogu głównym witryny. Możesz go teraz utworzyć na swoim komputerze za pomocą Notatnika, tak samo jak tworzysz dowolny plik tekstowy.

Aby to zrobić, kliknij prawym przyciskiem myszy puste miejsce i wybierz Nowy – Dokument tekstowy (nie Word). Otworzy się za pomocą zwykłego notatnika. Nazwij to robotami, jego rozszerzenie jest już poprawne - txt. To tyle, jeśli chodzi o utworzenie samego pliku.

Jak skomponować plik robots.txt

Teraz pozostaje tylko wypełnić plik niezbędnymi instrukcjami. Właściwie polecenia dla robotów mają najprostszą składnię, znacznie prostszą niż w jakimkolwiek języku programowania. Ogólnie plik można wypełnić na dwa sposoby:

Spójrz na inną witrynę, skopiuj i zmień, aby dopasować ją do struktury swojego projektu.

Napisz to sam

O pierwszym sposobie pisałem już w. Jest odpowiedni, jeśli witryny mają te same silniki i nie ma znaczących różnic w funkcjonalności. Na przykład wszystkie witryny WordPress mają tę samą strukturę, ale mogą istnieć różne rozszerzenia, takie jak forum, sklep internetowy i wiele dodatkowych katalogów. Jeśli chcesz wiedzieć jak zmienić plik robots.txt przeczytaj ten artykuł, możesz przeczytać też poprzedni, ale ten powie całkiem sporo.

Na przykład masz w swojej witrynie katalog /source, w którym przechowywane są źródła artykułów, które piszesz na swoim blogu, ale inny webmaster nie ma takiego katalogu. A ty na przykład chcesz zamknąć folder źródłowy przed indeksowaniem. Jeśli skopiujesz plik robots.txt z innego zasobu, nie będzie tam takiego polecenia. Będziesz musiał dodać swoje instrukcje, usunąć niepotrzebne rzeczy itp.

W każdym razie warto znać podstawową składnię instrukcji dla robotów, którą teraz przeanalizujemy.

Jak napisać instrukcje do robotów?

Pierwszą rzeczą, od której zaczyna się plik, jest wskazanie, do jakich wyszukiwarek adresowane są instrukcje. Odbywa się to w następujący sposób:

Agent użytkownika: Yandex Lub klient użytkownika: Googlebot

Agent użytkownika: Yandex

Klient użytkownika: Googlebot

Nie ma potrzeby umieszczania średników na końcu linii, to nie jest programowanie dla Ciebie). Ogólnie rzecz biorąc, jasne jest, że w pierwszym przypadku instrukcje przeczyta tylko bot Yandex, w drugim – tylko Google. Jeśli polecenia muszą zostać wykonane przez wszystkie roboty, napisz tak: User-agent:

Świetnie. Rozwiązaliśmy kwestię atrakcyjności dla robotów. To nie jest trudne. Można to zilustrować prostym przykładem. Masz trzech młodszych braci, Vasyę, Dimę i Petyę, a ty jesteś najważniejszy. Twoi rodzice wyszli i kazali ci mieć na nich oko.

Cała trójka cię o coś prosi. Wyobraź sobie, że musisz udzielić im odpowiedzi, tak jakbyś pisał instrukcje do wyszukiwania robotów. Będzie to wyglądać mniej więcej tak:

Agent użytkownika: Vasya Zezwól: idź do piłki nożnej Agent użytkownika: Dima Disallow: idź na mecz piłki nożnej (Dima rozbił szybę swoim sąsiadom ostatnim razem, został ukarany) Agent użytkownika: Petya Zezwól: idź do kina (Petya ma już 16 lat i ogólnie jestem w szoku, że ja też powinnam prosić Cię o pozwolenie, ale cóż, puść go).

Tak więc Vasya szczęśliwie sznuruje tenisówki, Dima ze spuszczoną głową patrzy przez okno na swojego brata, który już myśli, ile goli dzisiaj strzeli (Dima otrzymał polecenie zakazu, czyli zakazu). Cóż, Petya idzie do swojego filmu.

Z tego przykładu łatwo zrozumieć, że Zezwól jest pozwoleniem, a Zabroń jest zakazem. Ale w pliku robots.txt wydajemy polecenia nie ludziom, ale robotom, więc zamiast konkretnych zadań wpisywane są tam adresy stron i katalogów, które należy zezwolić lub zabronić na indeksowanie.

Mam na przykład witrynę site.ru. Działa na WordPressie. Zaczynam pisać instrukcje:

Agent użytkownika: * Disallow: /wp-admin/ Disallow: /wp-content/ Disallow: /wp-includes/ Zezwól: /wp-content/uploads/ Disallow: /source/ Cóż, itp.

Agent użytkownika: *

Nie zezwalaj: /wp-admin/

Nie zezwalaj: /wp-content/

Nie zezwalaj: /wp-includes/

Nie zezwalaj: /źródło/

Nuit. D.

Najpierw skontaktowałem się ze wszystkimi robotami. Po drugie, zablokowałem indeksowanie folderów silnika, ale jednocześnie dałem robotowi dostęp do folderu pobrań. Wszystkie zdjęcia są tam zwykle przechowywane i zazwyczaj nie są blokowane przed indeksowaniem, jeśli planujesz odbierać ruch z wyszukiwania obrazów.

Cóż, pamiętasz, wcześniej w artykule mówiłem, że możesz mieć dodatkowe katalogi? Możesz je stworzyć samodzielnie do różnych celów. Na przykład na jednej z moich witryn znajduje się folder Flash, w którym umieszczam gry flash, aby móc je uruchomić na stronie. Lub źródło – w tym folderze mogą być przechowywane pliki dostępne do pobrania przez użytkowników.

Ogólnie rzecz biorąc, nie ma znaczenia, jak nazywa się folder. Jeśli chcesz go zamknąć, podaj ścieżkę do niego i polecenie Disallow.

Polecenie Zezwól jest potrzebne właśnie po to, aby otworzyć niektóre części już zamkniętych sekcji. Przecież domyślnie, jeśli nie masz pliku robots.txt, cała witryna będzie dostępna do indeksowania. Jest to zarówno dobre (na pewno nie zamkniesz przez pomyłkę czegoś ważnego), jak i złe (zostaną otwarte pliki i foldery, które nie powinny znajdować się w wynikach wyszukiwania).

Aby lepiej zrozumieć ten punkt, sugeruję ponowne spojrzenie na ten fragment:

Nie zezwalaj: /wp-content/ Zezwól: /wp-content/uploads/

Nie zezwalaj: /wp-content/

Zezwalaj na: /wp-content/uploads/

Jak widać, najpierw blokujemy indeksowanie całego katalogu wp-content. Przechowuje wszystkie Twoje szablony, wtyczki, ale zawiera także zdjęcia. Oczywiście, że można je otworzyć. Dlatego potrzebujemy polecenia Zezwól.

Dodatkowe opcje

Wymienione polecenia nie są jedynymi elementami, które można określić w pliku. Są też takie: Host – wskazuje główne lustro witryny. Dla tych, którzy nie wiedzą, każda witryna internetowa ma dwie domyślne opcje pisowni nazwy domeny: domena.com i www.domain.com.

Aby uniknąć problemów, musisz określić jedną opcję jako lustro główne. Można to zrobić zarówno w narzędziach dla webmasterów, jak i w pliku Robots.txt. Aby to zrobić, piszemy: Host: domena.com

Co to daje? Jeśli ktoś spróbuje dostać się na Twoją stronę w ten sposób: www.domain.com, zostanie automatycznie przekierowany do wersji bez www, gdyż zostanie ona rozpoznana jako główny serwer lustrzany.

Druga dyrektywa to mapa witryny. Myślę, że już rozumiesz, że określa ścieżkę do mapy witryny w formacie XML. Przykład: http://domain.com/sitemap.xml

Ponownie możesz przesłać mapę do Yandex.Webmaster, możesz także określić ją w pliku robots.txt, aby robot przeczytał ten wiersz i wyraźnie rozumiał, gdzie szukać mapy witryny. Dla robota mapa terenu jest równie ważna, jak dla Wasyi – piłka, z którą pójdzie na mecz piłki nożnej. To tak, jakby pytał cię (jak starszy brat), gdzie jest piłka. I mówisz mu:

zajrzyj za kanapę

Teraz wiesz, jak poprawnie skonfigurować i zmienić plik robots.txt dla Yandex i ogólnie każdej innej wyszukiwarki, aby odpowiadała Twoim potrzebom.

Co daje dostosowywanie plików?

Mówiłem już o tym wcześniej, ale powtórzę. Dzięki przejrzyście skonfigurowanemu plikowi z poleceniami dla robotów możesz spać spokojnie wiedząc, że robot nie wpełzi do niepotrzebnej sekcji i nie zabierze niepotrzebnych stron do indeksu.

Powiedziałem też, że skonfigurowanie pliku robots.txt nie rozwiązuje wszystkiego. W szczególności nie chroni to przed duplikatami, które powstają w wyniku niedoskonałości silników. Podobnie jak ludzie. Pozwoliłeś Vasyi chodzić do piłki nożnej, ale nie jest faktem, że nie zrobi tam tego samego, co Dima. Podobnie jest z duplikatami: możesz wydać polecenie, ale na pewno nie masz pewności, że do indeksu nie wkradnie się coś ekstra, rujnując pozycje.

Nie ma też potrzeby bać się dubletów jak ognia. Na przykład Yandex mniej więcej normalnie traktuje witryny, które mają poważne problemy techniczne. Inną rzeczą jest to, że jeśli założysz firmę, naprawdę możesz stracić poważny procent ruchu dla siebie. Jednak już niedługo w naszym dziale poświęconym SEO pojawi się artykuł o duplikatach, wtedy będziemy z nimi walczyć.

Jak mogę uzyskać normalny plik robots.txt, jeśli sam nic nie rozumiem?

W końcu utworzenie pliku robots.txt nie jest równoznaczne z utworzeniem strony internetowej. Jest to w jakiś sposób prostsze, więc możesz po prostu skopiować zawartość pliku od dowolnego mniej lub bardziej udanego blogera. Oczywiście, jeśli masz witrynę WordPress. Jeśli jest na innym silniku, musisz wyszukać witryny korzystające z tego samego cms. Mówiłem już, jak wyświetlić zawartość pliku na cudzej stronie: Domain.com/robots.txt

Konkluzja

Nie sądzę, że mam tu wiele więcej do powiedzenia, ponieważ pisanie instrukcji dla robotów nie powinno być Twoim celem na ten rok. Jest to zadanie, które nawet początkujący może wykonać w 30–60 minut, a profesjonalista zazwyczaj w ciągu zaledwie kilku minut. Odniesiesz sukces i nie możesz mieć co do tego żadnych wątpliwości.

Aby poznać inne przydatne i ważne wskazówki dotyczące promowania i promowania bloga, możesz zajrzeć do naszego wyjątkowego. Jeśli zastosujesz 50-100% stamtąd rekomendacji, będziesz mógł skutecznie promować dowolne witryny w przyszłości.