როგორ დაარედაქტიროთ robots txt ფაილი. Yandex რობოტები როგორ შევქმნათ robots txt ფაილი სწორად

საძიებო სისტემებისთვის საიტის ოპტიმიზაციის ერთ-ერთი ეტაპია robots.txt ფაილის შედგენა. ამ ფაილის გამოყენებით შეგიძლიათ თავიდან აიცილოთ ზოგიერთი ან ყველა საძიებო რობოტი თქვენი საიტის ან მისი გარკვეული ნაწილების ინდექსირებაში, რომლებიც არ არის განკუთვნილი ინდექსირებისთვის. კერძოდ, შეგიძლიათ თავიდან აიცილოთ დუბლიკატი შინაარსის ინდექსირება, როგორიცაა გვერდების დასაბეჭდი ვერსიები.

ინდექსირების დაწყებამდე, საძიებო რობოტები ყოველთვის მიმართავენ robots.txt ფაილს თქვენი საიტის root დირექტორიაში, მაგალითად, http://site.ru/robots.txt, რათა იცოდეთ საიტის რომელ მონაკვეთებზეა აკრძალული რობოტი. ინდექსირებისგან. მაგრამ მაშინაც კი, თუ არაფრის აკრძალვას არ აპირებთ, მაინც რეკომენდებულია ამ ფაილის შექმნა.

როგორც robots.txt გაფართოებიდან ხედავთ, ეს არის ტექსტური ფაილი. ამ ფაილის შესაქმნელად ან რედაქტირებისთვის უმჯობესია გამოიყენოთ უმარტივესი ტექსტური რედაქტორები, როგორიცაა Notepad. robots.txt უნდა განთავსდეს საიტის root დირექტორიაში და აქვს საკუთარი ფორმატი, რომელსაც ქვემოთ განვიხილავთ.

Robots.txt ფაილის ფორმატი

robots.txt ფაილი უნდა შეიცავდეს მინიმუმ ორ საჭირო ჩანაწერს. პირველი არის მომხმარებლის აგენტის დირექტივა, რომელიც მიუთითებს, თუ რომელი საძიებო რობოტი უნდა მიჰყვეს შემდგომ მითითებებს. მნიშვნელობა შეიძლება იყოს რობოტის სახელი (googlebot, Yandex, StackRambler) ან * სიმბოლო, თუ ერთდროულად შედიხართ ყველა რობოტზე. Მაგალითად:

მომხმარებლის აგენტი: googlebot

რობოტის სახელი შეგიძლიათ იპოვოთ შესაბამისი საძიებო სისტემის ვებსაიტზე. შემდეგი უნდა იყოს ერთი ან მეტი აკრძალვის დირექტივა. ეს დირექტივები ეუბნება რობოტს, რომელი ფაილების და საქაღალდეების ინდექსირება არ არის ნებადართული. მაგალითად, შემდეგი ხაზები ხელს უშლის რობოტებს feedback.php ფაილის და cgi-bin დირექტორიას ინდექსირებაში:

აკრძალვა: /feedback.php აკრძალვა: /cgi-bin/

თქვენ ასევე შეგიძლიათ გამოიყენოთ ფაილების ან საქაღალდეების მხოლოდ საწყისი სიმბოლოები. ხაზი Disallow: /forum კრძალავს ყველა ფაილის და საქაღალდის ინდექსირებას საიტის ძირში, რომლის სახელი იწყება ფორუმით, მაგალითად, ფაილი http://site.ru/forum.php და საქაღალდე http://site. ru/forum/ მთელი თავისი შინაარსით. თუ Disallow ცარიელია, ეს ნიშნავს, რომ რობოტს შეუძლია ყველა გვერდის ინდექსირება. თუ Disallow მნიშვნელობა არის / სიმბოლო, ეს ნიშნავს, რომ მთელი საიტის ინდექსირება აკრძალულია.

თითოეული მომხმარებლის აგენტის ველისთვის უნდა იყოს მინიმუმ ერთი აკრძალვის ველი. ანუ, თუ არ აპირებთ რაიმეს აკრძალვას ინდექსაციისთვის, მაშინ robots.txt ფაილი უნდა შეიცავდეს შემდეგ ჩანაწერებს:

მომხმარებლის აგენტი: * აკრძალვა:

დამატებითი დირექტივები

რეგულარული გამონათქვამების გარდა, Yandex და Google ნებას რთავს Allow დირექტივის გამოყენებას, რაც საპირისპიროა Disallow-ის, ანუ მიუთითებს რომელი გვერდების ინდექსირება შეიძლება. შემდეგ მაგალითში, Yandex-ს ეკრძალება ყველაფრის ინდექსირება, გარდა /სტატიებით დაწყებული გვერდის მისამართებისა:

მომხმარებლის აგენტი: Yandex Allow: /articles Disallow: /

ამ მაგალითში, Allow დირექტივა უნდა დაიწეროს Disallow-მდე, წინააღმდეგ შემთხვევაში Yandex მიხვდება, როგორც საიტის ინდექსირების სრულ აკრძალვას. ცარიელი დაშვების დირექტივა ასევე მთლიანად გამორთავს საიტის ინდექსირებას:

მომხმარებლის აგენტი: Yandex Allow:

ექვივალენტი

მომხმარებლის აგენტი: Yandex Disallow: /

არასტანდარტული დირექტივები უნდა იყოს მითითებული მხოლოდ იმ საძიებო სისტემებისთვის, რომლებიც მხარს უჭერენ მათ. წინააღმდეგ შემთხვევაში, რობოტს, რომელსაც არ ესმის ეს ჩანაწერი, შეიძლება არასწორად დაამუშაოს ის ან მთელი robots.txt ფაილი. დამატებითი დირექტივების შესახებ და, ზოგადად, ცალკეული რობოტის მიერ robots.txt ფაილში ბრძანებების გაგების შესახებ შეგიძლიათ იხილოთ შესაბამისი საძიებო სისტემის ვებსაიტზე.

რეგულარული გამონათქვამები robots.txt-ში

საძიებო სისტემების უმეტესობა ითვალისწინებს მხოლოდ ცალსახად მითითებულ ფაილებისა და საქაღალდეების სახელებს, მაგრამ ასევე არსებობს უფრო მოწინავე საძიებო სისტემები. Google Robot და Yandex Robot მხარს უჭერენ მარტივი რეგულარული გამონათქვამების გამოყენებას robots.txt-ში, რაც მნიშვნელოვნად ამცირებს ვებმასტერების სამუშაოს მოცულობას. მაგალითად, შემდეგი ბრძანებები ხელს უშლის Googlebot-ს ყველა ფაილის ინდექსირებას .pdf გაფართოებით:

მომხმარებლის აგენტი: googlebot არ დაუშვას: *.pdf$

ზემოთ მოცემულ მაგალითში * არის სიმბოლოების ნებისმიერი თანმიმდევრობა და $ მიუთითებს ბმულის დასასრულს.

მომხმარებლის აგენტი: Yandex Allow: /articles/*.html$ არ დაუშვას: /

ზემოაღნიშნული დირექტივები საშუალებას აძლევს Yandex-ს განახორციელოს მხოლოდ ფაილების ინდექსირება გაფართოებით ".html", რომელიც მდებარეობს /articles/ საქაღალდეში. ყველაფერი დანარჩენი აკრძალულია ინდექსაციისთვის.

საიტის რუკა

თქვენ შეგიძლიათ მიუთითოთ XML საიტის რუქის მდებარეობა robots.txt ფაილში:

მომხმარებლის აგენტი: googlebot არ დაუშვას: საიტის რუკა: http://site.ru/sitemap.xml

თუ თქვენს საიტზე გაქვთ გვერდების ძალიან დიდი რაოდენობა და მოგიწიათ საიტის რუქის ნაწილებად დაყოფა, მაშინ robots.txt ფაილში უნდა მიუთითოთ რუკის ყველა ნაწილი:

მომხმარებლის აგენტი: Yandex Disallow: საიტის რუკა: http://mysite.ru/my_sitemaps1.xml საიტის რუკა: http://mysite.ru/my_sitemaps2.xml

საიტის სარკეები

მოგეხსენებათ, როგორც წესი, ერთი და იგივე საიტის წვდომა შესაძლებელია ორ მისამართზე: www-ითაც და მის გარეშეც. საძიებო რობოტისთვის site.ru და www.site.ru სხვადასხვა საიტებია, მაგრამ ერთი და იგივე შინაარსით. მათ სარკეებს უწოდებენ.

გამომდინარე იქიდან, რომ არსებობს ბმულები საიტის გვერდებზე, როგორც www, ასევე მის გარეშე, გვერდების წონა შეიძლება დაიყოს www.site.ru-სა და site.ru-ს შორის. ამის თავიდან ასაცილებლად საძიებო სისტემამ უნდა მიუთითოს საიტის მთავარი სარკე. „წებოვნების“ შედეგად მთელი წონა ერთ მთავარ სარკეს მიეკუთვნება და საიტს შეეძლება უფრო მაღალი პოზიციის დაკავება ძიების შედეგებში.

შეგიძლიათ მიუთითოთ Yandex-ის მთავარი სარკე პირდაპირ robots.txt ფაილში Host დირექტივის გამოყენებით:

მომხმარებლის აგენტი: Yandex Disallow: /feedback.php არ დაუშვას: /cgi-bin/ მასპინძელი: www.site.ru

წებოვნების შემდეგ სარკე www.site.ru-ს დაეუფლება მთელ წონას და ის უფრო მაღალ პოზიციას დაიკავებს ძიების შედეგებში. და საძიებო სისტემა საერთოდ არ ინდექსებს site.ru-ს.

სხვა საძიებო სისტემებისთვის მთავარი სარკის არჩევანი არის სერვერის მხრიდან მუდმივი გადამისამართება (კოდი 301) დამატებითი სარკეებიდან მთავარზე. ეს კეთდება .htaccess ფაილის და mod_rewrite მოდულის გამოყენებით. ამისათვის ჩადეთ .htaccess ფაილი საიტის ძირში და ჩაწერეთ იქ შემდეგი:

RewriteEngine On Options +FollowSymlinks RewriteBase / RewriteCond %(HTTP_HOST) ^site.ru$ RewriteRule ^(.*)$ http://www.site.ru/$1

შედეგად, site.ru–დან ყველა მოთხოვნა გადავა www.site.ru–ზე, ანუ site.ru/page1.php გადამისამართდება www.site.ru/page1.php–ზე.

გადამისამართების მეთოდი იმუშავებს ყველა საძიებო სისტემისთვის და ბრაუზერისთვის, მაგრამ მაინც რეკომენდებულია Host-ის დირექტივის დამატება robots.txt ფაილში Yandex-ისთვის.

კომენტარები robots.txt-ში

თქვენ ასევე შეგიძლიათ დაამატოთ კომენტარები robots.txt ფაილზე - ისინი იწყება # სიმბოლოთი და მთავრდება ახალი ხაზით. მიზანშეწონილია კომენტარების დაწერა ცალკეულ ხაზზე, ან ჯობია საერთოდ არ გამოიყენოთ.

კომენტარების გამოყენების მაგალითი:

მომხმარებელთა აგენტი: StackRambler არ დაუშვას: /garbage/ # ამ საქაღალდეში სასარგებლო არაფერია დაუშვა: /doc.xhtml # და ამ გვერდზეც # და ამ ფაილის ყველა კომენტარი ასევე უსარგებლოა

robots.txt ფაილების მაგალითები

1. ნება მიეცით ყველა რობოტს საიტის ყველა დოკუმენტის ინდექსირება:

მომხმარებლის აგენტი: * აკრძალვა:
მომხმარებლის აგენტი: * აკრძალვა: /

3. ჩვენ ვუკრძალავთ Google-ის საძიებო რობოტს feedback.php ფაილის და cgi-bin დირექტორიას შიგთავსის ინდექსირებას:

მომხმარებლის აგენტი: googlebot არ დაუშვას: /cgi-bin/ არ დაუშვას: /feedback.php

4. ჩვენ ყველა რობოტს ვაძლევთ უფლებას მოახდინოს მთელი საიტის ინდექსირება და Yandex-ის საძიებო სისტემის რობოტს ვუკრძალავთ feedback.php ფაილის და cgi-bin დირექტორიას შიგთავსის ინდექსირებას:

მომხმარებლის აგენტი: Yandex Disallow: /cgi-bin/ Disallow: /feedback.php მასპინძელი: www.site.ru მომხმარებლის აგენტი: * დაუშვებელია:

5. ჩვენ ყველა რობოტს ვაძლევთ უფლებას მოახდინოს მთელი საიტის ინდექსირება, ხოლო Yandex რობოტს ვაძლევთ უფლებას განათავსოს საიტის მხოლოდ მისთვის განკუთვნილი ნაწილი:

მომხმარებლის აგენტი: Yandex Allow: /yandex Disallow: / Host: www.site.ru მომხმარებლის აგენტი: * დაუშვებელია:

ცარიელი ხაზები გამოყოფს შეზღუდვებს სხვადასხვა რობოტებისთვის. შეზღუდვების თითოეული ბლოკი უნდა დაიწყოს მომხმარებელთა აგენტის ველით ხაზით, რომელიც მიუთითებს რობოტზე, რომელზეც ვრცელდება საიტის ინდექსირების ეს წესები.

საერთო შეცდომები

მნიშვნელოვანია გავითვალისწინოთ, რომ robots.txt ფაილში ცარიელი ხაზი არის გამყოფი ორ ჩანაწერს შორის სხვადასხვა რობოტისთვის. თქვენ ასევე არ შეგიძლიათ რამდენიმე დირექტივის მითითება ერთ ხაზზე. როდესაც ხელს უშლიან ფაილის ინდექსირებას, ვებმასტერები ხშირად გამოტოვებენ / ფაილის სახელის წინ.

არ არის საჭირო robots.txt-ში მიუთითოთ აკრძალვა საიტის ინდექსირებაზე სხვადასხვა პროგრამებისთვის, რომლებიც შექმნილია საიტის სრულად ჩამოტვირთვისთვის, მაგალითად, TeleportPro. არც პროგრამების ჩამოტვირთვა და არც ბრაუზერები არასოდეს უყურებენ ამ ფაილს და არ ასრულებენ იქ დაწერილ ინსტრუქციებს. ის განკუთვნილია ექსკლუზიურად საძიებო სისტემებისთვის. ასევე არ უნდა დაბლოკოთ თქვენი საიტის ადმინისტრაციული პანელი robots.txt-ში, რადგან თუ არსად არ არის მისი ბმული, მაშინ ის არ იქნება ინდექსირებული. თქვენ უბრალოდ გაუმჟღავნებთ ადმინისტრატორის ზონის მდებარეობას იმ ადამიანებს, რომლებმაც არ უნდა იცოდნენ ამის შესახებ. ასევე უნდა გვახსოვდეს, რომ robots.txt, რომელიც ძალიან დიდია, შესაძლოა საძიებო სისტემამ უგულებელყოს. თუ თქვენ გაქვთ ძალიან ბევრი გვერდი, რომელიც არ არის განკუთვნილი ინდექსაციისთვის, მაშინ უმჯობესია უბრალოდ წაშალოთ ისინი საიტიდან ან გადაიტანოთ ცალკე დირექტორიაში და თავიდან აიცილოთ ამ დირექტორიაში ინდექსირება.

robots.txt ფაილის შემოწმება შეცდომებზე

დარწმუნდით, რომ შეამოწმეთ, როგორ ესმით საძიებო სისტემებში თქვენი რობოტების ფაილი. Google-ის შესამოწმებლად შეგიძლიათ გამოიყენოთ Google Webmaster Tools. თუ გსურთ გაიგოთ, თუ როგორ ესმის თქვენი robots.txt ფაილი Yandex-ს, შეგიძლიათ გამოიყენოთ Yandex.Webmaster სერვისი. ეს საშუალებას მოგცემთ დროულად გამოასწოროთ ნებისმიერი შეცდომა. ასევე ამ სერვისების გვერდებზე შეგიძლიათ იპოვოთ რეკომენდაციები robots.txt ფაილის შესაქმნელად და ბევრი სხვა სასარგებლო ინფორმაცია.

სტატიის კოპირება აკრძალულია.

ჩვენ გამოვაქვეყნეთ ახალი წიგნი სოციალური მედიის კონტენტ მარკეტინგი: როგორ შევიდეთ თქვენი მიმდევრების თავებში და შეაყვაროთ ისინი თქვენი ბრენდი.

Robots.txt არის ტექსტური ფაილი, რომელიც შეიცავს ინფორმაციას საძიებო რობოტებისთვის, რომლებიც ეხმარება პორტალის გვერდების ინდექსირებას.

მეტი ვიდეო ჩვენს არხზე - ისწავლეთ ინტერნეტ მარკეტინგი SEMANTICA-სთან ერთად

წარმოიდგინეთ, რომ თქვენ წახვედით კუნძულზე საგანძურის საპოვნელად. რუკა გაქვს. მარშრუტი იქ არის მითითებული: „მიუახლოვდით დიდ ღეროს. იქიდან გადადგით 10 ნაბიჯი აღმოსავლეთით, შემდეგ მიაღწიეთ კლდეს. მოუხვიე მარჯვნივ, იპოვე გამოქვაბული“.

ეს არის მიმართულებები. მათ მიჰყვებით, თქვენ მიჰყვებით მარშრუტს და პოულობთ საგანძურს. საძიებო ბოტი დაახლოებით იგივენაირად მუშაობს, როდესაც ის იწყებს საიტის ან გვერდის ინდექსირებას. ის პოულობს robots.txt ფაილს. ის კითხულობს რომელი გვერდების ინდექსირებას საჭიროებს და რომელი არა. და ამ ბრძანებების შემდეგ, ის დაცოცავს პორტალს და ამატებს მის გვერდებს ინდექსში.

რისთვის არის robots.txt?

ისინი იწყებენ საიტების მონახულებას და გვერდების ინდექსირებას მას შემდეგ, რაც საიტი აიტვირთება ჰოსტინგში და დარეგისტრირდება DNS. ისინი აკეთებენ თავიანთ საქმეს, გაქვთ თუ არა რაიმე ტექნიკური ფაილი. რობოტები ეუბნებიან საძიებო სისტემებს, რომ ვებსაიტის დათვალიერებისას მათ უნდა გაითვალისწინონ ის პარამეტრები, რომლებიც მას შეიცავს.

robots.txt ფაილის არარსებობამ შეიძლება გამოიწვიოს პრობლემები საიტის crawl სიჩქარესთან და ინდექსში ნაგვის არსებობასთან დაკავშირებით. ფაილის არასწორმა კონფიგურაციამ შეიძლება გამოიწვიოს რესურსის მნიშვნელოვანი ნაწილების გამორიცხვა ინდექსიდან და გამომავალში არასაჭირო გვერდების არსებობა.

ყოველივე ეს, შედეგად, იწვევს დაწინაურების პრობლემებს.

მოდით უფრო დეტალურად განვიხილოთ, თუ რა ინსტრუქციებს შეიცავს ეს ფაილი და როგორ მოქმედებს ისინი თქვენს საიტზე ბოტის ქცევაზე.

როგორ შევქმნათ robots.txt

პირველ რიგში, შეამოწმეთ, გაქვთ თუ არა ეს ფაილი.

შეიყვანეთ საიტის მისამართი ბრაუზერის მისამართის ზოლში, რასაც მოჰყვება ფაილის სახელის ხაზი, მაგალითად, https://www.xxxxx.ru/robots.txt

თუ ფაილი არსებობს, ეკრანზე გამოჩნდება მისი პარამეტრების სია.

თუ ფაილი არ არის:

ფაილი იქმნება ჩვეულებრივ ტექსტურ რედაქტორში, როგორიცაა Notepad ან Notepad++.
თქვენ უნდა დააყენოთ რობოტების სახელი, გაფართოება .txt. შეიყვანეთ მონაცემები მიღებული დიზაინის სტანდარტების გათვალისწინებით.
თქვენ შეგიძლიათ შეამოწმოთ შეცდომები ისეთი სერვისების გამოყენებით, როგორიცაა Yandex Webmaster. იქ თქვენ უნდა აირჩიოთ "Robots.txt ანალიზი" პუნქტი "ინსტრუმენტები" განყოფილებაში და მიჰყევით მოთხოვნებს.
როდესაც ფაილი მზად იქნება, ატვირთეთ იგი საიტის root დირექტორიაში.

წესების დაყენება

საძიებო სისტემებს აქვთ ერთზე მეტი რობოტი. ზოგიერთი ბოტი მხოლოდ ტექსტის შინაარსის ინდექსირებას ახდენს, ზოგი კი მხოლოდ გრაფიკულ შინაარსს. და თვით საძიებო სისტემებს შორისაც კი, მცოცავი მექანიზმების მუშაობა შეიძლება განსხვავებული იყოს. ეს უნდა იყოს გათვალისწინებული ფაილის შედგენისას.

ზოგიერთმა მათგანმა შეიძლება იგნორირება გაუწიოს ზოგიერთ წესს, მაგალითად, GoogleBot არ პასუხობს ინფორმაციას იმის შესახებ, თუ რომელი საიტის სარკე ითვლება მთავარ. მაგრამ ზოგადად, ისინი აღიქვამენ და ხელმძღვანელობენ ფაილს.

ფაილის სინტაქსი

დოკუმენტის პარამეტრები: რობოტის (ბოტის) სახელი „მომხმარებლის აგენტი“, დირექტივები: „ნებადართულის“ დაშვება და „აკრძალვის“ აკრძალვა.

ახლა ორი ძირითადი საძიებო სისტემაა: Yandex და Google, შესაბამისად, მნიშვნელოვანია ორივეს მოთხოვნების გათვალისწინება ვებსაიტის შექმნისას.

ჩანაწერების შექმნის ფორმატი შემდეგია, გთხოვთ, გაითვალისწინოთ საჭირო სივრცეები და ცარიელი ხაზები.

მომხმარებლის აგენტის დირექტივა

რობოტი ეძებს ჩანაწერებს, რომლებიც იწყება User-agent-ით; ის უნდა შეიცავდეს საძიებო რობოტის სახელს. თუ ეს არ არის მითითებული, ბოტზე წვდომა ითვლება შეუზღუდავად.

დირექტივების აკრძალვა და დაშვება

თუ გჭირდებათ ინდექსირების გამორთვა robots.txt-ში, გამოიყენეთ Disallow. მისი დახმარებით, ბოტის წვდომა საიტზე ან გარკვეულ განყოფილებებზე შეზღუდულია.

თუ robots.txt არ შეიცავს რაიმე ამკრძალავ "დაუშვებ" დირექტივებს, ითვლება, რომ დაშვებულია მთელი საიტის ინდექსირება. როგორც წესი, აკრძალვები ინიშნება თითოეული ბოტის შემდეგ ცალკე.

ყველა ინფორმაცია, რომელიც გამოჩნდება # ნიშნის შემდეგ, არის კომენტარი და არ იკითხება მანქანით.

Allow გამოიყენება წვდომის დასაშვებად.

ვარსკვლავის სიმბოლო ემსახურება იმის მითითებას, თუ რა ეხება ყველას: მომხმარებლის აგენტი: *.

ეს ვარიანტი, პირიქით, ნიშნავს ინდექსირების სრულ აკრძალვას ყველასთვის.

აკრძალეთ კონკრეტული დირექტორია საქაღალდის მთლიანი შინაარსის ნახვა

ერთი ფაილის დასაბლოკად თქვენ უნდა მიუთითოთ მისი აბსოლუტური გზა

საიტის რუკა, მასპინძლის დირექტივები

Yandex-ისთვის ჩვეულებრივია მიუთითოთ რომელი სარკე გსურთ დანიშნოთ მთავარად. და Google, როგორც გვახსოვს, უგულებელყოფს მას. თუ სარკეები არ არის, უბრალოდ გაითვალისწინეთ, სწორად მიგაჩნიათ თუ არა თქვენი ვებსაიტის სახელის დაწერა www-ით თუ მის გარეშე.

სუფთა პარამის დირექტივა

მისი გამოყენება შესაძლებელია, თუ ვებსაიტის გვერდების URL-ები შეიცავს ცვალებადი პარამეტრებს, რომლებიც გავლენას არ ახდენენ მათ შინაარსზე (ეს შეიძლება იყოს მომხმარებლის ID, რეფერენტები).

მაგალითად, გვერდის მისამართში „ref“ განსაზღვრავს ტრაფიკის წყაროს, ე.ი. მიუთითებს საიდან მოვიდა ვიზიტორი საიტზე. გვერდი ყველა მომხმარებლისთვის ერთნაირი იქნება.

შეგიძლიათ ეს მიუთითოთ რობოტს და ის არ ჩამოტვირთავს დუბლიკატ ინფორმაციას. ეს შეამცირებს სერვერის დატვირთვას.

სეირნობის დაყოვნების დირექტივა

ამის გამოყენებით შეგიძლიათ განსაზღვროთ, რამდენად ხშირად იტვირთება ბოტი გვერდებს ანალიზისთვის. ეს ბრძანება გამოიყენება სერვერის გადატვირთვისას და მიუთითებს, რომ crawl პროცესი უნდა დაჩქარდეს.

Robots.txt შეცდომები

ფაილი არ არის root დირექტორიაში. რობოტი არ დაეძებს მას უფრო ღრმად და არ გაითვალისწინებს.
სახელში ასოები უნდა იყოს პატარა ლათინური.
სახელში შეცდომაა, ხანდახან ბოლოში ასო ს გამოტოვებენ და რობოტს წერენ.
თქვენ არ შეგიძლიათ გამოიყენოთ კირილიცას სიმბოლოები robots.txt ფაილში. თუ დომენის მითითება გჭირდებათ რუსულ ენაზე, გამოიყენეთ ფორმატი სპეციალური Punycode კოდირებით.
ეს არის დომენური სახელების ASCII სიმბოლოების თანმიმდევრობით გადაქცევის მეთოდი. ამისათვის შეგიძლიათ გამოიყენოთ სპეციალური გადამყვანები.

ეს კოდირება ასე გამოიყურება:
საიტი.rf = xn--80aswg.xn--p1ai

დამატებითი ინფორმაცია იმის შესახებ, თუ რა უნდა დაიხუროს რობოტებში txt და პარამეტრები Google-ისა და Yandex საძიებო სისტემების მოთხოვნების შესაბამისად, შეგიძლიათ იხილოთ დახმარების დოკუმენტებში. სხვადასხვა სმს შეიძლება ჰქონდეს საკუთარი მახასიათებლები, ეს გასათვალისწინებელია.

robots.txt ფაილის სწორად დაყენება აღმოფხვრის შესაძლო პრობლემებს, რომლებიც წარმოიქმნება ინდექსირების დროს.

კერძოდ, საიტის მფლობელს აქვს შესაძლებლობა შეზღუდოს სერვისისა და რესურსის პირადი განყოფილებების ინდექსირება. ამ პუბლიკაციაში ვისაუბრებთ იმაზე, თუ როგორ შევქმნათ ფაილი და დააკონფიგურიროთ იგი სხვადასხვა საძიებო სისტემებისთვის, ასევე პოპულარული CMS-ებისთვის.

რისთვის არის robots.txt ფაილი?

როგორც მიხვდით, ეს ფაილი შეიცავს ინსტრუქციებს, რომლებიც განკუთვნილია საძიებო ბოტებისთვის. ის უნდა განთავსდეს root დირექტორიაში, ასე რომ ბოტები დაიწყებენ გვერდის ინდექსირებას robots.txt-ში მითითებული პირობების წაკითხვით.

ამრიგად, ფაილი მიუთითებს რობოტების მოსაძებნად, საიტის რომელი დირექტორიებია დაშვებული ინდექსირებაზე და რომლებიც არ ექვემდებარება ამ პროცესს.

იმის გათვალისწინებით, რომ ფაილის არსებობა არ ახდენს გავლენას რეიტინგის პროცესზე, ბევრი საიტი არ შეიცავს robots.txt-ს. მაგრამ ეს არ არის მთლად სწორი გზა. მოდით შევხედოთ რა უპირატესობას ანიჭებს robots.txt რესურსს.

თქვენ შეგიძლიათ აკრძალოთ რესურსის ინდექსირება მთლიანად ან ნაწილობრივ და შეზღუდოთ საძიებო რობოტების დიაპაზონი, რომლებსაც ექნებათ ინდექსირების უფლება. თქვენ შეგიძლიათ მთლიანად დაიცვათ რესურსი ამ პროცესისგან (მაგალითად, ვებსაიტის შექმნის ან რეკონსტრუქციისას).

გარდა ამისა, რობოტების ფაილი ზღუდავს რესურსზე წვდომას ყველა სახის სპამის რობოტის მიერ, რომლის მიზანია საიტის სკანირება ელექტრონული ფოსტის მისამართებისთვის, რომლებიც შემდეგ გამოყენებული იქნება სპამის გასაგზავნად. მოდი არ ვიფიქროთ იმაზე, თუ რა შეიძლება გამოიწვიოს ამან - და ეს გასაგებია.

თქვენ შეგიძლიათ დაიმალოთ საიტის ინდექსაციის სექციები, რომლებიც განკუთვნილია არა საძიებო სისტემებისთვის, არამედ მომხმარებელთა გარკვეული წრისთვის, პირადი და სხვა მსგავსი ინფორმაციის შემცველი სექციები.

როგორ შევქმნათ სწორი robots.txt

სწორი რობოტები ადვილად დაიწერება ხელით, სხვადასხვა კონსტრუქტორების დახმარების გარეშე. პროცესი მიდის საჭირო დირექტივების ჩაწერაზე ჩვეულებრივ ნოუთბუქის ფაილში, რომელიც შემდეგ უნდა შეინახოთ სახელწოდებით „რობოტები“ და ატვირთოთ თქვენი საკუთარი რესურსის ძირეულ დირექტორიაში. ერთი ასეთი ფაილი საჭიროა ერთი საიტისთვის. ის შეიძლება შეიცავდეს ინსტრუქციებს ყველა საჭირო საძიებო სისტემის საძიებო ბოტებისთვის. ანუ, არ არის საჭირო თითოეული საძიებო სისტემისთვის ცალკე ფაილის შექმნა.

რა უნდა ჩაიწეროს ფაილში? სავალდებულოა ორი დირექტივის გამოყენება: User-agent და Disallow. პირველი განსაზღვრავს რომელ ბოტს მიემართება ეს შეტყობინება, მეორე გვიჩვენებს, რომელ გვერდს ან რესურს დირექტორიას აკრძალულია ინდექსირება.

ყველა ბოტის ერთნაირი წესების დასაყენებლად, მომხმარებლის აგენტის დირექტივაში სახელის ნაცვლად შეგიძლიათ გამოიყენოთ ვარსკვლავის სიმბოლო.
robots.txt ფაილი ამ შემთხვევაში ასე გამოიყურება:

სხვათა შორის, Google-ის დეველოპერებმა არაერთხელ შეახსენეს ვებმასტერებს, რომ robots.txt ფაილი არ უნდა აღემატებოდეს 500 კბ-ს. ეს, რა თქმა უნდა, გამოიწვევს შეცდომებს ინდექსირების დროს. თუ თქვენ შექმნით ფაილს ხელით, მაშინ ასეთი ზომის "მიღწევა", რა თქმა უნდა, არარეალურია. მაგრამ ზოგიერთ CMS-ს, რომელიც ავტომატურად აგენერირებს robots.txt კონტენტს, შეუძლია ის მნიშვნელოვნად გაამძიმოს.

მარტივად შექმენით ფაილი ნებისმიერი საძიებო სისტემისთვის

თუ ფაილის წერისას შეცდომების დაშვების გეშინიათ (ან უბრალოდ ძალიან ეზარებათ ამის გაკეთება), შეგიძლიათ დაავალოთ საჭირო დირექტივების შექმნა კონსტრუქტორს. ეს ისეთივე მარტივია, როგორც ორჯერ ორი, მაგრამ ჩვენ მაინც მივცემთ მოკლე ახსნას, თუ როგორ ვიმუშაოთ მასთან.

პირველი ველი შეიცავს რესურსის მისამართს. მხოლოდ ამის შემდეგ ექნება მომხმარებელს შესაძლებლობა აირჩიოს საძიებო სისტემა, რომლისთვისაც ეს წესებია დაწესებული (შეგიძლიათ რამდენიმე საძიებო სისტემა ზედიზედ აირჩიოთ). შემდეგი, თქვენ უნდა მიუთითოთ საქაღალდეები და ფაილები, რომლებზეც წვდომა აიკრძალება, მიუთითოთ საიტის სარკის მისამართი და მიუთითოთ რესურსის რუკის მდებარეობა.

ველების შევსებისას საჭირო დირექტორიები შეიყვანება ქვედა ველში. საბოლოო ჯამში ყველაფერი რაც თქვენ გჭირდებათ არის დააკოპიროთ ისინი txt ფაილში და დაასახელოთ რობოტები.

როგორ შეამოწმოთ თქვენი robots.txt ფაილის ეფექტურობა

Yandex-ში ფაილის მოქმედების გასაანალიზებლად, უნდა გადახვიდეთ შესაბამის გვერდზე Yandex.Webmaster განყოფილებაში. დიალოგურ ფანჯარაში მიუთითეთ საიტის სახელი და დააჭირეთ ღილაკს "ჩამოტვირთვა".

სისტემა გააანალიზებს robots.txt ფაილს და მიუთითებს თუ არა საძიებო რობოტი დაცოცავს თუ არა ინდექსირებას აკრძალულ გვერდებს. თუ პრობლემები წარმოიქმნება, დირექტივების რედაქტირება და ტესტირება შესაძლებელია პირდაპირ დიალოგურ ფანჯარაში, შემდეგ კოპირება და ჩასმა თქვენს robots.txt ფაილში root დირექტორიაში.

ანალოგიურ სერვისს უზრუნველყოფს Webmaster Tools სერვისი Google საძიებო სისტემიდან.

robots.txt-ის შექმნა WordPress-ისთვის, Joomla-სთვის და Ucoz-ისთვის

სხვადასხვა CMS, რომლებმაც ფართო პოპულარობა მოიპოვეს ჩვენს ღია სივრცეებში, მომხმარებლებს სთავაზობს robots.txt ფაილების საკუთარ ვერსიებს (ან საერთოდ არ აქვთ). ხშირად ეს ფაილები ან ზედმეტად უნივერსალურია და არ ითვალისწინებენ მომხმარებლის რესურსის მახასიათებლებს, ან აქვთ მთელი რიგი მნიშვნელოვანი ნაკლოვანებები.

შეგიძლიათ სცადოთ მათში ცვლილებების ხელით შეტანა (რაც არც თუ ისე ეფექტურია, თუ ცოდნის ნაკლებობა გაქვთ), ან შეგიძლიათ გამოიყენოთ უფრო პროფესიონალი კოლეგების გამოცდილება. როგორც ამბობენ, ჩვენამდე ყველაფერი უკვე გაკეთებულია. მაგალითად, robots.txt WordPress-ისთვის შეიძლება ასე გამოიყურებოდეს:

ხაზი www.site.ru, რა თქმა უნდა, უნდა შეიცვალოს მომხმარებლის ვებსაიტის მისამართით.

თითოეულ ბლოგს აქვს საკუთარი პასუხი ამაზე. ამიტომ, საძიებო სისტემის პოპულარიზაციაში ახალბედები ხშირად იბნევიან, მაგალითად:

როგორი რობოტებია?

ფაილი robots.txtან ინდექსის ფაილი- ჩვეულებრივი ტექსტური დოკუმენტი UTF-8 კოდირებით, მოქმედებს http, https და FTP პროტოკოლებისთვის. ფაილი აძლევს საძიებო რობოტებს რეკომენდაციებს: რომელი გვერდები/ფაილები უნდა იძიოს.თუ ფაილი შეიცავს სიმბოლოებს UTF-8-ის გარდა კოდირებით, საძიებო რობოტებმა შეიძლება არასწორად დაამუშავონ ისინი. robots.txt ფაილში ჩამოთვლილი წესები მოქმედებს მხოლოდ ჰოსტის, პროტოკოლისა და პორტის ნომრისთვის, სადაც ფაილი მდებარეობს.

ფაილი უნდა განთავსდეს root დირექტორიაში, როგორც ჩვეულებრივი ტექსტური დოკუმენტი და ხელმისაწვდომი იყოს: https://site.com.ua/robots.txt.

სხვა ფაილებში ჩვეულებრივია მონიშნოთ BOM (Byte Order Mark). ეს არის უნიკოდის სიმბოლო, რომელიც გამოიყენება ინფორმაციის წაკითხვისას ბაიტების თანმიმდევრობის დასადგენად. მისი კოდის სიმბოლოა U+FEFF. robots.txt ფაილის დასაწყისში ბაიტის თანმიმდევრობის ნიშანი იგნორირებულია.

Google-მა დააწესა ზომის ლიმიტი robots.txt ფაილისთვის - ის არ უნდა იწონიდეს 500 კბ-ზე მეტს.

კარგი, თუ გაინტერესებთ წმინდა ტექნიკური დეტალები, robots.txt ფაილი არის აღწერა Backus-Naur ფორმით (BNF). ეს იყენებს RFC 822-ის წესებს.

robots.txt ფაილში წესების დამუშავებისას, საძიებო რობოტები იღებენ სამ ინსტრუქციას:

ნაწილობრივი წვდომა: შესაძლებელია ვებსაიტის ცალკეული ელემენტების სკანირება;
სრული წვდომა: ყველაფრის სკანირება შეგიძლიათ;
სრული აკრძალვა: რობოტს არაფრის სკანირება არ შეუძლია.

robots.txt ფაილის სკანირებისას რობოტები იღებენ შემდეგ პასუხებს:

2xx -სკანირება წარმატებული იყო;
3xx -საძიებო რობოტი მიჰყვება გადამისამართებას, სანამ არ მიიღებს სხვა პასუხს. ყველაზე ხშირად, რობოტს აქვს ხუთი მცდელობა, მიიღოს პასუხი, გარდა 3xx პასუხისა, შემდეგ 404 შეცდომა დარეგისტრირდება;
4xx -საძიებო რობოტს სჯერა, რომ შესაძლებელია საიტის მთლიანი შინაარსის დაცინვა;
5xx -ფასდება როგორც სერვერის დროებითი შეცდომები, სკანირება სრულიად აკრძალულია. რობოტი შეძლებს ფაილზე წვდომას მანამ, სანამ ის სხვა პასუხს არ მიიღებს. Google-ის საძიებო რობოტს შეუძლია განსაზღვროს, არის თუ არა საიტზე დაკარგული გვერდების პასუხი სწორად ან არასწორად კონფიგურირებული, ანუ, თუ გვერდი 404 შეცდომის ნაცვლად აბრუნებს 5xx პასუხს, ამ შემთხვევაში გვერდი დამუშავდება პასუხის კოდით 404.

ჯერჯერობით უცნობია, როგორ მუშავდება robots.txt ფაილი, რომელიც მიუწვდომელია სერვერის ინტერნეტთან წვდომის პრობლემების გამო.

რატომ გჭირდებათ robots.txt ფაილი?

მაგალითად, ზოგჯერ რობოტები არ უნდა ეწვიონ:

გვერდები, სადაც განთავსებულია მომხმარებლების პირადი ინფორმაცია საიტზე;
გვერდები ინფორმაციის გასაგზავნად სხვადასხვა ფორმებით;
სარკის საიტები;
ძიების შედეგების გვერდები.

მნიშვნელოვანია: მაშინაც კი, თუ გვერდი არის robots.txt ფაილში, არსებობს შესაძლებლობა, რომ ის გამოჩნდეს შედეგებში, თუ მისი ბმული ნაპოვნია საიტზე ან სადმე გარე რესურსზე.

ასე ხედავენ საძიებო სისტემების რობოტები საიტს robots.txt ფაილით და მის გარეშე:

robots.txt-ის გარეშე, ინფორმაცია, რომელიც უნდა იყოს დამალული ცნობისმოყვარე თვალებისგან, შეიძლება აღმოჩნდეს ძიების შედეგებში და ამის გამო დაზარალდეთ როგორც თქვენ, ასევე საიტი.

ასე ხედავს საძიებო სისტემის რობოტი robots.txt ფაილს:

Google-მა აღმოაჩინა robots.txt ფაილი საიტზე და იპოვა წესები, რომლითაც უნდა მოხდეს საიტის გვერდების დათვალიერება.

როგორ შევქმნათ robots.txt ფაილი

Notepad, Notepad, Sublime ან ნებისმიერი სხვა ტექსტური რედაქტორის გამოყენებით.

მომხმარებლის აგენტი - სავიზიტო ბარათი რობოტებისთვის

მომხმარებლის აგენტი — წესი, რომლის შესახებაც რობოტებს უნდა ნახონ robots.txt ფაილში აღწერილი ინსტრუქციები. ამჟამად ცნობილია 302 საძიებო რობოტი

ის ამბობს, რომ ჩვენ ვაკონკრეტებთ წესებს robots.txt-ში ყველა საძიებო რობოტისთვის.

Google-ისთვის მთავარი რობოტი არის Googlebot. თუ მხოლოდ ამის გათვალისწინება გვინდა, ფაილში ჩანაწერი იქნება ასეთი:

ამ შემთხვევაში, ყველა სხვა რობოტი იკვლევს შინაარსს მათი დირექტივების საფუძველზე ცარიელი robots.txt ფაილის დასამუშავებლად.

Yandex-ისთვის მთავარი რობოტი არის... Yandex:

სხვა სპეციალური რობოტები:

Mediapartners-Google— AdSense სერვისისთვის;
AdsBot-Google— სადესანტო გვერდის ხარისხის შესამოწმებლად;
YandexImages— Yandex.Images indexer;
Googlebot-გამოსახულება- სურათებისთვის;
YandexMetrika— Yandex.Metrica რობოტი;
YandexMedia— რობოტი, რომელიც ახდენს მულტიმედიური მონაცემების ინდექსირებას;
YaDirectFetcher— Yandex.Direct რობოტი;
Googlebot-ვიდეო- ვიდეოსთვის;
Googlebot-მობილური- მობილური ვერსიისთვის;
YandexDirectDyn— დინამიური ბანერის გენერირების რობოტი;
YandexBlogs— ბლოგის საძიებო რობოტი, რომელიც ახდენს პოსტებისა და კომენტარების ინდექსირებას;
YandexMarket— Yandex.Market რობოტი;
YandexNews— Yandex.News რობოტი;
YandexDirect— ჩამოტვირთავს ინფორმაციას სარეკლამო ქსელის პარტნიორი საიტების შინაარსის შესახებ, რათა დაზუსტდეს მათი თემები შესაბამისი რეკლამის შესარჩევად;
YandexPagechecker— მიკრო მარკირების ვალიდატორი;
YandexCalendar— Yandex.Calendar რობოტი.

აკრძალვა - "აგურის" განთავსება

ღირს გამოყენება, თუ საიტი გაუმჯობესების პროცესშია და არ გსურთ, რომ ის ძიების შედეგებში გამოჩნდეს ამჟამინდელ მდგომარეობაში.

მნიშვნელოვანია ამ წესის ამოღება, როგორც კი საიტი მზად იქნება მომხმარებლებისთვის მისი სანახავად. სამწუხაროდ, ბევრ ვებმასტერს ავიწყდება ეს.

მაგალითი. როგორ დავაყენოთ აკრძალვის წესი, რათა ვურჩიოთ რობოტებს არ ნახონ საქაღალდის შინაარსი /პაპკა/:

ეს ხაზი კრძალავს ყველა ფაილის ინდექსირებას გაფართოებით .gif

ნება - ჩვენ ვხელმძღვანელობთ რობოტებს

დაშვება იძლევა ნებისმიერი ფაილის/დირექტივის/გვერდის სკანირების საშუალებას. ვთქვათ, გსურთ, რომ რობოტებს შეეძლოთ ნახონ მხოლოდ გვერდები, რომლებიც იწყება /catalog-ით და დახურონ ყველა სხვა შინაარსი. ამ შემთხვევაში ინიშნება შემდეგი კომბინაცია:

ნებადართული და აკრძალვის წესები დალაგებულია URL პრეფიქსის სიგრძის მიხედვით (ყველაზე პატარადან უდიდესამდე) და გამოიყენება თანმიმდევრულად. თუ ერთზე მეტი წესი ემთხვევა გვერდს, რობოტი ირჩევს ბოლო წესს დახარისხებულ სიაში.

მასპინძელი - აირჩიეთ სარკის საიტი

ჰოსტი ერთ-ერთი სავალდებულო წესია robots.txt-ისთვის; ის ეუბნება Yandex რობოტს, საიტის რომელი სარკე უნდა იყოს გათვალისწინებული ინდექსაციისთვის.

საიტის სარკე არის საიტის ზუსტი ან თითქმის ზუსტი ასლი, რომელიც ხელმისაწვდომია სხვადასხვა მისამართზე.

საიტის სარკეების პოვნისას რობოტი არ დაიბნევა და მიხვდება, რომ მთავარი სარკე მითითებულია robots.txt ფაილში. საიტის მისამართი მითითებულია "http://" პრეფიქსის გარეშე, მაგრამ თუ საიტი მუშაობს HTTPS-ზე, უნდა იყოს მითითებული "https://" პრეფიქსი.

როგორ დავწეროთ ეს წესი:

robots.txt ფაილის მაგალითი, თუ საიტი მუშაობს HTTPS პროტოკოლზე:

საიტის რუკა - სამედიცინო საიტის რუკა

საიტის რუკა ეუბნება რობოტებს, რომ ყველა საიტის URL, რომელიც საჭიროა ინდექსაციისთვის, მდებარეობს http://site.ua/sitemap.xml. ყოველი სეირნობისას რობოტი შეხედავს რა ცვლილებები განხორციელდა ამ ფაილში და სწრაფად განაახლებს ინფორმაციას საიტის შესახებ საძიებო სისტემის მონაცემთა ბაზაში.

Crawl-delay - წამზომი სუსტი სერვერებისთვის

Crawl-delay არის პარამეტრი, რომელიც შეიძლება გამოყენებულ იქნას იმ პერიოდის დასაყენებლად, რომლის შემდეგაც იტვირთება საიტის გვერდები. ეს წესი აქტუალურია, თუ თქვენ გაქვთ სუსტი სერვერი. ამ შემთხვევაში, შეიძლება იყოს ხანგრძლივი შეფერხებები, როდესაც საძიებო რობოტები შედიან საიტის გვერდებზე. ეს პარამეტრი იზომება წამებში.

Clean-param - დუბლიკატი შინაარსის მონადირე

Clean-param დაგეხმარებათ გაუმკლავდეთ პარამეტრებს, რათა თავიდან აიცილოთ კონტენტის დუბლირება, რომელიც შეიძლება ხელმისაწვდომი იყოს სხვადასხვა დინამიურ მისამართებზე (კითხვის ნიშნებით). ასეთი მისამართები გამოჩნდება, თუ საიტს აქვს სხვადასხვა დახარისხება, სესიის ID და ა.შ.

ვთქვათ, გვერდი ხელმისაწვდომია შემდეგ მისამართებზე:

www.site.com/catalog/get_phone.ua?ref=page_1&phone_id=1

www.site.com/catalog/get_phone.ua?ref=page_2&phone_id=1

www.site.com/catalog/get_phone.ua?ref=page_3&phone_id=1

ამ შემთხვევაში, robots.txt ფაილი ასე გამოიყურება:

Აქ refმიუთითებს საიდან მოდის ბმული, ასე რომ თავიდანვე იწერება და მხოლოდ ამის შემდეგ არის მითითებული დანარჩენი მისამართი.

მაგრამ სანამ საცნობარო ფაილზე გადახვალთ, ჯერ კიდევ უნდა გაეცნოთ რამდენიმე ნიშანს, რომლებიც გამოიყენება robots.txt ფაილის წერისას.

სიმბოლოები robots.txt-ში

ფაილის მთავარი სიმბოლოებია "/, *, $, #".

Გამოყენებით ხაზი "/"ჩვენ ვაჩვენებთ, რომ გვსურს თავიდან ავიცილოთ რობოტების აღმოჩენა. მაგალითად, თუ აკრძალვის წესში არის ერთი ხაზი, ჩვენ კრძალავს მთელი საიტის სკანირებას. ორი დახრილი სიმბოლოს გამოყენებით შეგიძლიათ თავიდან აიცილოთ კონკრეტული დირექტორია სკანირება, მაგალითად: /catalog/.

ამ ჩანაწერში ნათქვამია, რომ ჩვენ კრძალავს კატალოგის საქაღალდის მთლიანი შინაარსის სკანირებას, მაგრამ თუ დავწერთ /catalog, ჩვენ ავკრძალავთ საიტზე ყველა ბმულს, რომელიც იწყება /catalog-ით.

ვარსკვლავი "*"ნიშნავს ფაილში სიმბოლოების ნებისმიერ თანმიმდევრობას. იგი მოთავსებულია ყოველი წესის შემდეგ.

ამ ჩანაწერში ნათქვამია, რომ ყველა რობოტმა არ უნდა განათავსოს ფაილი .gif გაფართოებით საქაღალდეში /catalog/

დოლარის ნიშანი «$» ზღუდავს ვარსკვლავის ნიშნის მოქმედებებს. თუ გსურთ დაბლოკოთ კატალოგის საქაღალდის მთლიანი შინაარსი, მაგრამ არ შეგიძლიათ დაბლოკოთ URL-ები, რომლებიც შეიცავს /catalog-ს, ინდექსის ფაილში ჩანაწერი იქნება ასეთი:

ბადე "#"გამოიყენება კომენტარებისთვის, რომლებსაც ვებმასტერი ტოვებს თავისთვის ან სხვა ვებმასტერებისთვის. რობოტი მათ არ გაითვალისწინებს საიტის სკანირებისას.

Მაგალითად:

როგორ გამოიყურება იდეალური robots.txt

ფაილი ხსნის საიტის შიგთავსს ინდექსაციისთვის, რეგისტრირებულია ჰოსტი და მითითებულია საიტის რუკა, რომელიც საშუალებას მისცემს საძიებო სისტემებს ყოველთვის ნახონ მისამართები, რომლებიც უნდა იყოს ინდექსირებული. Yandex-ის წესები ცალკეა მითითებული, რადგან ყველა რობოტს არ ესმის მასპინძლის ინსტრუქციები.

მაგრამ ნუ იჩქარებთ ფაილის შინაარსის საკუთარ თავს კოპირებას - თითოეულ საიტს უნდა ჰქონდეს უნიკალური წესები, რომლებიც დამოკიდებულია საიტის ტიპზე და CMS-ზე. აქედან გამომდინარე, ღირს ყველა წესის დამახსოვრება robots.txt ფაილის შევსებისას.

როგორ შეამოწმოთ თქვენი robots.txt ფაილი

თუ გსურთ იცოდეთ სწორად იყო თუ არა შევსებული robots.txt ფაილი, შეამოწმეთ იგი ვებმასტერ ინსტრუმენტებში Googleდა Yandex. უბრალოდ შეიყვანეთ robots.txt ფაილის წყაროს კოდი ფორმაში ბმულის საშუალებით და მიუთითეთ შესამოწმებელი საიტი.

როგორ არ შეავსოთ robots.txt ფაილი

ხშირად, ინდექსის ფაილის შევსებისას, დაშვებულია შემაშფოთებელი შეცდომები და ისინი ასოცირდება ჩვეულებრივ უყურადღებობასთან ან აჩქარებასთან. ქვემოთ მოცემულია შეცდომების სქემა, რომელიც მე პრაქტიკაში შემხვედრია.

2. რამდენიმე საქაღალდის/კატალორის ჩაწერა ერთ Disallow განცხადებაში:

ასეთმა ჩანაწერმა შეიძლება დააბნიოს საძიებო რობოტები; მათ შეიძლება ვერ გაიგონ, რა არ უნდა დაადგინონ: ან პირველი საქაღალდე ან ბოლო, ასე რომ თქვენ უნდა დაწეროთ თითოეული წესი ცალკე.

3. თავად ფაილი უნდა იყოს გამოძახებული მხოლოდ robots.txt,და არა Robots.txt, ROBOTS.TXT ან რაიმე სხვა.

4. User-agent წესის ცარიელი დატოვება არ შეიძლება - უნდა თქვათ, რომელმა რობოტმა უნდა გაითვალისწინოს ფაილში ჩაწერილი წესები.

5. ფაილში დამატებითი სიმბოლოები (ხაზები, ვარსკვლავი).

6. ფაილში გვერდების დამატება, რომლებიც არ უნდა იყოს ინდექსში.

robots.txt-ის არასტანდარტული გამოყენება

პირდაპირი ფუნქციების გარდა, ინდექსის ფაილი შეიძლება გახდეს კრეატიულობის პლატფორმა და ახალი თანამშრომლების პოვნის საშუალება.

აქ არის საიტი, სადაც robots.txt თავისთავად არის პატარა საიტი სამუშაო ელემენტებით და რეკლამის ერთეულითაც კი.

ფაილს ძირითადად იყენებენ SEO სააგენტოები, როგორც პლატფორმა სპეციალისტების მოსაძებნად. კიდევ ვინ შეიძლება იცოდეს მისი არსებობის შესახებ? :)

და Google-ს აქვს სპეციალური ფაილი ადამიანები.txt, რათა საკუთარ თავს უფლება არ მისცეთ იფიქროთ ტყავის და ხორცის სპეციალისტების დისკრიმინაციაზე.

დასკვნები

Robots.txt-ის დახმარებით თქვენ შეგიძლიათ მისცეთ ინსტრუქციები რობოტების მოსაძებნად, საკუთარი თავის, თქვენი ბრენდის რეკლამირებისა და სპეციალისტების მოსაძებნად. ეს შესანიშნავი სფეროა ექსპერიმენტებისთვის. მთავარია გახსოვდეთ ფაილის სწორად შევსება და ტიპიური შეცდომები.

წესები, ასევე ცნობილი როგორც დირექტივები, ასევე ცნობილია როგორც ინსტრუქციები robots.txt ფაილში:

მომხმარებლის აგენტი - წესი, რომლის შესახებაც რობოტებს სჭირდებათ robots.txt-ში აღწერილი ინსტრუქციების ნახვა.
Disallow იძლევა რეკომენდაციებს იმის შესახებ, თუ რა ინფორმაცია არ უნდა იყოს დასკანირებული.
საიტის რუკა ეუბნება რობოტებს, რომ ყველა საიტის URL, რომელიც საჭიროა ინდექსაციისთვის, მდებარეობს http://site.ua/sitemap.xml.
მასპინძელი ეუბნება Yandex რობოტს, საიტის რომელი სარკე უნდა იყოს გათვალისწინებული ინდექსაციისთვის.
დაშვება იძლევა ნებისმიერი ფაილის/დირექტივის/გვერდის სკანირების საშუალებას.

ნიშნები robots.txt შედგენისას:

დოლარის ნიშანი "$" ზღუდავს ვარსკვლავის ნიშნის მოქმედებებს.
ხაზის გამოყენებით „/“ ჩვენ მივუთითებთ, რომ გვინდა დავმალოთ იგი რობოტების მიერ აღმოჩენისგან.
ვარსკვლავი "*" ნიშნავს ფაილში სიმბოლოების ნებისმიერ თანმიმდევრობას. იგი მოთავსებულია ყოველი წესის შემდეგ.
ჰეში "#" გამოიყენება კომენტარების აღსანიშნავად, რომლებსაც ვებმასტერი წერს თავისთვის ან სხვა ვებმასტერებისთვის.

გამოიყენეთ ინდექსის ფაილი გონივრულად - და საიტი ყოველთვის იქნება ძიების შედეგებში.

თავად ფაილის შექმნა

Robots.txt არის ფაილი საძიებო რობოტების ინსტრუქციებით. ის იქმნება საიტის ძირში. თქვენ შეგიძლიათ შექმნათ ის ახლავე თქვენს სამუშაო მაგიდაზე Notepad-ის გამოყენებით, ისევე როგორც თქვენ ქმნით ნებისმიერ ტექსტურ ფაილს.

ამისათვის დააწკაპუნეთ ცარიელ სივრცეზე მარჯვენა ღილაკით და აირჩიეთ ახალი – ტექსტური დოკუმენტი (არა Word). ის გაიხსნება ჩვეულებრივი ნოუთბუქის გამოყენებით. დაარქვით რობოტები, მისი გაფართოება უკვე სწორია - txt. ეს არის თავად ფაილის შესაქმნელად.

როგორ შევადგინოთ robots.txt

ახლა რჩება მხოლოდ ფაილის შევსება საჭირო ინსტრუქციებით. სინამდვილეში, რობოტების ბრძანებებს აქვთ უმარტივესი სინტაქსი, ბევრად უფრო მარტივი, ვიდრე პროგრამირების ნებისმიერ ენაზე. ზოგადად, თქვენ შეგიძლიათ შეავსოთ ფაილი ორი გზით:

შეხედეთ სხვა საიტს, დააკოპირეთ და შეცვალეთ თქვენი პროექტის სტრუქტურის შესაბამისად.

თვითონ დაწერე

მე უკვე დავწერე პირველი მეთოდის შესახებ. ეს შესაფერისია, თუ საიტებს აქვთ იგივე ძრავები და არ არის მნიშვნელოვანი განსხვავებები ფუნქციონირებაში. მაგალითად, WordPress-ის ყველა საიტს აქვს იგივე სტრუქტურა, მაგრამ შეიძლება იყოს სხვადასხვა გაფართოება, როგორიცაა ფორუმი, ონლაინ მაღაზია და მრავალი დამატებითი დირექტორია. თუ გსურთ იცოდეთ როგორ შეცვალოთ robots.txt, წაიკითხეთ ეს სტატია, შეგიძლიათ წაიკითხოთ წინაც, მაგრამ ეს საკმაოდ ბევრს იტყვის.

მაგალითად, თქვენ გაქვთ /source დირექტორია თქვენს ვებსაიტზე, სადაც ინახება სტატიების წყაროები, რომლებსაც წერთ თქვენს ბლოგზე, მაგრამ სხვა ვებმასტერს არ აქვს ასეთი დირექტორია. და თქვენ, მაგალითად, გსურთ დახუროთ წყაროს საქაღალდე ინდექსაციისგან. თუ თქვენ დააკოპირებთ robots.txt-ს სხვა რესურსიდან, მაშინ ასეთი ბრძანება იქ არ იქნება. მოგიწევთ თქვენი ინსტრუქციების დამატება, არასაჭირო ნივთების წაშლა და ა.შ.

ასე რომ, ნებისმიერ შემთხვევაში, სასარგებლოა იცოდეთ რობოტების ინსტრუქციების ძირითადი სინტაქსი, რომელსაც ახლა გავაანალიზებთ.

როგორ მივწეროთ თქვენი ინსტრუქციები რობოტებს?

პირველი, რითაც ფაილი იწყება, არის მითითება, თუ რომელ საძიებო სისტემებზეა მიმართული ინსტრუქციები. ეს კეთდება ასე:

მომხმარებლის აგენტი: Yandex ან მომხმარებლის აგენტი: Googlebot

მომხმარებლის აგენტი: Yandex

მომხმარებლის აგენტი: Googlebot

არ არის საჭირო სტრიქონის ბოლოში ჩასმა, ეს არ არის პროგრამირება თქვენთვის). ზოგადად, ნათელია, რომ პირველ შემთხვევაში, მხოლოდ Yandex ბოტი წაიკითხავს ინსტრუქციებს, მეორეში - მხოლოდ Google. თუ ბრძანებები უნდა შესრულდეს ყველა რობოტის მიერ, ჩაწერეთ ეს: User-agent:

დიდი. ჩვენ მოვაგვარეთ მიმართვა რობოტების მიმართ. არ არის რთული. ამის ილუსტრირება შეგიძლიათ მარტივი მაგალითით. სამი უმცროსი ძმა გყავს, ვასია, დიმა და პეტია და მთავარი ხარ. შენი მშობლები წავიდნენ და გითხრეს, მათ თვალი ადევნეო.

სამივე რაღაცას გთხოვენ. წარმოიდგინეთ, რომ თქვენ უნდა უპასუხოთ მათ, თითქოს წერთ ინსტრუქციებს რობოტების საძიებლად. ეს დაახლოებით ასე გამოიყურება:

მომხმარებელი-აგენტი: Vasya Allow: წასვლა ფეხბურთში მომხმარებელი-agent: Dima არ დაუშვას: წასვლა ფეხბურთზე (დიმამ ბოლო დროს მეზობლების ჭიქა გატეხა, ის დაისაჯა) მომხმარებელი-აგენტი: Petya Allow: წასვლა კინოში (Petya უკვე 16 წლისაა და საერთოდ შოკში ვარ, რომ ნებართვაც უნდა გთხოვო, მაგრამ კარგი, გაუშვი).

ამგვარად, ვასია სიამოვნებით ახვევს სპორტულ ფეხსაცმელს, დიმა, თავით დახრილი, ფანჯრიდან უყურებს ძმას, რომელიც უკვე ფიქრობს რამდენ გოლს გაიტანს დღეს (დიმამ მიიღო აკრძალვის ბრძანება, ანუ აკრძალვა). კარგად, პეტია მიდის თავის ფილმზე.

ამ მაგალითიდან ადვილი გასაგებია, რომ დაშვება არის ნებართვა, ხოლო აკრძალვა არის აკრძალვა. მაგრამ robots.txt-ში ჩვენ ბრძანებებს ვაძლევთ არა ადამიანებს, არამედ რობოტებს, ასე რომ, კონკრეტული ამოცანების ნაცვლად, იქ იწერება გვერდების და დირექტორიების მისამართები, რომლებსაც სჭირდებათ ნებადართული ან აკრძალული ინდექსირება.

მაგალითად, მე მაქვს საიტი site.ru. ის იკვებება WordPress-ით. ვიწყებ ინსტრუქციების წერას:

მომხმარებლის აგენტი: * აკრძალვა: /wp-admin/ აკრძალვა: /wp-content/ დაუშვებელი: /wp-includes/ დაშვება: /wp-content/uploads/ აკრძალვა: /source/ კარგად და ა.შ.

მომხმარებლის აგენტი: *

აკრძალვა: /wp-admin/

აკრძალვა: /wp-content/

აკრძალვა: /wp-includes/

აკრძალვა: /წყარო/

ნუიტ. დ.

ჯერ ყველა რობოტს მივაღწიე. მეორეც, მე დავბლოკე ძრავის საქაღალდეების ინდექსირება, მაგრამ ამავე დროს რობოტს მივეცი წვდომა ჩამოტვირთვების საქაღალდეში. ყველა სურათი ჩვეულებრივ ინახება იქ და ისინი, როგორც წესი, არ იბლოკება ინდექსირებაში, თუ გეგმავთ ტრაფიკის მიღებას სურათების ძიებიდან.

კარგად, გახსოვთ, ადრე სტატიაში ვთქვი, რომ შეგიძლიათ დამატებითი დირექტორიები? თქვენ შეგიძლიათ თავად შექმნათ ისინი სხვადასხვა მიზნებისთვის. მაგალითად, ჩემს ერთ-ერთ საიტზე არის ფლეშ საქაღალდე, სადაც ვდებ ფლეშ თამაშებს, რათა გავუშვა ისინი საიტზე. ან წყარო – ამ საქაღალდეს შეუძლია შეინახოს ფაილები, რომლებიც ხელმისაწვდომია მომხმარებლებისთვის ჩამოსატვირთად.

ზოგადად, არ აქვს მნიშვნელობა რა ჰქვია საქაღალდეს. თუ მისი დახურვა გჭირდებათ, მიუთითეთ მისკენ მიმავალი გზა და ბრძანება Disallow.

Allow ბრძანება საჭიროა ზუსტად იმისთვის, რომ გაიხსნას უკვე დახურული მონაკვეთების ზოგიერთი ნაწილი. ყოველივე ამის შემდეგ, ნაგულისხმევად, თუ არ გაქვთ robots.txt ფაილი, მთელი საიტი ხელმისაწვდომი იქნება ინდექსაციისთვის. ეს კარგია (რა თქმა უნდა, შეცდომით არ დახურავთ რაიმე მნიშვნელოვანს), და ამავდროულად ცუდი (გაიხსნება ფაილები და საქაღალდეები, რომლებიც არ უნდა იყოს ძიების შედეგებში).

ამ პუნქტის უკეთ გასაგებად, გირჩევთ კიდევ ერთხელ გადახედოთ ამ ნაწილს:

აკრძალვა: /wp-content/ დაშვება: /wp-content/uploads/

აკრძალვა: /wp-content/

დაშვება: /wp-content/uploads/

როგორც ხედავთ, ჯერ ჩვენ ვბლოკავთ მთელი wp-content დირექტორიას ინდექსირებას. ის ინახავს თქვენს ყველა შაბლონს, დანამატს, მაგრამ ასევე შეიცავს სურათებს. ცხადია, მათი გახსნა შესაძლებელია. ამიტომ გვჭირდება Allow ბრძანება.

დამატებითი პარამეტრები

ჩამოთვლილი ბრძანებები არ არის ერთადერთი რამ, რაც შეიძლება მითითებული იყოს ფაილში. არის ესენიც: მასპინძელი – მიუთითებს საიტის მთავარ სარკეზე. მათთვის, ვინც არ იცოდა, ნებისმიერ ვებსაიტს აქვს დომენის სახელის ორი ნაგულისხმევი მართლწერის ვარიანტი: domain.com და www.domain.com.

პრობლემების თავიდან ასაცილებლად, თქვენ უნდა მიუთითოთ ერთი ვარიანტი, როგორც მთავარი სარკე. ეს შეიძლება გაკეთდეს როგორც ვებმასტერის ინსტრუმენტებში, ასევე Robots.txt ფაილში. ამისათვის ჩვენ ვწერთ: Host: domain.com

რას იძლევა ეს? თუ ვინმე შეეცდება თქვენს საიტზე მოხვედრას ასე: www.domain.com, ის ავტომატურად გადამისამართდება ვერსიაზე www-ის გარეშე, რადგან ის იქნება აღიარებული მთავარ სარკედ.

მეორე დირექტივა არის საიტის რუკა. ვფიქრობ, თქვენ უკვე გესმით, რომ ის განსაზღვრავს გზას საიტის რუქისკენ xml ფორმატში. მაგალითი: http://domain.com/sitemap.xml

ისევ შეგიძლიათ ატვირთოთ რუკა Yandex.Webmaster-ში, ასევე შეგიძლიათ მიუთითოთ ის robots.txt-ში, რათა რობოტმა წაიკითხოს ეს ხაზი და ნათლად გაიგოს, სად უნდა მოძებნოს საიტის რუკა. რობოტისთვის საიტის რუკა ისეთივე მნიშვნელოვანია, როგორც ვასიასთვის - ბურთი, რომლითაც ის ფეხბურთში წავა. ეს იგივეა, რომ ის გკითხოს (როგორც უფროსი ძმა) სად არის ბურთი. და შენ უთხარი მას:

გაიხედე დივნის უკან

ახლა თქვენ იცით, როგორ სწორად დააკონფიგურიროთ და შეცვალოთ robots.txt Yandex-ისთვის და, ზოგადად, ნებისმიერი სხვა საძიებო სისტემისთვის თქვენი საჭიროებისთვის.

რას აკეთებს ფაილის პერსონალიზაცია?

ამაზე ადრეც ვისაუბრე, მაგრამ კიდევ ერთხელ ვიტყვი. მკაფიოდ კონფიგურირებული ფაილის წყალობით რობოტებისთვის ბრძანებებით, შეგიძლიათ უფრო ადვილად დაიძინოთ იმის ცოდნა, რომ რობოტი არ გადაიჭრება არასაჭირო განყოფილებაში და არ მიიღებს არასაჭირო გვერდებს ინდექსში.

ისიც ვთქვი, რომ robots.txt-ის დაყენება ყველაფერს არ წყვეტს. კერძოდ, ეს არ გიხსნით დუბლიკატებისგან, რომლებიც წარმოიქმნება იმის გამო, რომ ძრავები არასრულყოფილია. ისევე როგორც ადამიანები. ვასიას უფლება მისცეს ფეხბურთში წასულიყო, მაგრამ ფაქტი არ არის, რომ ის იქ იგივეს არ გააკეთებს, რასაც დიმა. იგივეა დუბლიკატების შემთხვევაშიც: შეგიძლიათ გასცეთ ბრძანება, მაგრამ ნამდვილად არ შეგიძლიათ დარწმუნებული იყოთ, რომ რაიმე დამატებითი არ შემოიპარება ინდექსში და გააფუჭებს პოზიციებს.

ასევე არ არის საჭირო ორმაგების შიში, როგორც ცეცხლი. მაგალითად, Yandex მეტ-ნაკლებად ნორმალურად ეპყრობა საიტებს, რომლებსაც სერიოზული ტექნიკური პრობლემები აქვთ. კიდევ ერთი რამ არის ის, რომ თუ დაიწყებთ ბიზნესს, მაშინ ნამდვილად შეგიძლიათ დაკარგოთ ტრაფიკის სერიოზული პროცენტი საკუთარ თავზე. თუმცა, მალე ჩვენს სექციაში, რომელიც ეძღვნება SEO-ს, იქნება სტატია დუბლიკატების შესახებ, შემდეგ ჩვენ ვიბრძოლებთ მათთან.

როგორ მივიღო ნორმალური robots.txt, თუ მე თვითონ არაფერი მესმის?

ბოლოს და ბოლოს, robots.txt შექმნა არ არის ვებსაიტის შექმნა. ეს გარკვეულწილად უფრო მარტივია, ასე რომ თქვენ შეგიძლიათ უბრალოდ დააკოპიროთ ფაილის შინაარსი ნებისმიერი მეტ-ნაკლებად წარმატებული ბლოგერისგან. რა თქმა უნდა, თუ თქვენ გაქვთ WordPress საიტი. თუ ის სხვა ძრავზეა, მაშინ უნდა მოძებნოთ საიტები იმავე cms-ის გამოყენებით. მე უკვე ვთქვი, თუ როგორ უნდა ნახოთ ფაილის შინაარსი სხვის ვებსაიტზე: Domain.com/robots.txt

ქვედა ხაზი

არა მგონია, აქ მეტი სათქმელი იყოს, რადგან რობოტის ინსტრუქციების წერა არ უნდა იყოს თქვენი მიზანი წლის განმავლობაში. ეს არის დავალება, რომელიც დამწყებმაც კი 30-60 წუთში შეასრულებს, პროფესიონალს კი სულ რამდენიმე წუთში შეუძლია. წარმატებას მიაღწევთ და ამაში ეჭვი არ გეპარებათ.

და სხვა სასარგებლო და მნიშვნელოვანი რჩევების გასარკვევად ბლოგის პოპულარიზაციისა და პოპულარიზაციისთვის, შეგიძლიათ ნახოთ ჩვენი უნიკალური. თუ იქიდან გამოიყენებთ რეკომენდაციების 50-100%-ს, მომავალში ნებისმიერი საიტის წარმატებით პოპულარიზაციას შეძლებთ.